情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
複素環化合物の特許調査に関する考察
REGISTRY/MARPAT/DCRの構造検索比較
小林 伸行黒田 潔鈴木 順行大島 優香
著者情報
ジャーナル フリー HTML

2013 年 56 巻 8 号 p. 515-524

詳細
著者抄録

有機低分子化合物の新規性調査では,化学構造検索が可能なデータベースを利用することが多い。これらデータベースが複数存在する中で,調査担当者はすべてのデータベースを利用することなく,目的に応じてデータベースを選択している。今回,STN InternationalのREGISTRY,MARPAT,およびDWPIのDCRの3データベースの化学構造検索結果を比較検討した。これにより,各データベースの特徴を再確認し,今後の調査におけるデータベース選択の指針とするために評価を行ったので報告する。

1. はじめに

農医薬業界では新規な有効成分を含む農薬や医薬を開発するにあたり,必ず物質特許(新規物質を請求項に組み入れた特許)の取得を目指し,特許出願を行う。これは開発にかかる時間が長く,費用が高額であるため,コスト回収には絶対的な物質特許を維持して他者を排除し,少しでも収益を上げるためである。なお,物質特許の切れた農医薬は「ジェネリック」と呼ばれ,第三者が製造販売できるようになり,製品の単価や開発者のシェアが下がるなど収益に影響を及ぼしてしまう。

よって,有機低分子化合物の農医薬分野におけるテーマ探索や特許出願前の新規性調査の際には,対象化合物の化学構造式に基づいた化学構造検索が一般的に行われている。化学構造検索は精度よく調査ができるが,一方で論文や特許中の化合物の収録基準を理解していないと検索漏れを生じてしまうこともある。

化学構造式で検索できるデータベースとしては,REGISTRY,Reaxys,MARPAT,DerwentWorldPatentsIndex(以下DWPI)のDerwentChemistryResource(以下DCR),ChemSpiderが一般的によく利用されている。また,ほかに化学構造情報を分解して母核や官能基等のコードに置き換えるDWPIのケミカルフラグメンテーションコードなどがある。

このような複数のデータベースが存在する中で,調査担当者または研究者は,毎回すべてのデータベースを利用して調査しているわけではなく,目的に応じてデータベースを選択して利用しているのが実情である。

今回,特許情報についてSTN Internationalから提供されているREGISTRY,MARPAT,DWPIのDCRの3データベースの化学構造検索の結果を比較検討することにより,各データベースの特徴を再確認し,今後のデータベース選択の指針とするため評価を行った。

2. システムの特徴

STN Internationalは約150のデータベースからなる科学技術分野のオンライン情報検索システムである。

2.1 REGISTRYからCAplusへのクロスオーバー検索

化学構造検索において最もよく利用されているのが,Chemical Abstracts Serviceが作成する抄録誌Chemical Abstracts(冊子体発行は2009年で中止)を基にした,REGISTRYとCAplusである1)

CAplusは化学・化学工学分野の世界中の論文や特許を収録したデータベースであり,最大の特徴はこれらに記載のあった化合物を索引基準に基づいて索引していることである。この索引基準では,基本的には特許や文献で重要となる新規化学物質や化学反応で利用されている有用な既存化学物質を個々に索引対象としている。索引する化学物質はCAS登録番号で管理され,この登録番号がREGISTRYとCAplusを結び付けるキーになっている。

REGISTRYはCAplusの各レコードに索引された化学物質とその構造情報をCAS登録番号単位で収録しており,現在1億3千万以上の化学物質を収録する世界最大の化学物質データベースである。

従来,CAplusに収録される特許の実施例中の新規化学物質は,物性値等のハードデータをもつ化学物質を索引してきたが,2008年から特許の実施例中の化学物質で物性等のハードデータがなくても化学構造が特定できる化学物質を索引するようになった。現在1993年まで遡及収録している。これにより特許中からの収録化合物数が増加し,化学構造による検索のヒット率が向上すると推測する。

なお,今回の検討ではCAplusではなく,検索語料が課金されないHCAplusを利用している。

2.2 MARPAT

MARPATは同じくChemical Abstracts Serviceが作成するデータベースである2)。1961年以降に発行されたCAplusの収録対象特許の中で,Markushクレーム注1)で書かれた有機低分子化合物の特許請求項を化学構造検索できるよう索引付けしている。MARPATの化学構造検索は,マッチレベル注2)という請求項の表記(化学構造の上位概念等)をどこまで検索に含めるか設定する機能がある。研究者がこの機能を十分使いこなすのは難しく,調査担当者向けのデータベースである。

SciFinder注3)にもMARPATが搭載されているが,マッチレベルの機能をあらかじめ固定することにより研究者が利用しやすくなっている一方で,全体の機能は限定されている。

2.3 DCR

トムソン・ロイター社が作成するDWPIを技術分野で分類したB(医薬),C(農薬),E(化学)の各セクションの1999年16週以降収録特許の中で,次の索引基準で特定化合物情報を索引している3)4)

  • •   請求項のすべての特定化合物
  • •   実施例中の最も重要な化合物を少なくとも1つ
  • •   請求項以外の化合物(請求項のサポートに有効 な物理的または生物的データを有し,構造的多 様性を考慮)

ただし,索引化合物数は99個までに制限されており,網羅性は期待できないが,REGISTRYやMARPATではヒットできない特定化合物がヒットする可能性がある。

3. 検討方法と検索手順

データベース比較のため,複素環を含む6テーマ(1)を選抜後,REGISTRY,MARPAT,DCRにおいて部分構造検索を実施し,それぞれの結果をHCAplusファイルへクロスオーバー検索し,ヒットした特許レコードの重複状況を比較検討した。

図1 複素環誘導体6テーマ

複素環をテーマに選定した理由は,複素環は種類も豊富で検証時に適度な件数の集合を作成しやすく,かつヒットした化学構造が特許公報のどこに記載されているかの確認が比較的容易なためである。今回のテーマの一部にはヒット件数の調整等のため,複素環に官能基が置換しているものも含んでいる。

各テーマにおいて3データベースの化学構造式は,同じ質問式を使用した。ただし,MARPATのマッチレベルは,複素環の構成原子および置換基すべてを原子(アトム)に設定し,構造が明確になっているものに限定した。

3データベースの構造検索の回答集合をHCAplusへクロスオーバーし,かつ特許に限定し,さらに検証のためにBASIC特許注4)の発行年を2011年に絞った。各データベース由来のレコード間の重複状況は,STN International上の論理演算子を用いて確認し(2),結果はベン図にまとめた(3)。

図2 チアゾリジノン検索履歴
図3 HCAplusファイルにおけるREGISTRY/MARPAT/DCRの重複状況

ヒット内容の検証にあたり,化合物索引の信頼性が高く,われわれが定常的に検索で利用しているREGISTRY由来のレコードは今回の検討から除外し,MARPATのみとDCRのみでヒットしたレコードを検討対象とした。

結果の検証方法は,MARPATのみでヒットしたレコード,およびDCRのみでヒットした各レコードのBASIC特許の特許公報を入手し,該当複素環が(1)請求項の一般式(Markushクレーム),(2)請求項の特定化合物,(3)実施例中の特定化合物,(4)実施例中の化合物一覧表 の4区分でどのように書かれているかを1の判断基準で分析し,2のチェックシートを作成し,判断とコメントを追記した。

表1 解析結果の判断欄の記号の説明
表2 チェックシートの例

判断基準は,請求項(一般式)が◎のレコードはMARPATでヒットすべきレコード,請求項(具体的)が◎のレコードはDCRやREGISTRYでヒットすべきレコードである。一方,請求項(一般式)や請求項(具体的)が○のレコードは,索引データを作成するアナリストの判断によるところが大きく,ヒットは安定しないレコードであるが,調査担当者からするとヒットして欲しいレコードを現している。

BASIC特許が日本語,英語以外の場合は,対応特許の日本語または英語で書かれている特許で確認を行った。

4. 結果

4.1 MARPATのみの結果

結果の詳細を3に示す。

表3 MARPATでヒットしたレコードの解析

請求項に一般式(Markushクレーム)で記載されているものが全6テーマそれぞれ最も多く,かつ請求項,実施例,および化合物一覧表に具体的記載のないものが多い。これはMARPATの索引基準による特徴である。

次に,請求項の一般式(Markushクレーム)では上位概念の置換基しか記載がない場合でも明細書中に具体的置換基が記述されていると,MARPATでは上位概念の置換基および具体的置換基を索引しているケースが6テーマ中4テーマで確認できた。

また,索引方針にある通り請求項よりも明細書の記載の方が広い場合,明細書から索引している事例も確認できた。

一方,フェノキサジンおよびカルバゾールは,実施例や化合物一覧表に特定化合物を記載しているものがあり,本来ならREGISTRYでヒットしてもよいものである。

4.2 DCRのみの結果

結果の詳細を4に示す。

表4 DCRでヒットしたレコードの解析

請求項に一般式(Markushクレーム)がまったく記載されていないものは,回答のあった5テーマ中3テーマあり,DCRの索引基準通り特定化合物から索引されている。

請求項に具体的化学名,農医薬の一般名および化学構造式が明確に記載されているものがピラゾロピリミジン,フェノキサジン,チアゾリジノンの3テーマで多く確認できた。

また,実施例や化合物一覧表に特定化合物を索引しているものがフェノキサジン,カルバゾール,チアゾリジノンであり,これらは本来ならREGISTRYでヒットしてもよいものである。

ピラゾロピリミジン,カルバゾール,チアゾリジノンの3テーマは,請求項に非特定誘導体名や特定作用機構の阻害剤との記載だけで化合物が特定されていない場合でも,明細書に具体的な化合物名や構造を明示していると,これらを索引している事例があった。

5. 考察

5.1 MARPATにおける明細書から具体的索引

今回の検証において,MARPATのみでヒットしたレコードの中に,請求項の置換基が一般式で記述されているだけでも,明細書から補足して具体的な置換基が索引されている事例を確認した。

4は一般式(1)のアミド誘導体の特許である。請求項1では,Ar1,Ar2,Ar3,Ar4は各々独立して置換基を有していても良いアリール基,またはヘテロアリール基と記述されているだけで具体的記載はなく,請求項からの索引しかなければ本特許はヒットできない。しかし,明細書中には請求項よりAr1とAr2,およびAr3とAr4は互いに結合して環を形成するとあり,その具体的置換基の1つに「カルバゾール環」や「フェノキサジン環」が記述されているため,MARPATでは「ヘテロ環」「カルバゾール環」「フェノキサジン環」などを索引している。このように請求項を補足する具体例を明細書中から索引することにより,化学構造検索の質問式でマッチレベルを原子(アトム)に設定しても,ヒットする確率が上っていると推測できる。

図4 MARPATでヒットするJP2011136910の索引例

5.2 DCRにおける明細書から具体的索引

DCRのみでヒットしたレコードの中に,請求項が非特定誘導体や化合物群で記述されているだけの場合,明細書中から補足して索引されている事例を確認した。

5は新規殺菌剤と既存殺菌剤との組み合わせ特許である。請求項5には既存殺菌剤の1つとして「有機リン誘導体」と記述されるだけで具体的記載はない。しかし,発明の詳細な説明には具体的有機リン誘導体の1つとして「pyrazophos」が記述されており,DCRはピラゾロピリミジン環をもつ「pyrazophos」からヒットした。

図5 DCRでヒットするWO2011095459索引例

DCRは特定化合物から索引するため,REGISTRYの索引と比較的近いが,明細書からの索引範囲が違うため回答に差異が生じる。REGISTRYとDCRはセットで利用していくとよい。

5.3 農医薬の混合成分特許の収録

CAplusの化学物質索引の1つに「特許請求項に記載された特定化学物質(1981年以降)」と定義されているが,農医薬の混合成分特許において,請求項に特定化学物質が明記されていながら索引されていない事例を確認した。

6は請求項1が5-methyl-1,2,3-thiadiazole-4-benzoylurea誘導体に関する物質,請求項7から9が既存殺虫剤および殺菌剤との組み合わせを記述している。チアゾリジノン環の部分構造をもつ「hexythiazox」および「fosthiazate」はこれら請求項に明記されているが,CAplusにはこれらCAS登録番号の索引はなく,チアゾリジノンの部分構造検索からは本レコードはヒットしない。なお,このレコードは請求項7から9に記載されている既存農薬は一切索引されていなかった。

図6 CAplusに収録されないCN102174030索引例

この要因は,請求項からの化学物質索引において,発明の主題から外れた特定物質やオプションとして非常に多くの特定物質の記述がされている場合,アナリストに収録判断が任され、必ずしも索引されないためである。

新規性調査の観点から,ぜひこのような請求項の特定化合物は,CAplusで全化合物を索引していただきたい。

5.4 DWPIからHCAplusへのクロスオーバーによる課題

今回TRANSFERコマンド注5)でDWPIのヒット集合の全特許番号をHCAplusへクロスオーバーするにあたり,以下の課題があった。

5.4.1 収録対象国・地域の差異

両データベースの収録対象国・特許種別の違いで台湾,メキシコなど抜け落ちる特許が発生した(5)。

表5 DCRからHCAplusへのクロスオーバーで抜け落ちたレコード(特許国・特許種別)

5.4.2 BASIC特許の違いによる索引の差異

同じ特許ファミリーであっても,HCAplusとDWPIのBASIC特許は必ずしも一致しない場合がある。BASIC特許が違うと,索引の作成や対応特許ファミリーの収録,BASIC特許の発行年などヒット集合に差異を生じてしまい,比較が難しくなる。

今回はこれらを極力排除するため,DCRのみでヒットしたHCAplusの集合は,再度DWPIへHCAplusの対応特許番号をTRANSFERコマンドで戻し,HCAplusとDWPIのレコードを両方出力した結果を目視し,検索漏れを生じないようチェックしている。

またHCAplusでは,ダブルベーシック注6)や化合物索引が膨大な場合,1つの特許が複数レコードに分割される場合もあるが,今回はそのままヒット件数にカウントしている。

6. まとめ

STN InternationalやSciFinderユーザーの多くは,REGISTRYからCAplusを利用した検索で先行技術調査を終えている場合が多いと想定されるが,今回の事例からMARPATやDCRを併せた化学構造検索の実行により,調査の網羅性は上がることが明らかになった。そして,調査の目的に応じたREGISTRY,MARPAT,DCRの使い分けは有用である。

MARPATは,請求項の一般式に含まれるが実施例のないものがヒットしており,低分子化合物の新規性調査にはREGISTRYからCAplusへのクロスオーバー検索と併せて検索することが有効である。その際,環構造のマッチレベルは原子(アトム)に設定し,ヒット精度の高い集合からチェックするとよい。

一方,DCRは,特定化合物の用途や組成物にかかわる新規性調査において,REGISTRYからCAplusへのクロスオーバー検索と併用することにより,両データベースの化学物質索引基準を補うことができ有効である。

今回の検証にあたりデータベースの索引ミスと推測できる事例をいくつか経験し,従来から検索時によく指導される複数データベースを利用することの重要性を改めて確認する結果となった。複数データベースの利用は各データベースの収録方針の違いによる網羅性を上げるだけでなく,データベースの索引ミスを補完する点でも極めて有用であると言える。また,今回は3つのデータベースで同一の構造検索式を用いたが,実際の検索ではデータベースごとに検索式を調整しながら検索するのが現実的である。

謝辞

本稿は,日本アグケム情報協議会2012年度オンライン研究会におけるワーキンググループでの研究成果を元にまとめたもので,寄稿にあたり一般社団法人化学情報協会の船戸奈美子氏,澤井善行氏,およびトムソン・ロイター社のツー・ツォン(Chong (Charry) CHU)氏には資料提供等でご協力いただいた。ここに感謝の意を表したい。

本文の注
注1)  「Markushクレーム」:化学分野の特許にみられる複雑な構造式。複数の選択肢がある置換基について,選択肢を可変構造で示したもの。例:R1=C1-4のアルキル基,アルケニル基

注2)  「マッチレベル」:MARPAT特有の属性で,置換基を3つのレベルで索引する。例:調査対象は「フッ素」だが,請求項記載は「ハロゲン」も回答に含めるかどうかの設定機能。

注3)  「SciFinder」:医薬,生化学,物理,工学等の科学情報を必要とする研究者が利用することを想定したChemical Abstracts Serviceが提供する化学を中心とするオンライン検索サービス。

注4)  「BASIC特許」:データベース作成機関が最初に収録した特許のことで,この特許から抄録,索引を作成する。BASIC特許と同じ優先権データをもつ特許は対応特許として扱われる。

注5)  「TRANSFERコマンド」:STN Internationalにおける回答中の特定のフィールドを抽出・解析した後,さらに自動的に検索を実行するコマンド。ここでは,対応特許の特許番号を抽出し,別ファイルで実行している。

注6)  「ダブルベーシック」:CAplusにおいてPCT出願公報とPCT出願の基礎となった最も古い優先権情報をもつ国内出願公報の両方を別レコードとして収録し,それぞれの索引を付与する。

参考文献
 
© 2013 Japan Science and Technology Agency
feedback
Top