開発元 | InChI Trust |
---|---|
初版 | 2005年4月15日 (2005-04-15)[1][2] |
最新版 | 1.04 /2011年9月 (13年前) (2011-09) |
リポジトリ | ![]() |
対応OS | Microsoft Windows andUnix-like |
プラットフォーム | IA-32 andx86-64 |
サイズ | 4.3 MB |
対応言語 | 英語 |
サポート状況 | Active |
ライセンス | IUPAC / InChI Trust Licence |
公式サイト | https://www.inchi-trust.org/ |
テンプレートを表示 |
InChI(International Chemical Identifier)は、標準的かつ人間が読める方法で分子情報を提供し、またウェブ上でのデータベースからの情報の検索機能を提供する。元々、2000年から2005年にIUPACとNISTによって開発され、フォーマットとアルゴリズムは非営利であり、開発の継続は、IUPACも参画する非営利団体のInChI Trustにより、2010年までサポートされていた。現在の1.04版は、2011年9月にリリースされた。
1.04版の前までは、ソフトウェアはオープンソースのGNU Lesser General Public Licenseで無償で入手できたが[3]、現在は、IUPAC-InChI Trust Licenseと呼ばれる固有のライセンスとなっている[4]。
識別子は、情報のレイヤーとして化学物質を記述する。レイヤーには、原子とその結合、互変異性情報、同位体情報、立体化学、電荷の情報がある。しかし全てのレイヤーが提供される訳ではなく、例えば互変異性のレイヤーは省略されることがある。
広く用いられているCAS登録番号とは、以下の点で異なる。
そのため、InChIは、IUPAC命名法を一般化、極端な定式化したものと見なすことができる。単純なSMILES記法よりも多くの情報を表現でき、全ての構造が、データベースの応用に必要な独自のInChI文字列を持つ点が異なっている[要出典]。原子の3次元配列の情報はInChIでは表せず、この目的のためにはPDB等のフォーマットが用いられる。
InChIアルゴリズムは、入力された構造情報を、正規化(冗長な情報の除去)、標準化(各原子に固有の番号を生成)、整列化(特徴の文字列を付与)の3段階の過程で固有の識別子に変換する。
hashed InChIとも呼ばれるInChIKeyは、25文字の固定長であるが、デジタル表現なので人間には読むことができない。InChIKeyの仕様は、ウェブでの検索を可能にするために、2007年9月にリリースされた[5]。InChIそのものとは異なり、InChIKeyは一意ではなく、非常に稀ではあるが重複が発生する[6]。
2009年1月、InChIソフトウェアの最終の1.02版がリリースされた。これにより、いわゆるstandard InChIの生成が可能となった。standard InChIは、InChI文字列と、異なったグループによって生成されたキーの比較を容易にし、データベースやウェブ資源等の広範な情報源からのアクセスを可能にした。
MIMEタイプ | chemical/x-inchi |
---|---|
種別 | chemical file format |
全てのInChIは、InChI=
という文字列から始まり、バージョン(現在は1
)が続く。standard InChIでは、これにS
の文字が続く。残りの情報は、レイヤーとサブレイヤーの配列として構造化され、各々のレイヤーは、1つの種類の情報を収める。レイヤーとサブレイヤーは、区切り文字/
で隔てられ、(メインレイヤーの化学式サブレイヤーを除き)固有の接頭文字で始まる。6つのレイヤーと各々の重要なサブレイヤーは、以下の通りである。
p
)中性の系からプロトンを何個付加/除去するかを表すq
)系の電荷を表すi
,h
、同位体立体化学に対してはb
,t
,m
,s
)f
) - 原子の繋がり以外の、上記の一部または全てのレイヤーを含む。o
サブレイヤーで終わってもよい。r
) - 金属原子と再接続する全ての構造のInChIを含む。standard InChIには含まれない。区切り文字と接頭文字のフォーマットは、使用者が特定のレイヤーのみ合致する識別子を探すために容易にワイルドカード検索を実施できる点で優位性がある。
CH3CH2OH エタノール | InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3 InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3 (standard InChI) |
CH3N+H3 メチルアンモニウム | InChI=1/CH5N/c1-2/h2H2,1H3/p+1 InChI=1S/CH5N/c1-2/h2H2,1H3/p+1 (standard InChI) |
![]() L-アスコルビン酸 | InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1 (standard InChI) |
このフォーマットは、元々IChI(IUPAC ChemicalIdentifier)と呼ばれていたが、2004年7月にINChI(IUPAC-NIST Chemical Identifier)と改名され、同年11月にInChI(IUPAC International Chemical Identifier)に再改名され、IUPACの商標とされた。
InChIの管理は、IUPACのVIII小委員会で行われており、新しい標準の拡張のための調査等の経費は、IUPACとInChI Trustが負担している。InChI Trustは、InChIの発展、試験、文書整備のための資金を出している。現在の拡張では、重合体及び混合物、マルクーシュ構造、反応と有機金属の取扱いについて定義しており、VIII小委員会に承認されればアルゴリズムに加えられる。
InChIは、ChemSpiderやPubChem等を含む大小様々なデータベースに採用されている。しかし、多くのデータベースで構造とInChIの食い違いが見られ、リンク用データベースの課題となっている[7]。