見出し画像

【W4】リガンドベーススクリーニング_03_Step1_MACCSフィンガープリント

【本パート(W4)の目的】

化合物をエンコード(記述子、フィンガープリント)し、比較(類似性評価)する様々なアプローチを取り扱います。さらに、バーチャルスクリーニングを実施します。

上記はPython版のT4の説明ですが、W4の目的も同じです。

そのための教材として

既知のEGFR阻害剤ゲフィチニブ(Gefitinib)をクエリとして使用し、EGFRに対して試験済みの化合物データセットの中から類似した化合物を検索します。

【MACCSフィンガープリント算出】

今回は
「4. Ligand-based screening: compound similarity」メタノード内のStep1
下部, MACCSフィンガープリント算出を体験します。

画像1

Magattacaさんの記事から引用します。

Molecular ACCess System (MACCS) フィンガープリント、あるいはMACCS構造キーとも名付けられている手法は、あらかじめ定義された166個の構造フラグメントから構成されています。各位置は、ある特定の構造フラグメントあるいはキーが存在しているかいないかを問い合わせた(クエリ)結果を格納しています。それぞれのキーは創薬化学者によって経験的に定義されたもので、利用、解釈が容易です。

画像2

166個のキー定義が公開されていますので、ご興味ある方はご覧ください。


【RDKit Fingerprint】

前回のMorganフィンガープリント算出と基本的には同様です。

今回の設定:

A) QueryすなわちGefitinib (下のノード)
B) DatasetすなわちW2の出力である4510化合物 (上のノード)
設定内容は揃えてあるのでA)のQueryの方だけお示しします。Morganの時とFingerprint typeのみが異なりますね。

画像3

日本語化されたノードディスクリプションによると、このノードは

入力された RDKit Mol カラムのハッシュ化されたビットベースのフィンガープリントを生成し、テーブルに追加します。
いくつかのフィンガープリントタイプが利用できます。
各タイプですべての設定が使用されるわけではありません。
フィンガープリントの種類でサポートされていない設定は、無効/非表示にされ、効果はありません。

とのことで、実際AdvancedタブはMorganで示されていたいくつかのメニューが非表示になりました。

画像4

結果:
A) Query

画像5

B) Dataset

画像6

以上となります。
次はStep2、類似度算出へ進めます。


おまけ:

【化合物の特徴量いろいろ】

Step1は化合物をエンコードするために、特徴量の抽出を体験するのが目的ですが、いきなりフィンガープリント算出へ進めてしまいました。
しかしそもそも特徴量にもいろいろあります。

機械学習でデータを解析する際、入力するデータは数字である必要があります。一方、化合物は化学者にとって分かりやすい構造式として表記されることが多いです。そのため、構造式を数字に落とし込む必要があります。構造式の数字表現としては色々ありますが、例えば分子量であったり、ヒドロキシ基の個数などが考えられます。また、構造式を点と線の集合体、数学でいうところのグラフと見なして構造式を数字表現することも可能で(Wiener index など)す。これら、分子の情報を数値表現したものを記述子、あるいは特徴量と呼びます。


magattacaさんの記事からもあらためて引用しておきます。

• 1D 化合物記述子: 溶解度、logP、分子量、融点 etc.
o グローバル記述子(Global descriptor):分子全体を一つの値だけで表現する
o 通常、機械学習(machine learning、ML)を適用するには分子を特定するのに十分な特性とはならない
o 機械学習のための化合物エンコーディングを改良するために2Dフィンガープリントに付け加えることができる
• 2D 化合物記述子: 分子グラフ(Molecular graph)、経路(path)、フラグメント、原子環境(atom environment)
o 分子の個々の部位の詳細な表現
o 一つの分子に対して多数のフィンガープリントと呼ばれる特徴/ビット
o 類似性検索と機械学習で非常によく使われる
• 3D 化合物記述子: 形状(Shape), 立体化学
o 化学者は通常2次元表現で訓練されている 
o 化合物の自由度(flexibility、化合物の「正しい」配座はどれか?)のため、2次元表現と比べて頑健性が低い
• 生物学的類似性
o 生物学的フィンガープリント(例、個々のビットが異なるターゲット分子に対して評価された生理活性を表す)
o 化合物構造からは独立
o 実験データ(あるいは予測値)が必要

記述子にしろ、フィンガープリントにしろ化合物の特徴をデータ化(ベクトル化)するための研究が今も続けられています。さらに深層学習での特徴量設計の研究も盛んに行われていて、「群雄割拠」という言葉を連想します。

旧くて新しい研究分野だと思います。今後もどの技術が覇者となるのかを注視していきたいと思っています。


いいなと思ったら応援しよう!

ナイメスト
記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。