【W4】リガンドベーススクリーニング_01_概要
【本パート(W4)の目的】
化合物をエンコード(記述子、フィンガープリント)し、比較(類似性評価)する様々なアプローチを取り扱います。さらに、バーチャルスクリーニングを実施します。
上記はPython版のT4の説明ですが、W4の目的も同じです。
【化合物をエンコード】
エンコードとは
入力信号やデータをある規則に基づいて符号化・暗号化すること。encode。
例えば、
• 文字に一定の番号を振ること(ASCII、JIS X0208、Unicode…)
• Octet streamをe-mailシステムで安全に伝送できるように符号化すること(MIME、Base64、uuencode…)
• Octet streamを他人からその内容を保護するために暗号化すること
• 音声や動画をコンピュータで扱えるように符号化すること
が含まれる。
今回は化合物の構造式データをコンピュータで扱えるように符号化する手法を学びます。
用いる符号としては記述子、フィンガープリントをよく使いますが、他にもあるのでmagattacaさんの記事でおさらいしておきます。
1D 化合物記述子: 溶解度、logP、分子量、融点 etc.
グローバル記述子(Global descriptor):分子全体を一つの値だけで表現する
通常、機械学習(machine learning、ML)を適用するには分子を特定するのに十分な特性とはならない
機械学習のための化合物エンコーディングを改良するために2Dフィンガープリントに付け加えることができる
2D 化合物記述子: 分子グラフ(Molecular graph)、経路(path)、フラグメント、原子環境(atom environment)
分子の個々の部位の詳細な表現
一つの分子に対して多数のフィンガープリントと呼ばれる特徴/ビット
類似性検索と機械学習で非常によく使われる
3D 化合物記述子: 形状(Shape), 立体化学
化学者は通常2次元表現で訓練されている
化合物の自由度(flexibility、化合物の「正しい」配座はどれか?)のため、2次元表現と比べて頑健性が低い
生物学的類似性
生物学的フィンガープリント(例、個々のビットが異なるターゲット分子に対して評価された生理活性を表す)
化合物構造からは独立
実験データ(あるいは予測値)が必要
【W4での体験内容】
デモデータに用いる化合物群としてはW2の出力である4510化合物です。
W4では以下大きく分けて3つの目的があります。
A) 化合物をエンコード
B) 類似性評価
C) バーチャルスクリーニング
A) 化合物をエンコード
上記の各種エンコード方法のうち、2D 化合物記述子のみ、しかも有名な2種
Morganフィンガープリント
MACCSフィンガープリント
のみを扱います。
KNIME workflowでは
「4. Ligand-based screening: compound similarity」メタノード内のStep1
B) 類似性評価
既知のEGFR阻害剤ゲフィチニブ(Gefitinib)をクエリとして使用し、EGFRに対して試験済みの化合物データセットの中から類似した化合物を検索します。
データセットは上記の4510化合物
フィンガープリント2種を用いて
ゲフィチニブ(Gefitinib)に対する
① タニモト
② Dice
の2通りの類似度評価をします。
比較対象となるGefitinibの入力部分は下図のメタノードで実施しています。
類似度評価は
「4. Ligand-based screening: compound similarity」メタノード内のStep2です。
C) バーチャルスクリーニング
類似度評価、すなわちバーチャルスクリーニングのための指標算出までは既に終わっていますのでStep3では、
バーチャルスクリーニングの妥当性を評価し、見つかった活性化合物の比率を見るためにエンリッチメントプロットを作成します。
次回以降A-C)を順次見ていきましょう。
おまけ:エンリッチメントプロットに関連して
<参考>データベースエンリッチメントカーブ
福西先生の公開資料
から引用させていただきます。もし差し支えあれば削除いたしますね。
わかりやすい説明をありがとうございます。
実は最も私の心を打ったのはこちら。
創薬研究活動への深い理解に感謝いたします。科学もまた人のなせる業であるとしばしば思います。