【W7】活性予測のための機械学習モデル_02_Step1
【W7の目的】
利用可能なデータソースがより大きくなるにつれ、医薬品探索、特にリガンドベースのバーチャルスクリーニングにおいて、機械学習(machine learning、ML)が盛り上がってきました。このトークトリアルでは、私たちの標的とするターゲット分子(EGFR)に対して新規な化合物の活性を予測するために、様々な教師あり機械学習(supervised ML)アルゴリズムを使用する方法について学習します。
上記はPython版TeachOpenCADDのT7についてのmagattacaさんの記事から引用しましたが、KNIME版のW7も同様です。
【問題の設定からはじめよう】
Ligand-based screening: machine learningメタノード
のStep1を今回扱います。
機械学習を体験すると言っても、最初にどういった目的で何をどういう形式で予測するための機械学習アルゴリズムを作りたいかを決める必要があります。
Magattacaさんの記事から抜き出すと
目的は先述の通り
私たちの標的とするターゲット分子(EGFR)に対して新規な化合物の活性を予測するために、様々な教師あり機械学習(supervised ML)アルゴリズムを使用する方法について学習
することにあります。
今回選んだ問題は
EGFR阻害剤となる可能性のある化合物を見つけるための、機械学習に基づくスクリーニングパイプラインの構築と評価
を体験します。より具体的には
データを分類
各化合物を活性あるいは不活性として分類する必要があるので、pIC50値を使います。
* pIC50 = -log10(IC50)
* IC50はin-vitroの阻害が50%になるモル濃度(mol/L)を表します。
* pIC50のデータを離散化(活性と不活性に分類)するのによく用いられるカットオフ値は6.3で、私たちの実験でもこの値を使います。
つまり、W7では
様々な教師あり機械学習アルゴリズムを用いて活性/不活性を予測する分類モデルを構築し、評価するところまでを学びます。
一方で、作成した分類モデルを使ってライブラリ化合物に対するスクリーニングまではしないです。現実の創薬化学研究ではこの未知なる化合物群に対する予測性能こそが最大の課題になるでしょう。いわゆる機械学習モデルの適用範囲という皆さんが実際に研究で直面されている問題かと思いますがTeachOpenCADDのW7では扱いません。
さて、では最初にモデル構築に用いるデータの分類から始めます。
【Math Formulaで真偽値】
まっきーさんの解説記事はこちら
今回は一般的な計算とは少し異なり、TRUE/FALSEの判定に利用しています。多様な使い方ができて便利なノードです。
pIC50が6.3より大きければ1.0
pIC50が6.3以下は0.0
を出力します。
真偽値を出力するので、Convert to Intにチェックを入れて1と0を出力させた方がいい気もしましたが本質的な問題では無いですね。
結果:カラムは並べ替えています
4511化合物の判別結果が出ます。
例えばRow15のCHEMBL102726はIC50 = 320nMすなわちpIC50 = 6.495なので、activity = 1すなわち活性あり(TRUE)と判定されています。
Kinase阻害活性がありそうな化学構造で納得ですし、pIC50 = 6.3のクライテリアなら分子量300以下の比較的小さなリガンドでもヒットするのだなとも思いました。
<参考?>
では次回はStep2へ、と思うでしょうがその前に判別した結果を見ておきたいと思います。
おまけ:
【分類モデルについての参考情報】
W7は機械学習入門なので、この深遠なる世界の入り口に立つにあたって私も勉強しています。
Magattacaさんのブログは皆さんもお読みになったものとして、他にも私にとってわかりやすかったと思ったおすすめ情報をいくつか挙げておきます。
「AI、IoTを成功に導く データ前処理の極意」
まっきーさんもお勧めの本ですが、KNIMEでの機械学習体験の第一歩にも最適と思います。
実業務において成果を得るまでに到達できる企業はごくわずかでしょう。その主な原因は、AIにおける学習モデルの精度にあります。AIにとってデータの良しあしが最も重要な点はよく知られていますが、現実にはAIに適したデータを収集するのは容易ではありません。
との言葉、身に染みる想いで読んでいます。
データ利活用におけるデータ前処理の重要性について紹介
されているとともに、KNIMEも使って実習できるのが便利です。
日立産業制御ソリューションズのAiValueUpのサイトなど見ていただくとわかると思うのですが、機械学習のプロがいかに初心者に正しく情報を伝えたいかを工夫した結果出版された作品だと思っています。
私の周りでは5冊ほど購入されています。本の題名がなかなか大上段からきているので本棚に飾るには勇気が要るかもしれないですが良書ではあるので皆さまもいかがでしょうか。
日立産業制御ソリューションズの方、もしこの記事を読んでおられたら献本もウェルカムです。布教に活用いたします。