【W1】ChEMBLから化合物データを取得_12_化合物の構造式を表示
本パートの目的
ChEMBLからデータを抽出する方法の学習:
• ある特定の標的に対して評価済みのリガンドを見つける
• 取得可能な生理活性データでフィルタリング
• pIC50値の計算
• データフレームを結合し、取り出した分子を描画
(引用元)
【T1とW1をくらべてみると】
TeachOpenCADD W1(文頭の図を参照)の
【1.Data acquisition from ChEMBLメタノード】
の中身を十数回に分けて説明しました。
ところがPython版TeachOpenCADDのT1にあって
このTeachOpenCADD-KNIMEのW1にないのが
「取り出した分子を描画」の部分です。
確認してみましょう。
【Table View】
Table Viewノードを右クリックして、Interactive View: JavaScript Table Viewメニューを選択してください。
ちょっと待って表示されたView画面では、
活性が強い順に100化合物並べたりは簡単にできますが、
構造式がないのでどんな化合物かよくわからないですよね。普通の人は。
意外にすらすら読む人もたまにいるのが驚きです。
SmilesValuesカラムの文字列を見て、構造式が頭に浮かぶ人はこのままでいいんです。
私はもちろん普通の人なので、KNIMEのノードを使って構造式を表示させたいです。
【Molecule Type Cast】
下図のようにMolecule Type Castノードを使って構造式を見てみます。
Node RepositoryではChemistyに格納されています。
繋ぐまでの説明は省略してしまったので、もしわからない方はtwitterにDMしてください。
このノードの活用例と言えば
はもう今回の利用目的とぴったりですね。すさんありがとうございます。
このノードを通すと、stringになっている構造式データを"構造として扱える"形式に変換してくれます。
今回の設定は下図の通り。
実行結果は
上記のすさんの記事はもっと発展的な内容も紹介して下さっているのでご興味あればどうぞ!
本当はChEMBLをまるっと落としてきて、ローカルでいじった方が早かったり・情報が漏れる心配などもなかったりでアドバンテージが大きいような気がしますが、wetのメドケム研究者であれば、このくらいできれば大丈夫なのかなーと思います。他の企業や研究機関でのメドケム研究者(wet)はどんな感じなんだろうなぁ。
とコメントされているのはつよつよなすさんらしいコメントだなぁと思って読みました。
DBノード群は確かに強力なんで、いつか紹介しますね。
【データは前処理がX割】
しばしば聞く言葉に「データは前処理がX割」というのがあり、諸説ありますが7-9割と見る方が多そうです。
データは前処理が9割? ~KNIMEとそのインストール~
すさんもコメントされているのですが、このデータ前処理を比較的簡単に実行できるのがKNIMEの特長です。
冒頭に引用したmagattacaさんのPython版TeachOpenCADDの記事の通りに
ChEMBLデータのETLをするのと、このW1ワークフローを実装してデータを取ってくるのを比較してみると、KNIMEの簡単さには共感していただけると期待しています。
実際、私の周りのPythonやR使いの玄人さんが、データの前処理にはKNIMEなどのワークフローツールを使うことがあります。適材適所ということだろうと思います。
次はW2へと進めます。KNIMEの便利さが伝わったら嬉しいです。
【W1体験 編集後記】
皆さんここまでW1の体験記をお読みいただきありがとうございました。
寄り道が多かったり、くどいほど説明したりしましたので長くなってしまいました。個人的にはホッとしています。
だれも気づいちゃいないでしょうがこの一週間、私は毎日投稿していました。理由は「#夏の自由研究」とタグをつけてこのシリーズを書き出してしまったからです。W2~8はともかくとして、W1くらい終わっとかないとと焦ってました。
もう何十年も前になりますが、高校の夏休みが明けてすぐ、職員室に呼び出され、毎日夏休みの宿題をした(させられた)ことを想い出していました。
伊藤先生、ぼく、締め切りが守れるようになりました。