【W2】指標による化合物フィルタリング_05_Step3_閑話休題
【本パート(W2)の目的】
W1でChEMBLから取得した化合物群を
ルールオブファイブ(Ro5)のクライテリアに基づきChEMBLから集めた化合物をフィルタリングします。
薬らしくない分子を取り除く手法の一例を学ぶことが目的です。
なのですが、今回は創薬化学者向けのデータ可視化についての私見など書かせていただきます。
【Step3でのトピック】化合物データの可視化手法
「2. Molecular filtering: ADME and lead-likeness criteria」メタノードの中の
Step2までに
Ro5の判定に用いる、4つの化学計算結果でのフィルタリングをしました。
• 分子量が500ダルトン以下
• 水素結合アクセプターが10以下
• 水素結合ドナーが5以下
• LogP (オクタノールー水 分配係数) <= 5
Step3は化合物データの可視化を行っています。前回は箱ひげ図を描く上部ワークフローのみ紹介しました。
今回はちょっと寄り道して、TeachOpenCADD-KNIMEでは扱われなかった可視化手法について書いてみます。
【レーダーチャートについて】
文頭に引用したPython版TeachOpenCADDのT2では、レーダーチャートに多くの労力が割かれています。
ルールオブファイブに関する分子の特性を計算した後で、その特性を可視化できると役に立ちます。Ritchieら(Drug. Discov. Today (2011), 16(1-2), 65-72) はADMEに関する特性のグラフィカルな表現についての概観を示しています。分子の特性を可視化し、創薬化学者による解釈を手助けするために様々な手法があります(例:Craigプロット、フラワープロット、黄金の三角地帯(golden triangle))。
このチュートリアルではPythonの作図ライブラリである matplotlib を使ってレーダーチャートを作成する方法を学びます。その見た目から、レーダーチャート(radar charts wikipedia) はしばしばスパイダープロット、あるいはクモの巣グラフと呼ばれます。360度に沿って配置され、それぞれの条件に対して、中心から出発する軸を一つ持っています。各パラメーターの値は軸に沿ってプロットされ直線で結ばれています。影のついたエリアはパラメーターが条件を満たす領域を示します。
上で作られたレーダチャートで、青色の四角は物理化学特性がルールオブファイブの基準の中に収まっている領域を表します。青線はフィルタリングしたデータセットの平均値を結んだもので、点線は標準偏差を結んだものです。平均値はリピンスキーのルールのどれも逸脱していないということがわかります。ですが、標準偏差をみると、いくつかの特性値はまだ閾値よりも大きくなっています。これは許容範囲内です。
これほどの情報がひとつのチャートに集約できるのは素晴らしいですが、こういった可視化は、RもしくはPythonがやはり強いです。
KNIMEのノードで上記の全てを実装しようとすると、Python SnippetやR Snippetでコードを書くほか無さそうだと思いました。
今回はなるべくコーディングなしでケモインフォマティクスを体験することが主目的です。Box Plotノードへ換装する選択をした理由はそこにあるのではないでしょうか。
蛇足ながらKNIMEのRadar Chartノードも紹介はしておきます。もし上記のような美麗なカスタマイズだってできると言う方、私に教えてください!
設定:
結果:
さらにJavaで開発中の機能強化型もあるそうです。
ここは深追いを避けておきます。
次回でW2の体験記も終了です。
さらに余談になります。
【創薬化学者がよく使う可視化手法】
ここまでいくつか紹介はしたものの、実は箱ひげ図とレーダーチャート、創薬化学者が活用しているのをあまり見た記憶がないです。論文とかでもSARを論じていてこういった図って掲載されていないですよね。
例えばですけど、
① Excelみたいなテーブル形式のグリッドビュー(縦横の配置は目的次第)
② 1化合物のプロファイルを一括して閲覧するフォームビュー
が最もよく使われていると思います。
<参考>
特にInstantJChem(IJC)はビューで自分が検索したいデータの場所をダブルクリックしてQueryを書き込めるので、直観的に検索がしやすいのがウケているのかなと思います。
これ、システム担当の方に話してもピンとこないみたいで、別途横に検索ウィンドウが出たっていいじゃないと言われます。実際に画面の座標というか位置で何のデータがどこに表示されるかを覚えているから、別のウィンドウと照らし合わせなくていいだけでもう楽なんですよ。
他には化合物群を俯瞰するなら
③ 重視する2-3種のプロファイルを軸に2Dもしくは3Dで散布図
を書くぐらいでしょうか。
正直、究極的に高級な可視化ツールの使い方としてもったいないかな。皆さんどうされているのでしょうか。
【ケモインフォマティクスの玄人さんのご意見頂戴】
自分の狭い見識でコメントしてはどうかと思って、「インフォマジシャン研究所」で相談して見ました。
藤さんから
➃ Coodinate Plot
を紹介いただきました。
これ、確かにGregも使っていましたね。なるほど。
あるいはiwatobipenさんはKNIMEでの可視化で
⑤ Card View
を活用しており、これは創薬化学者が好きそうだなと思いました。
やっぱり創薬化学者は化学構造を見比べながらのパターン認識が好きな傾向があると思います。さすが分かっておられるなぁと思いました。
【求ム!DataWarrior情報】
インフォマジシャン研究所ではもう一件、気になる情報を教えてもらいました。
無料の可視化ツールDataWarriorです。
フォームビューの例が粋なので引用しておきます。
まだあまり日本語での情報がないのですが、すでに国内製薬企業でも利用している方がいるとも聞きました。
今回のTeachOpenCADD-KNIMEからも繋がりそうな応用例があって注目しています。
これまでだとPipeline PilotとTIBCO Spotfireの組み合わせが最強だとの意見もありましたが、創薬化学者向けのサービスなら上記の組み合わせも有望な気がしませんか?
KNIME社がTableau同様にDataWarriorとの連携も強めてくれるのを期待しております!