見出し画像

【W2】指標による化合物フィルタリング_04_Step3_前編

【本パート(W2)の目的】

W1でChEMBLから取得した化合物群を

ルールオブファイブ(Ro5)のクライテリアに基づきChEMBLから集めた化合物をフィルタリングします。
薬らしくない分子を取り除く手法の一例を学ぶことが目的です。
(原典)

【Step2までのおさらい】

「2. Molecular filtering: ADME and lead-likeness criteria」メタノードの中のStep1~2にて

画像1

Ro5の判定に用いる、4つの化学計算結果でのフィルタリングをしました。

• 分子量が500ダルトン以下
• 水素結合アクセプターが10以下
• 水素結合ドナーが5以下
• LogP (オクタノールー水 分配係数) <= 5

上記4条件のうち、3つを満たした化合物が選抜されました。

Step3ではデータの可視化を行います。
そして、今回は箱ひげ図を描く上部ワークフローのみを扱います。

画像2

【Math Formula 2つ】

画像3

もう皆さん見慣れたMath Formulaノード2つを使って、
HBAの数を2で割って「NumHBA/2」のカラムを作り、
分子量を100で割って「ExactMW/100」のカラムを作ります。

可視化のために、ちょうどクライテリアが5になるような補正を加えて、
次のBox Plotの縦軸を5周辺で揃えることができます。

【Box Plot】

以前にも紹介したチートシートから一部を引用します。

画像4

箱ひげ図の見方はこの記事がわかりやすかったです。
よろしければどうぞ。

ちなみに今回のBox Plotは「外れ値検出のある箱ひげ図」です。

さて、Box Plotのディスクリプションは下記サイトにかなり詳しく書いてあります。しかし私のような素人に英語は辛い。

今回はDeepLに訳してもらいました。凄いよDeepL。

箱ひげ図は、最小値、下位四分位値、中央値、上位四分位値、最大値というロバストな統計パラメータを表示します。これらのパラメータは、極端な外れ値の影響を受けないため、ロバストと呼ばれています。

<参考>ロバストネスについて
https://datachemeng.com/robustmodel/

1つの数値属性の箱ひげ図は次のように構成されている。中央値は箱の中に水平な棒で描かれています。Q1とQ3の間の距離を四分位範囲(IQR)と呼びます。
ボックスの上下にはヒゲと呼ばれるものがあります。ヒゲは最小値と最大値のところに横棒で描かれ、ボックスと点線で結ばれています。
つまり、Q1 - (1.5 * IQR)またはQ3 + (1.5 * IQR)のいずれかを超えるデータポイントがあった場合、ひげはこれらの範囲と同じように描かれ、そのデータポイントは外れ値として別々に描かれます。
軽度の外れ値とは、p < Q1 - (1.5 * IQR) AND p > Q1 - (3 * IQR) またはp > Q3 + (1.5 * IQR) AND p < Q3 + (3 * IQR)が成立するデータポイントpを指します。
極端な外れ値は、p < Q1 - (3 * IQR) または p > Q3 + (3 * IQR) が成立するデータポイントpである。
軽度の外れ値はドットで表示され、極端な外れ値はクロスで表示されます。

日本語でも辛い…ちょっと込み入ってはいますが正確な定義ですので記載しました。
私が加える言葉はなくて、思い出したのは下記の言葉でした。

超他力本願、親鸞も草葉の陰で泣くレベル   
(引用元) 渡航「やはり俺の青春ラブコメはまちがっている。5」

そろそろ実物を見てみましょう。
設定は

画像5

右のウィンドウに箱ひげ図に表示する4つのデータを選択しています。
Plot multiple boxesにチェックが入っているので、4つはそれぞれに表示されます。
左のウィンドウに一部見知らぬカラム名が残っていますが、おそらくは作成中の試行錯誤の残滓なので気にしないで行きましょう。

結果は、

画像6

先述の通りに「外れ値検出のある箱ひげ図」ですので、
中央値から上下に四分位範囲(IQR)が箱で示され、
ひげの長さを四分位範囲(IQR)の1.5倍を上下限とし、
軽度の外れ値は〇印、極端な外れ値は×印で
表示されています。
個人的にはSlogPは外れ値が多いなあと感じてます。

上記のBox Plotの説明ですが、メタノードの外のBox Plotと同じ設定ですので、そちらの説明は今後省略します。

画像7

さて次回はちょっと寄り道しますが、

次々回はTable Viewやデータセットの平均と標準偏差算出など、Step3の残り部分を見ていきます。



記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。