見出し画像

【W3】部分構造による化合物フィルタリング_07_Step3_後編

【本パート(W3)の目的】
いくつか私たちのスクリーニングライブラリーに含めたくない部分構造があります。このトークトリアルでは、そのような好ましくない部分構造の様々なタイプを学び、そしてRDKitを使ってそれらの部分構造を見つけ、ハイライトする方法を学びます。

上記はPython版のT3の説明ですが、W3の目的も同じです。


【W3の最終ステップ】

これまでで実は上記の目的は達成済みです。
例えば、Step3上部では、RDKitを使って忌避構造をハイライトしました。

下部では、残されたデータ処理としてデータ整形とcsvファイルへの保存を行います。

画像1


【RDKit Molecule Catalog Filter】

Step1のPAINSフィルターで残った化合物群に対してBrenkフィルターをかけますので、技術的には過去の記事を参照ください。

【Column Filter】

まっきーさんの記事、引用し過ぎかもですが再掲。

設定:

画像2

csvファイルに出力する際にはRDKit形式、List形式、SVG形式のデータは除いておくべきですので、文字列や数値データのみを書き込む設定としたようです。

【CSV Writer2つ】

W2でも全てのデータ処理が終わった後、csvファイルに出力していましたね。

今回も同様なので設定画面のみ以下に添付しておきます。

画像3


画像4

以上でメタノード” 3. Moleclar filtering: unwanted substructurs”の全てのノードについての体験記を書き終えました。

画像5


W3で最後に残ったのは、

【Table View】

画像6

W3右下の“Compound without PAINS/Brenk”のTable Viewの設定と結果を以下に示します。

設定:

画像7

結果:
左から5カラム

画像8

右の4カラム

画像9

RDKit形式のカラムは構造式ではなくてSMILESの文字列として表示されます。

以上でW3完了です。お疲れさまでした!

次はW4へ進めます。



【いつものやつです】

W4へ進むかと思いきや、恒例の寄り道をします。
構造検索って実はいくつか別法があります。例えばこちら。

すさんの記事が見つかると、ホッとします。だってわかりやすいですから!

今回はIndigo2のSubstructure Matcherを使います。これは私の単なる好みです。ほとんど同じような設定・使い方のRDKit Molecule Substructure Filterや、描画ツールが立ち上がりながら設定できるCDKのSubstructure Searchなどなど、自分の好みが見つかると良いと思います。

私はJChemのファンなので、すさんの記事にあったMarvinSketchノードを利用した検索式入力について先日紹介しました。

ありがたいことにPatcoreの方にもこの活動を認めていただけたようで、先日ブログで紹介いただけました。安倍さん、ありがとうございました!

プロの方の記事は情報量がすごくて圧倒されましたが、私は私のペースでKNIMEやJChemなどの面白さを伝えていきたいと思います。

いいなと思ったら応援しよう!

ナイメスト
記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。