【W3】部分構造による化合物フィルタリング_07_Step3_後編
【本パート(W3)の目的】
いくつか私たちのスクリーニングライブラリーに含めたくない部分構造があります。このトークトリアルでは、そのような好ましくない部分構造の様々なタイプを学び、そしてRDKitを使ってそれらの部分構造を見つけ、ハイライトする方法を学びます。
上記はPython版のT3の説明ですが、W3の目的も同じです。
【W3の最終ステップ】
これまでで実は上記の目的は達成済みです。
例えば、Step3上部では、RDKitを使って忌避構造をハイライトしました。
下部では、残されたデータ処理としてデータ整形とcsvファイルへの保存を行います。
【RDKit Molecule Catalog Filter】
Step1のPAINSフィルターで残った化合物群に対してBrenkフィルターをかけますので、技術的には過去の記事を参照ください。
【Column Filter】
まっきーさんの記事、引用し過ぎかもですが再掲。
設定:
csvファイルに出力する際にはRDKit形式、List形式、SVG形式のデータは除いておくべきですので、文字列や数値データのみを書き込む設定としたようです。
【CSV Writer2つ】
W2でも全てのデータ処理が終わった後、csvファイルに出力していましたね。
今回も同様なので設定画面のみ以下に添付しておきます。
以上でメタノード” 3. Moleclar filtering: unwanted substructurs”の全てのノードについての体験記を書き終えました。
W3で最後に残ったのは、
【Table View】
W3右下の“Compound without PAINS/Brenk”のTable Viewの設定と結果を以下に示します。
設定:
結果:
左から5カラム
右の4カラム
RDKit形式のカラムは構造式ではなくてSMILESの文字列として表示されます。
以上でW3完了です。お疲れさまでした!
次はW4へ進めます。
【いつものやつです】
W4へ進むかと思いきや、恒例の寄り道をします。
構造検索って実はいくつか別法があります。例えばこちら。
すさんの記事が見つかると、ホッとします。だってわかりやすいですから!
今回はIndigo2のSubstructure Matcherを使います。これは私の単なる好みです。ほとんど同じような設定・使い方のRDKit Molecule Substructure Filterや、描画ツールが立ち上がりながら設定できるCDKのSubstructure Searchなどなど、自分の好みが見つかると良いと思います。
私はJChemのファンなので、すさんの記事にあったMarvinSketchノードを利用した検索式入力について先日紹介しました。
ありがたいことにPatcoreの方にもこの活動を認めていただけたようで、先日ブログで紹介いただけました。安倍さん、ありがとうございました!
プロの方の記事は情報量がすごくて圧倒されましたが、私は私のペースでKNIMEやJChemなどの面白さを伝えていきたいと思います。