見出し画像

【W8】タンパク質データの取得_03_Step1_02_検索実行のために

【W8の目的】

(i) PDBデータベースからEGFRの全てのPDB IDを取得し、
(ii) X線結晶構造解析による構造で、最も質の良い4つのタンパク質ーリガンド複合体構造を取得して保存します。

magattacaさんが上の記事で解説されているPython版はより発展的です。

KNIME版について前回よりデモデータを使ってW8のStep1を見ています。

検索の絞り込み条件はPDB Connector Query Builderで設定しました。
今回は右のPDB Connector Query Executorノードを見てみます。

【PDB Connector Query Executor】

日本語化されたノードディスクリプションを見てみましょう。

このノードでは、RCSBのPDB advanced query webserviceにアクセスし、「PDB Connector Query Builder」ノードおよびオプションの「PDB Connector Combine Queries」ノードを使って生成されたクエリを実行します。

設定画面はクエリに従ってどういったデータを取得するかを定義します。

今回はEntriesすなわちPDBデータのIDだけを取ってきます。

結果:

当時の実行結果は156レコードだったようです。

(補足)当時のというのは同じクエリでの直接比較をしていないからです。上図のノードに警告マークが出ているのも同じ理由です。

今全く同じ条件では再現できなくても、デモデータは実行済なのでStep2以降の体験は可能です。次回以降はStep2へ進めます。


おまけ①:

【追体験のための改作】2022年夏

2022年の春ごろ、W8のKNIME workflow (WF)を実行したい場合は、クエリを削減する必要がありました。
PDB Connector Query Builderノードの設定から2条件を「X」ボタンを押して削除しました。

さらに、この夏Vernalis KNIME Nodes を最新バージョンにしました。2022年4月までは旧バージョンでもよかったんですが、7月にはextensionを最新にしないとエラーが出てしまいました。推測ですが下記が影響しているのかな。

On 13th April 2022, some breaking changes will be made to the RCSB Query API webservices which the PDB Connector nodes use. We have update the nodes such that the changeover will happen automatically for any PDB Connector Query Executor nodes run after 00:00:00.000 (i.e. midnight) on 13th April. Queries will not need to be edited to remain usable.

過去にもPDB側の仕様変更でいろいろあったようですね。Vernalisの皆さまの努力によって保守や改良が続けられています。

ここは各自で環境の違いが多過ぎるので詳細は省きます。
しばらくぶりに動かしたら不調な場合、バージョンを上げてみるとうまく行くと言うのは他のNodeでもたまにあります。

するとPDB Connector Query Executorが無事動作します。

結果:ただし2022年7月末時点の記録です

209件へとデモデータと比べて53件増えたのはリガンドなしのデータとリガンドありの新規データの双方が加わった結果と推察します。
しかし実はStep1でレコード数は増えても、この後体験するStep2ではリガンドのあるなしやその分子量でのフィルタリングを行うので最終結果は同じになります。


おまけ②:

【W8関連の先人たち】

W8もW7に続いて玄人さんたちがブログで既により発展的な内容を紹介しています。いくつかを例に挙げてみます。
例えばt-kahiさんのこちらの記事。

そして圧巻は

或る化みす途のブログ

まあ最後はPythonへと解脱されていますが、軽やかにKNIMEも活用されてますよね。玄人さんのブログはレベル次元の違いを感じるところです。

記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。