Protein Structure-Based Organic Chemistry-Driven Ligand Design from Ultralarge Chemical Spaces
超巨大ケミカルスペースからのタンパク質構造ベースの有機化学駆動リガンド設計
要約
数十億もの化合物を網羅した超巨大ケミカルスペースは、創薬初期段階におけるヒット同定に革命をもたらしています。その規模の大きさから、このようなケミカルスペースを完全に列挙することは不可能であり、潜在的に興味深いヒットを探索し、選択するためには、アドホックな計算ツールが必要となります。本稿では、市販の化学試薬を対象となる標的にまずドッキングさせ、次に有機化学およびトポロジーの規則に従って直接結合させることで、標的の三次元制約下で薬物様化合物を列挙するという、超巨大ケミカルスペーススクリーニングのための構造ベースのアプローチを提案します。医薬品として興味深い2つの受容体(エストロゲンβ受容体、ドパミンD3受容体)を標的とした、異なるサイズと化学的複雑性を持つ特注のケミカルスペースに適用した場合、この計算手法は、標的受容体の既知のリガンド(または非常に類似したアナログ)と、in vitro結合アッセイによって実験的に確認できる化学的に新規な候補の両方を迅速に列挙することができました。提案されたアプローチは汎用的であり、任意のドッキングアルゴリズムに適用でき、数十億規模のケミカルスペースから容易に合成可能なヒットを優先順位付けするために必要な計算リソースはわずかです。
はじめに
対象となる巨大分子を標的とすることができる最初のヒット化合物を同定することは、多くの場合、薬物様化合物のライブラリーをin vitroまたはin silicoでスクリーニングすることによって達成され[1]、それによって古典的な医薬品化学戦略[2]を用いたヒットtoリードのフォローアップが可能になります。最近まで、スクリーニングに適した薬物様化合物を記述した市販のケミカルスペースは、年間約50万化合物の増加で、1,000万~1,500万化合物に制限されていました[3]。オンデマンド化合物ライブラリー[4,5]は、まだ入手できないが、数ステップで容易に合成可能で、再現性のある並列合成が可能な数十億もの化合物を提案することにより、この状況を一変させました。超巨大ケミカルスペースのサブセットをバーチャルにスクリーニングする初期のアプローチは、驚くべき成功、[6-9]特に予想外の高いヒット率、非常に高い効力、および優れた選択性[10,11]をもたらしました。現在では、約700億個の化合物がオンデマンドで入手可能であり、迅速な納品(6~8週間)と高純度(>95%)を実現しています[12]。その膨大なサイズのため、これらの超巨大ケミカルスペースを記述する化合物を完全に列挙することは不可能であり、登録、保管、ナビゲーションのための専用の計算ツールが必要となります[13]。
通常、大規模なケミカルスペースは、それを合成するために必要なビルディングブロックと有機化学反応から、コンビナトリアルな方法で記述されます[4]。現在では、このような大規模ケミカルスペースを効率的にクエリするためのリガンドベースのアプローチが利用可能ですが[14-16]、数十億規模のケミカルスペースを徹底的にマイニングするためには、巨大分子標的情報(結合部位のトポロジーなど)を含む構造ベースのアプローチを開発する必要があります。
実際、このようなタスクを実行するための計算手法がいくつか報告されていますが[17-23]、中程度から深刻な制限があります。一方で、14億個の化合物の網羅的なドッキング[18]は、高価な専用プラットフォーム[18,24]の助けを借りて成功裏に記述されていますが、完全原子論的ドッキングはスクリーニングされる化合物の数に比例してしかスケールしないため、すぐに兆単位のケミカルスペース[25]が登場し、その限界に達するでしょう。回避策としては、空間全体の代表的なサブセットをスクリーニングするために、シードフラグメント/スキャフォールドを適切に選択する方法があります。シードフラグメントは、フラグメントベースの代表的なシントン[23]の初期ドッキング、X線回折スクリーニングデータ[22]、または医薬品化学の知識[20]に由来します。シードフラグメントが特定されると、一連の有機化学反応[26]を介して対応するケミカルスペースを探索するスキャフォールドに焦点を当てた二次元(2D)ライブラリーを列挙し、三次元(3D)原子座標に変換し、物理的にドッキングさせて新規ヒットを提案することができます。このアプローチは、いくつかの標的に対して成功裏に適用されてきましたが[20,22,27,23]、ケミカルスペースのかなりのサブセット(数百万)をドッキングできるハードウェア設定が依然として必要です。最後に、高速機械学習アプローチは、最初に一連の代表的なリガンド注釈付きドッキングポーズでトレーニングしてドッキングスコア[17,19,21,28,29]を予測し、次に残りの空間のドッキングスコアを予測するために適用できます。空間全体のほんの一部(1~5%)しか原子レベルでドッキングする必要がない場合でも、この戦略では単一の標的に対して最初の10億個のドッキングスコアを収集する必要があるため、兆単位のケミカルスペースには適用できません。さらに、このアプローチは、ヒット率とヒット力に関して非常に不確実な結果をもたらしており[30]、さらなる実験的検証が必要です。本稿では、上記の欠点を回避するシンプルで高速な計算アプローチ(SpaceDock)を紹介します。このアプローチでは、まず市販の化学試薬を対象となる標的にドッキングさせ、標準的な有機化学反応に従って結合させて、1~2回の合成ステップで数十億個の化合物ライブラリーを提案する必要があります。医薬品として興味深い2つの標的に適用した結果、この手法は、化学的に同一(または非常に類似した)ヒットを迅速に取得し、化学的に新規で強力なリガンドを提案することができました。
結果
SpaceDock法は、化学試薬を正確にドッキングできる可能性に大きく依存しているため、まず専用のベンチマークスタディを設定して、後者のタスクに最適なドッキングプロトコルを調査しました。次に、化学試薬に反応基と有機化学反応の注釈を付けて、55億個の合成可能な化合物のケミカルスペースを定義する方法について説明します。最後に、医薬品として興味深い2つの受容体に対するSpaceDockワークフローの2つの具体的な適用例を紹介します。
化学試薬の正確なドッキングのための条件設定
SpaceDockアプローチの実現可能性を評価するために、まず、タンパク質結合化学試薬の参照用3D構造のアーカイブを設定する必要がありました。このようなデータセットの実験データがないため、既知のタンパク質-リガンドX線構造(sc-PDBデータセット)[31]から、12種類の一般的な有機化学反応のセットを使用して、薬物様リガンドを3D空間でフラグメント化し、不足している反応部分(例:ボロン酸、ハロゲン化物;図S1)の3D原子座標を追加し、最後に、上記の反応で親リガンドを生成すると予想される対応する試薬について、オンザフライで「代替X線ポーズ」を作成しました。最終的な5,845個の試薬のアーカイブは、適切なフィルタリングの後(表S1)選択され、創薬における単純な有機化学反応の頻繁な使用[32]を反映した反応基(例:アミン、アリールハロゲン化物、ボロン酸)の割合が高い13の化学官能基を示しました。参照試薬のセットを手に入れた後、最先端のドッキングアルゴリズムが代替X線ポーズを再現できるかどうかを確認しました。異なる原則(FlexX:[33]逐次構築、GOLD:[34]遺伝的アルゴリズム、PLANTS:[35]蟻コロニー最適化、RDPSOVina:[36]ランダムドリフト粒子群最適化、Surflex:[37]表面ベースの分子類似性)に基づく5つのアルゴリズムを、この目的のために使用しました。SpaceDock戦略では、完全なリガンドを再構成するために、相補的な試薬のペアが適切にドッキングされていればよいので、ドッキング性能は、代替X線構造に最も近いことが判明したポーズ(最良のポーズ)の二乗平均平方根偏差(rmsd)を計算することによって測定しました(図1)。
すべてのドッキングツールは優れたドッキング性能を示し、70~80%の化学試薬が2 Å rmsdの精度内でドッキングされました(図1A)。見かけ上最良のドッキング/スコアリングスキーム(GOLDドッキング、PLPスコアリング;図1A)を使用することで、最大70%の非常に高品質なポーズ(rmsd < 1 Å)を生成できました。したがって、観測されたドッキング精度は、選択したドッキングアルゴリズムとは無関係であり、低分子量フラグメントに関するドッキングベンチマークと一致しています[38,39]。
rmsdは、主要なタンパク質-試薬の相互作用が検証されているかどうかを考慮しないグローバルな尺度であるため、ドッキングされたポーズと代替X線ポーズの間のタンパク質-試薬の相互作用フィンガープリント(IFP)[40]の類似性を追加で計算しました。繰り返しますが、この直交品質記述子を使用した場合、X線ポーズとのIFP類似性が許容できるとみなされる化学試薬の75~85%(Tc-IFP > 0.60;[40]図1B)で、優れた性能が確認できました。すべての化学官能基がドッキングに等しく適していることを確認するために、最良のドッキング戦略(GOLDドッキングとPLPスコアリング)に焦点を当て、ライブラリーに存在する13の化学基(図1C)のそれぞれについて同じ分析を繰り返しました。安心できることに、ドッキング性能は、試薬の化学官能基(図1C)および標的タンパク質ファミリー(図1D)とは比較的無関係であることがわかりました。
単純な有機化学反応からの容易に入手可能な超巨大ケミカルスペースの定義
Hartenfellerら[26]の先駆的な研究に基づき、堅牢で、立体選択性および位置選択性の高い36種類の有機化学反応を選択して、1~2回の合成ステップで容易に入手可能な55億個の化合物のケミカルスペースを定義しました(表S2、図S2)。以前の類似のアプローチ[26,41,42]とは対照的に、ここでは、360億個の化合物のEnamineのREALスペース[43]に寄与する145,705個の市販の化学試薬のリストから、特定のSMARTS文字列を使用して、化学試薬を慎重に選択しました。さらに、合成収率に影響を与える可能性のある副反応は、特定の化学官能基(例:モノカルボン酸)に対して単官能性で、反応収率を低下させる可能性のある追加の化学官能基(例:求電子反応物に対する求核基)を持たない試薬を選択することで、最小限に抑えました(表S2)。全体として、134,331個の市販の反応物に、反応タイプ、反応物としての役割、反応原子を明確に注釈付けすることができ、合計713,155個の原子タグが得られました(図2)。3D原子座標への変換により、pH 7.4でイオン化された、最大2つの未定義キラル中心を持つ反応物の立体異性体を含む、合計176,824個のドッキング可能なユニークな試薬が得られました。
ヒトエストロゲン受容体βアゴニストの9,700万化合物のレトロスペクティブケミカルスペースドッキング
最初の概念実証として、以下の2つの理由から、ヒトエストロゲン受容体β(ERβ)の活性化型を標的として選択しました。(i)リガンド結合キャビティは、疎水性/親水性のバランスが良く、薬物設計に適しています。(ii)受容体は、多くの高親和性低分子量アゴニスト、特に2-アリール-ベンゾオキサゾール骨格[44]を共有する化合物(2-アミノフェノールとベンズアルデヒドからの1段階合成は、コード化された36の反応の1つです)と共結晶化されています。ケモタイプバイアスの可能性を避けるため、ゲニステイン(PDB 1QKM)と共結晶化したX線受容体構造を選択しました。ゲニステインは、非ベンゾオキサゾール系高親和性アゴニストであり、以降「参照リガンド」として使用されます(図3A)。まず必要な反応物(2-アミノフェノール、ベンズアルデヒド)をドッキングさせ、タンパク質結合部位内でベンゾオキサゾール環形成を可能にすることで、「グランドトゥルース」ベンゾオキサゾールアゴニスト(WAY-338、図3A)または類似のアナログを回収できるかどうかを調べました。この目的のために、145種類の市販の2-アミノフェノールと3,874種類のベンズアルデヒドを3Dで生成し、1QKM構造にドッキングさせて、561,730種類のベンゾオキサゾールのコンビナトリアルスペースを探索しました。後の空間は小さいので、1,275種類の塩化スルホニルと76,758種類のアミンから合成可能な9,700万種類のスルホンアミドデコイのはるかに大きな空間をさらに検討し、それによってスキャンする完全なケミカルスペースにおけるベンゾオキサゾール空間(0.57%)を大幅に縮小しました。以前に発見された最良のプロトコル(GOLDドッキング、PLPスコアリング)に従って、両方のケミカルスペースをマイニングするために必要なすべての試薬をドッキングした後、複雑さが増す一連のフィルター(表1)を、可能な解の数が減少しながら反復的に適用しました。まず、潜在的に反応する試薬のポーズのペアから始め、次に、正常に列挙されたリガンドのポーズ、最後に品質チェックされた再ドッキングされたポーズへと進みました。SpaceDockのフローチャートを図3に示します。最初のステップでは、純粋な化学的およびトポロジー的なフィルター(図S3およびS4)を可能な反応物ペアのすべてのドッキングポーズに適用して、不可能な反応を迅速に除去します(フィルター#1)。安全を期すために、総相互作用フィンガープリント(IFP)[40]が、許容可能なしきい値[40]を超えるゲニステインX線ポーズとの類似性を示す結合反応物のペアのみを考慮しました(すべての非結合相互作用を考慮してIFP ≥ 0.60、極性相互作用のみを考慮してIFP ≥ 0.50;フィルター#2)。残りの821,702組の反応物を、タンパク質の3D空間内で対応するベンゾオキサゾールとスルホンアミドに変換し、完全に列挙されたリガンドをタンパク質結合部位内で迅速に最小化しました。エネルギー最小化後、539,906個のポーズのみが非精密化ポーズから1.0 Å rmsd未満しかずれていませんでした(フィルター#3)。残りの最小化されたポーズは、ゲニステインX線ポーズとのIFP類似性に従って再びフィルタリングされました(すべての非結合相互作用を考慮してIFP ≥ 0.60、極性相互作用のみを考慮してIFP ≥ 0.60;フィルター#4)。立体中心が2つ以上、回転可能な結合が8つ以上の化合物は、この段階で除去され、49,569個のポーズがさらに処理されました。選択されたSpaceDockポーズが古典的なドッキングによって回復されることを保証するために、残りのすべてのヒットを、試薬の場合と同様に、ERβ構造に再ドッキングしました。対応するエネルギー最小化SpaceDockポーズに近い121,470個のポーズのみ(rmsd ≤ 2.0 Å;すべての非結合相互作用を考慮してIFP ≥ 0.60、極性相互作用のみを考慮してIFP ≥ 0.60)が保持されました(フィルター#5)。残りのポーズの品質チェック(フィルター#6)を次に適用して、ありそうもない解(≥1つの歪んだねじれ、局所ひずみエネルギー> 4 kcal/mol、グローバルひずみエネルギー> 8 kcal/mol、満たされていないイオン結合なし、> 2つの満たされていないH結合供与体、> 4つの満たされていないH結合受容体)[49,20]を除去しました。妥当な解の数(7,712)はまだ多いままであったため、すべての強力なERβアゴニストに見られるように(ゲニステインX線ポーズを想起してください、図3A)、結合ポケットの両側に固定されたポーズのみを保持するために、カスタムフィルターを最終的に適用しました(Glu305またはArg346のいずれかとHis475へのH結合)。最終的なヒットリストは、64個のユニークなリガンド(フィルター#7)からの102個のポーズで構成されており、54個のベンゾオキサゾールと10個のスルホンアミド(図3B、表S3)が含まれており、参照リガンドに対する完全IFP類似性の降順、次に極性IFP類似性の降順、最後にHYDEスコアリング関数[48]によって予測された絶対結合自由エネルギーの昇順にランク付けされています。
初期空間では少数派(0.57%)でしたが、最終的なヒットリストではグランドトゥルースケモタイプが大幅に濃縮されている(84%)ことは心強いことです。ヒットの構造と結合ポーズを調べたところ、SpaceDockは実際に、上位にランク付けされたヒットの中から、グランドトゥルースリガンド(ランク#9)、既知のERβアゴニストChEMBL187673 [50](IC50 = 50 nM、ランク#25)、およびほぼ完璧な結合モード(グランドトゥルースリガンドのrmsd = 1.15 Å、図3C)を持つ他の52種類の2-アリールベンゾオキサゾールを回収できることがわかりました。ヒットの約半分(64個中30個;すべてベンゾオキサゾール空間由来)は、既存のERβリガンドと化学的に類似している(円形ECFP4フィンガープリントで測定された谷本係数による)とみなされ(図S5)、SpaceDockが既知のリガンド(またはその非常に類似したアナログ)と新規化学物質の両方を提案できることを示しています。しかし、Enamine REALスペースと厳密に一致する化合物の数は、より少なくなりました(図S5)。この観察結果は、それらの合成可能性を除外するものではありませんが、これらのヒットが、それらの出発ビルディングブロックの市販入手可能性にもかかわらず、REALスペースを定義する167の並列合成プロトコルの範囲内で取得できないことを示しています。この予備的な概念実証から、本明細書で提示された方法は、標的の構造の3D制約下で、適切に配置され、化学的に適合性のある化学試薬から複雑な有機化学反応(環化)を実行して、意味のある理由で完全に列挙されたリガンドを生成し、優先順位付けできることがわかります。したがって、はるかに大きなケミカルスペースの前向きスクリーニングにSpaceDockを適用することにしました。
ヒトドパミンD3受容体アンタゴニストの6億7,000万化合物のプロスペクティブケミカルスペースドッキング
次に、ヒトドパミンD3受容体(DRD3)を標的とする6億7,000万個のカルボキサミドのはるかに大きなケミカルスペースに、この方法を適用しました。入手可能な唯一の高解像度DRD3受容体構造(PDB 3PBL)は、アンタゴニストエチクロプリド(図4A)[51]と複合体で得られているため、後者のオルトメトキシベンズアミド(OMB)リガンドを、回収する参照リガンドとグランドトゥルースリガンドの両方に使用しました。市販のカルボン酸と第一級/第二級アミン(表S2)を最初にフィルタリングして、アミド結合形成時に薬物様リガンドにならない試薬(表S4)を除去し、6億7,000万個のカルボキサミド(図4B)のケミカルスペースを探索するために、19,887個の酸と33,726個のアミン(3D座標)を保持しました。得られた53,613個の化学試薬を、前述のように、GOLDドッキングとPLPスコアリングを使用して、エチクロプリドを含まないDRD3構造にドッキングしました。各反応物に対して20個のポーズが保存されているため、合計2,680億個(19,887 * 20 * 33,726 * 20)の可能な反応がSpaceDockフローチャートに渡され(図4B)、まず幾何学的基準(図S6)に従って不可能なアミド結合形成を除去し、主要なAsp110残基[51]への重要なイオン結合を示すアミンポーズのみを保持し(フィルター#1、図4B)、次に、すべての相互作用について参照リガンドとのIFP類似性が0.60より高く、極性相互作用のみについて0.50より高い反応物ペアを保持しました[40]。合計24,674,693個の反応をin silicoで実施して、受容体ポケット内に対応するカルボキサミドを生成し、その後、エネルギー最小化を行いました。初期ポーズから大きくずれていない(rmsd < 1.0 Å)最小化されたポーズのみを保持することで、15,120,198個の妥当な解が得られました(フィルター#3、図4B)。この段階で、シスアミド結合を持つヒット、または2つ以上のキラル中心を持つヒット、または9つ以上の回転可能な結合を持つヒットが除去され、薬物様化合物のみが保持されました。結果として得られたヒットの数はまだ非常に多いため、参照リガンドに対する完全IFP類似性が高く(IFP類似性> 0.60)、極性相互作用(Asp110へのH結合とイオン結合)に関してエチクロプリドと完全なIFP類似性(IFP = 1)を示す最小化されたポーズのみを保持することにより、ヒットリストを整理しました。このフィルター(フィルター#4、図4B)により、対応するリガンドの完全原子論的ドッキング(GOLDドッキング、PLPスコアリング、20個のポーズを保存)によって確認する必要のある518,306個のSpaceDockポーズ(500,041個のユニークな化合物に対応)が得られました。最小化されたSpaceDockポーズと比較しました。次の3つの基準(rmsd ≤ 2.0 Å、IFP_full ≥ 0.60、IFP_polar = 1)をすべて満たすドッキングポーズのみが保持され、妥当性チェック(歪んだねじれなし、局所ひずみエネルギー≤ 4 kcal/mol、グローバルひずみエネルギー≤ 8 kcal/mol、満たされていないイオン結合なし、≤ 2つの満たされていないH結合供与体、≤ 4つの満たされていないH結合受容体、フィルター#6、図4B)のために712,120個の良好なドッキングポーズが残りました(フィルター#5、図4B)。残りのポーズの数はまだ多く(97,096)、芳香環を持たない化合物(既知のDRD3アンタゴニストには常に存在する)[52]を除去するために、30 kJ/mol未満の予測絶対結合自由エネルギー(HYDEスコア)を示し、元のSpaceDockポーズとの偏差をさらに制限するカスタムフィルター(デフォルトでは実装されていません、表1)が追加されました(rmsd ≤ 1.0 Å、IFP_full ≥ 0.75)。315個のユニークなリガンドからの757個のドッキングポーズという妥当な数(フィルター#7、図4B)が、最終的なヒットリストを定義しました。化合物は、参照リガンドに対する完全IFP類似性の降順、次に極性IFP類似性の降順、最後にHYDE結合自由エネルギーの昇順にランク付けされました(表S5)。ERβリガンドの最初の試行と同様に、まず、グランドトゥルースリガンドとそれに対応するOMBスキャフォールドがリストに存在するかどうかを確認しました。実際、エチクロプリド(ランク30)を含む15個のOMBが、参照リガンドと非常に類似した結合ポーズ(エチクロプリドのrmsd = 0.73 Å、図4C)でリストに含まれていました。興味深いことに、OBMスキャフォールドを共有しない300個の追加のヒットが、エチクロプリドと非常によく似たポーズとタンパク質-リガンド相互作用パターン(図4D)で優先順位付けされました。ほとんどのリガンドは、オルトメトキシベンズアミドが2~3個の炭素原子で塩基性アミンに結合した二環式ヘテロアリール-アミドに置き換えられたスキャフォールドホップでした。ERβヒットリストと比較して、DRD3ヒットは既知のChEMBLリガンドからのずれが大きい(24%が化学的に類似しているとみなされる)が、REALスペースでより容易に入手できます(53%が直接購入可能で、さらに38%がREALスペース化合物と非常に類似している;図S7)。化学的に多様で代表的な16個のヒットをEnamineから直接購入しました。そのうち15個は6週間で合成でき(5 mgの量、> 90%の純度)、ヒトDRD3への結合についてさらにテストしました(図5)。テストした15個の化合物のうち、10個は10 μMの単一濃度でDRD3受容体への検出可能な結合(> 20%阻害)を示しました(図5)。6つの最強の結合剤(#1、#25、#66、#107、#142、および#161)を選択して、阻害定数(Ki)決定のための用量反応曲線を作成しました(図5、図S8)。そのうち3つ(#1、#66、#142)は300~400 nMの範囲のKi値を示し、他の3つは1.4~1.6 μMでした。注目すべきヒット率(10 μMで66%、500 nMで20%)は、超巨大ライブラリー[10,11]の完全原子論的ドッキングで見られた傾向と一致しており、SpaceDockは大規模ケミカルスペースをスクリーニングする場合、はるかに要求の厳しい完全原子論的ドッキングとかなりうまく競合することを示唆しています。興味深いことに、6,714個のドパミンDRD2/DRD3リガンドのいずれにおいても、ChEMBL(表2)から見つけることができなかった4つの強力な結合剤(#66、#107、#142、および#161)について、新規ヘテロアロマティック-カルボキサミド骨格が見つかりました。SpaceDockの提案は、依然として一次ヒットとみなされるべきです。そのため、その効力は、ChEMBLの最も近いドパミンD2/D3アンタゴニストよりも低いですが、リガンド効率は高くなっています。
結論
本稿では、標的タンパク質と既知の結合剤の特定の制約の下で、超巨大ケミカルスペースを網羅的にブラウズするための新しい計算手法(SpaceDock)について説明します。薬物設計に適した2つの標的(エストロゲン受容体β、ドパミンD3受容体)と最大6億7,000万個の化合物のケミカルスペースに適用した結果、既知のリガンド/スキャフォールドの迅速な回収(両方の場合)と、新規で強力な新規化学物質の同定(ドパミンD3受容体)が可能になりました。SpaceDockは、次の2つの大きな違いにより、既存の方法[20,22,23]とは異なります。(i)完全に修飾されていない化学試薬を使用し、シントン(化学情報に基づく出口ベクトルを持つスキャフォールド)はヒットの一次ソースとして使用しません。(ii)最も有望なリガンドは、以前に配置された試薬ペアの幾何学的および化学的適合性に従って、3D in silico合成によって、タンパク質結合部位内で直接得られます。実際、化学試薬の直接ドッキングは、私たちの知る限り、これまで報告されていません。興味深いことに、私たちの予備的なベンチマークでは、化学試薬のドッキングは、完全なPDBリガンドにおける対応する部分構造に関して約75%の化学物質が適切に配置された、低分子量フラグメント[39]のドッキングと同様に正確であることが示されています。注目すべきことに、ドッキング精度は、使用されるドッキングツール、反応物の反応部分、標的タンパク質ファミリーとは無関係であるため、この方法は、任意の薬物設計可能な標的と市販のビルディングブロックのセットに適用できます。SpaceDockは、ほとんどのSpaceDockヒットへの容易な合成アクセスを可能にするために、EnamineのREALスペースに寄与する化学試薬に依存しており、36種類の堅牢な2成分有機化学反応のセットを使用して、結合部位の3D空間内にヒットを生成します。試薬の平均ドッキング精度は70%であることを考えると、化学的に適合性のある2つの試薬を、完全に列挙され、適切に配置されたリガンドに適切に結合できる可能性は約50%であると予想されます。もちろん、有機化学反応に関与する化学部分は、最初のドッキングステップで考慮されます。関数が誤って配置されたり、標的と強く相互作用したりする場合、2番目に配置された反応物とのトポロジー的および化学的適合性が検証されなくなると、さらなる結合に使用できなくなる可能性があります。出発化学試薬のドッキングは、明らかにフローチャート全体の中で最も時間のかかるステップ(約15秒/試薬)です。つまり、SpaceDockは、スクリーニングされるケミカルスペースを定義する生成物の数ではなく、反応物の数に比例します。その後の処理速度を最適化するために、複雑さが増す一連のフィルターが、妥当な解の数が減少しながら、段階的に適用されます。高速距離/角度測定によってペアになる適合性のある反応物の相対位置を確認するだけで、可能な解の99.8%を除外できます。必須ではありませんが、重要な残基との予想される相互作用を満たさないトポロジー的に有効なリガンドを除外するために、参照ポーズとのIFP類似性を適用しました。このフィルターを使用すると、完全なリガンドポーズの数を3番目に時間のかかるが必須のエネルギー最小化ステップ(約1秒/再結合ポーズ)に減らし、新しく作成された結合の周りの局所的なひずみを除去できます。SpaceDockの提案は、タンパク質結合部位内でのエネルギー最小化時に変化せず(rmsdとIFP類似性の観点から)、対応するリガンドの完全原子論的ドッキングによって回復できる場合、より興味深いものになると想定しています。必須ではありませんが、SpaceDockと任意の最先端のドッキングツール(ここではGOLDを使用しましたが、他のツールも使用できます)が、非常に重要な品質チェックに送信される最終的なポーズについて同意していることを確認するために、この再ドッキングステップをお勧めします。特に、局所的および全体的なひずみエネルギー(それぞれ≤ 4および8 kcal/mol)、および満たされていないイオン結合の数(なし)、および満たされていない水素結合供与体/受容体の数(それぞれ≤ 2および4)が重要です。DRD3のテストケースでは、このステップを省略すると、最終的なヒットリストに偽陽性が大幅に増加し、実験的に確認することができませんでした(データは示していません)。ここに提案するケミカルスペースドッキングアプローチは、少なくともGタンパク質共役受容体の現在のケースでは、高いヒット率とナノモル効力で実験的に検証されたヒットをもたらす可能性があり、超巨大ライブラリーバーチャルスクリーニング[10,11]の完全原子論的ドッキングですでに確認されている傾向と一致しています。
SpaceDockは、1億個の化合物のケミカルスペースのブラウジングが16コアのIntel(R) Xeon(R) Silver 4210プロセッサで2日以内に達成できるため、比較的小規模な計算手順のままです。55億個のケミカルスペース全体をマイニングすることは、4回目の国際CACHEチャレンジ[54]で、限られたリソース(400コアで1週間)で可能になりました。さらに大きなケミカルスペース(例:3成分反応を追加する)をスキャンする予備的な試みでは、この方法を1兆個の化合物に簡単に適用できることが示唆されています。
方法
フラグメント化されたタンパク質結合リガンドからの化学試薬ライブラリーの設定
薬物設計可能なタンパク質-リガンド3D構造のsc-PDBデータベース[55,31]からの37,922個のリガンドを、12個のRECAP [56]にヒントを得た逆合成ルールを使用してフラグメント化し、TRIPOS力場[57]から取得した標準的なトポロジー(結合長、角度曲げ、ねじれ角)を持つ97,024個の化学試薬(図S1)を得ました。得られたビルディングブロックは、次のルールを使用してフィルタリングされました。(i)IChem v.5.2.8 [45]による、元のsc-PDB標的タンパク質との少なくとも4つの非共有結合相互作用(そのうちの1つはイオン結合または水素結合)の検出、(ii)重原子の総数が3~23、(iii)回転可能な結合の総数が6以下、(iv)ヘテロ原子と炭素の比率が0.05~4.5、(v)縮合環が2つ以下、(vi)芳香環の数が3つ以下。最終的なライブラリーは、4,656個のユニークなsc-PDBリガンドに由来する5,845個の試薬(mol2ファイル形式)で構成されていました。ビルディングブロックは、標的と明示的に結晶化されていませんが、対応するポーズは、以降「代替X線」ポーズとして注釈が付けられます。
sc-PDBビルディング試薬の同族標的へのドッキング
上記で説明した試薬は、Surflex [37]のran_archiveルーチンを使用して、初期の向きと二面角をランダム化した後、標準パラメータ(表S6~S8)に近い5つの最先端のドッキングツール(FlexX v.5.2.0、[33] GOLD v.2022、[34] PLANTS v1.2、[35] RDPSOVina v.2.0、[36] Surflex v.4.5.4.3 [37])を使用して、リガンドが由来するsc-PDB標的にドッキングされました。ホウ素原子は一部のドッキングツールではパラメータ化されていないため、ボロン酸の三角形平面形状を維持しながら、ダミー原子(FlexX、GOLD、PLANTS、Surflex) または炭素 (RDPSOVina) に置き換えられました。 可能な限り、最大 20 個のポーズを mol2 ファイル形式 (GOLD、PLANTS、Surflex)、sd ファイル形式 (FlexX)、または pdbqt ファイル形式 (RDPSOVina) で優先的に保存しました。各ドッキングポーズについて、mol2 ファイルを比較する場合は Surflex rms ルーチン、異なる形式のファイルを比較する場合は ADFRsuite-1.0 [58] obrms ルーチンを使用して、対応する代替 X 線ポーズに対する重原子の二乗平均平方根偏差 (rmsd) を計算しました (mol2 対 pdbqt、mol2 対 sd)。 さらに、IChem v.5.2.8 パッケージの IFP モジュールを使用して、ドッキングされたポーズと X 線ポーズの間のタンパク質-リガンド相互作用の類似性を測定しました。[45]
36 種類の堅牢な有機化学反応によってコード化された特注ケミカルスペースの準備
市販されているビルディングブロックのグローバルストック (250,355 化合物、sd ファイル形式、日付: 2022-12-28) を Enamine の Web サイト [59] からダウンロードし、カタログ ID 番号でフィルタリングして、REAL スペースに寄与する 145,707 個の試薬を保持しました。[43] ビルディングブロックをフィルタリングして、前述のように不適切なエントリを削除しました。[41] 36 種類の 1 段階または 2 段階の有機化学反応 (表 S2) のそれぞれについて、PipelinePilot v.22.1.0.2935 [60] の SMARTS 文字列 [41] クエリを使用して、対応する反応物を取得しました (図 S9)。副反応を避けるために、ビルディングブロックは、対象の反応基に対して単官能性であり、対象の反応に対して可能な毒性化学官能基 (表 S2) を含まないようにする必要があります。保持された各ビルディングブロックと可能な反応について、注釈トリプレットが提供されます。(i) 反応タイプ、反応物としての役割、および反応原子。最終的な注釈テーブルには、134,331 個の REAL ビルディングブロックの 713,155 個の注釈トリプレットが含まれています。選択されたビルディングブロックは、PipelinePilot を使用して pH 7.4 での最も可能性の高いイオン化状態に最終的にイオン化され、Corina v.3.40 [61] を使用して 3D 原子座標に変換されました。これにより、最大 4 つのジアステレオマーをエントリごとに、単一のドッキング可能な mol2 ファイル形式で生成できます。
ヒトエストロゲン受容体βへの化学試薬のドッキング
アゴニストゲニステイン [62] と複合体を形成したヒトエストロゲン受容体βの X 線構造を、タンパク質データバンク (PDB 1QKM) からダウンロードしました。Protoss v.4.0 [63] を使用して、水素原子を追加し、タンパク質、水、およびリガンド原子のプロトン化状態の同時最適化を実行しました。鎖 A の残りのタンパク質原子のみを保持したまま、すべての水分子とゲニステインを削除し、mol2 ファイル形式で保存しました。ベンゾオキサゾール環またはスルホンアミド結合を形成する可能性のある市販のビルディングブロック (145 個のアミノフェノールと 3,874 個のベンズアルデヒド; 1,275 個の塩化スルホニルと 76,758 個のアミン) を、以前に報告されたパラメータ設定 (表 S7) を使用して、GOLD を使用して ERβ 原子座標にドッキングしました。キャビティは、ゲニステインの X 線原子座標から検出されました。PLP スコアリング関数でスコア付けされた、最大 20 個のポーズを各ビルディングブロックに保持しました。
ヒトドパミン D3 受容体 (DRD3) への化学試薬のドッキング
アンタゴニストエチクロプリド [51] と複合体を形成したヒトドパミン D3 受容体の X 線構造を、タンパク質データバンク (PDB 3PBL) からダウンロードしました。Protoss v.4.0 [63] を使用して、水素原子を追加し、タンパク質、水、およびリガンド原子のプロトン化状態の同時最適化を実行しました。挿入された T4 リゾチーム配列 (Asn1002-Tyr1161)、すべての水分子、およびエチクロプリドを削除し、鎖 A の残りのタンパク質原子のみを保持して、mol2 ファイル形式で保存しました。市販のビルディングブロックは、アミド結合形成を通じて薬物様分子を形成する能力 (表 S4) と、REAL スペースで使用される試薬のプールに含まれていることに基づいて、最初にフィルタリングされました。アミド結合を形成する可能性のある試薬 (33,726 個のアミンと 19,887 個のカルボン酸) を、以前に報告されたパラメータ設定 (表 S7) を使用して、GOLD を使用して DRD3 原子座標にドッキングしました。キャビティは、エチクロプリドの X 線原子座標から検出されました。PLP スコアリング関数でスコア付けされた、最大 20 個のポーズを各ビルディングブロックに保持しました。可能な再結合の数を減らすために、IChem を使用してオンザフライで検出された、重要な残基 Asp110 とのイオン結合を示すアミンのドッキングポーズのみを、アミド結合形成のためにさらに保持しました。
試薬カップリングによるリガンドの列挙
化学的に適合性のある 2 つの試薬のポーズが与えられると、それぞれの位置と化学的適合性に従って、タンパク質結合部位内にリガンドが生成されます。試薬のポーズは、最初に社内 mol2 パーサーを使用してロードされ、図 2 に示すタグテーブルに基づいて、少なくとも 1 つの反応について注釈が付けられます。反応原子とその隣接原子の原子座標を抽出し、後続の計算のために保存します。このプロセスは、同様のワークフローに従って、各反応について繰り返されます。次に、試薬ポーズのペアに一連のフィルターが適用されます。これには、遠く離れたペアを迅速に排除するための重心間の距離、結合可能な原子間の距離、将来形成される結合/環の特定の角度を調べて適切な形状を確保すること、およびクラッシュ (非反応原子間で ≤ 4) を考慮して置換基の重複を防ぐことが含まれます。ペアがすべてのルールを満たしている場合は、結合可能な原子間に結合が作成されます。次に、反応原子の混成を更新して、新しく作成された結合を反映し、出口原子 (反応後に削除される) を削除します。完全に列挙された分子は、単一の mol2 ファイルに保存されます。この段階では、オプションのステップも利用できます。参照リガンドが存在する場合は、最初に分子を一時的な mol2 ファイルに書き込み、IChem v.5.2.8 を使用して、参照ポーズとの IFP 類似性 (デフォルト値は、すべての非結合相互作用について ≥ 0.60、極性相互作用について ≥ 0.50) を評価します。類似性のしきい値に達すると、分子は最終的な mol2 ファイルに転送されます。これらのフィルターの詳細なルールは、図 S3、S4、および S6 に記載されています。標的タンパク質の存在下での完全に列挙された分子は、標準設定と MMFF94 力場 [64] を使用して、Szybki v2.4.0.0 [46] で最終的にエネルギー最小化されます。
参照リガンドとの比較
ポーズ (エネルギー精密化の前後) と参照 X 線リガンドの間の相互作用フィンガープリント類似性検索は、IChem v.5.2.8 パッケージに実装されている IFP モジュールの標準パラメータを使用して実行しました。[45] 同様に、二乗平均平方根偏差は、Surflex-Dock v.4.5.4.3 の rms ルーチンを使用して計算しました。[37]
SpaceDock ポーズの再ドッキング
2 つの試薬ポーズのカップリングと、それに続くタンパク質制約の精密化 (「SpaceDock」ポーズと呼ばれる) を、GOLD を使用して標的タンパク質構造に再ドッキングしました。採用されたスコアリング関数は PLP で、20 個のポーズが生成され、パラメータファイルは表 S7 に記載されているものと同じでした。構造バイアスを排除するために、入力リガンド構造は OEChem Toolkit v.3.4.0.1 [46] を使用して SMILES 形式に変換され、さらに Corina v.3.40 [61] を使用して 3D 構造に変換されました。最大 4 つのジアステレオマーを単一の mol2 ファイルに生成しました。結果として得られた完全原子論的ドッキングポーズは、rmsd (Surflex rms を使用して計算) が 2 Å 未満、すべての非結合相互作用の IFP 類似性が ≥ 0.60、対応する SpaceDock ポーズとまったく同じ極性 IFP である場合、確認済みと見なされ、後続の調査のために保持されました。各 SpaceDock ポーズに対して、これらのルールを満たす複数のドッキングポーズが存在する場合は、すべて保持されます。
再ドッキングされたポーズの品質チェック
すべての再ドッキングポーズのねじれひずみの数は、TorsionAnalyzer v.2.0.0 [47] を使用して推定しました。「ひずみあり」と注釈が付けられたねじれを少なくとも 1 つ持つポーズは、さらなる分析から除外されました。次に、Freeform v.2.4.0.0 [46] の標準パラメータを使用して、局所ひずみ (最近傍の局所最小値からの特定のコンフォメーションの歪み) とグローバルひずみ (水中の対応する化合物の完全なコンフォメーションアンサンブルから特定のコンフォメーションを選択するために必要なエネルギー) を計算しました。局所ひずみエネルギーとグローバルひずみエネルギーがそれぞれ 4 kcal/mol と 8 kcal/mol よりも高いポーズは、破棄されました。最後に、残りのポーズについて、タンパク質結合状態で検査を行い、満たされていないイオン結合、水素結合供与体、および受容体の数をカウントしました。最初に、IChem を使用して、タンパク質-リガンドのイオン結合と水素結合を登録しました。上記のリストに存在しないリガンドの電荷を帯びた原子または水素結合供与体/受容体原子 (IChem の定義による) [40] は、「満たされていない」原子として注釈が付けられました。供与体と受容体の両方である満たされていない重原子 (例: ヒドロキシル酸素原子) は、1 回だけカウントされました。分子内水素結合に関与しているリガンド原子は、満たされていると見なされました。全体として、満たされていない供与体が 2 つ以上、満たされていない受容体が 4 つ以上あるリガンドポーズは、最終的なヒットリストから削除されました。
ChEMBL および REAL スペースリガンドとの類似性
ヒトエストロゲン受容体β (CHEMBL242) およびヒトドパミン D2 (CHEMBL217) および D3 (CHEMBL234) 受容体の既知のリガンドを、Ki < 1 μM、assay_type = B という基準を満たすリガンドエントリの SMILES 文字列として、ChEMBL データベース (リリース 33) [50] から取得しました。SpaceDock ヒットと ChEMBL リガンドの間のペアワイズ化学的類似性は、ECFP4 円形フィンガープリントから PipelinePilot v.22.1.0.2935 [60] を使用して計算し、谷本係数の値でスコア付けしました。SpaceDock ヒット (Open Babel v.3.1.0 [65] を使用して、mol2 から SMILES 文字列に変換) と 360 億個の REAL スペースリガンド (バージョン REALSpace_36bn_2023-03.space12) の最大共通部分構造 (MCS) 類似性を、SpaceMACS v.0.9.2 [15] を使用して計算し、MCS-谷本類似性の値の降順で上位 15 個の REAL スペース化合物を保存しました。