COATI: Multimodal Contrastive Pretraining for Representing andTraversing Chemical Space
SUMMARY
この論文は、Terray Therapeutics社の研究者らによる「COATI: Multimodal Contrastive Pretraining for Representing and Traversing Chemical Space」という題の研究を報告しています。主な内容は以下の通りです:
COATIモデルの提案:
分子構造を表現するための新しいマルチモーダルな対照学習モデル
2D(SMILES文字列)と3D(点群)の分子表現を同時に学習
エンコーダー-デコーダー構造を持ち、分子の生成も可能
モデルの特徴:
固定長のベクトル表現を生成
逆変換可能(分子構造の復元が可能)
大規模なデータセット(1.4億以上の分子)で事前学習
物性予測や分子生成に利用可能
性能評価:
線形プローブによる回帰タスクで既存手法と同等以上の性能
分子の自己符号化や生成においても高い精度
応用例:
メタダイナミクス手法を用いた分子最適化アルゴリズムの提案
炭酸脱水酵素阻害剤の設計に適用し、既知の活性化合物に類似した新規分子を生成
利点:
教師なし学習により、特定のタスクに偏らない汎用的な分子表現を学習
3D情報を含むことで、将来的に立体構造を考慮した分子設計にも応用可能
大規模実験データとの組み合わせにより、実用的な分子設計が可能
この研究は、機械学習を用いた分子設計の新しいアプローチを提案し、創薬プロセスの効率化に貢献する可能性を示しています。特に、マルチモーダルな表現学習と大規模実験データの活用が特徴的です。
Introduction
薬物として適した小分子の空間は、1060以上の固有の構造を含むと推定されています。その膨大な規模のため、空間全体を総当たりで探索することは不可能です。薬物発見の計算的側面は、しばしば分子を生成する仮想列挙フェーズと、予測/フィルタリングフェーズに分けられます。生成には一般的にさまざまなアプローチが使用されます:反応ベースまたは組み合わせ列挙、進化的アルゴリズム、分子の専門知識/直感、骨格置換、その他です。また、Enamine REALやWuXi Galaxiのような「事前生成された」仮想化学空間も探索可能です。しかし、ヒットからリード、そしてリード最適化の段階では、商業的に入手可能なコレクションには見られない焦点を絞った化学空間を探索するために、新規生成がよく使用されます。関心のある化学空間が生成されると、コストのかかる実験測定をトリアージするために、さまざまな特性予測モデルが使用できます。これらの方法は、機械学習(ML)ベースの方法と物理ベースの方法の2つのカテゴリーに分けられます。小分子特性予測のためのリガンドベースのML法には、3つの基本的な要件があります:実験的分子トレーニングデータ(例:生化学的活性アッセイからのIC50値)、小分子を特徴付けまたは表現する方法(例:分子フィンガープリント)、そして分類または回帰のための教師あり学習アルゴリズム(例:XGBoostリグレッサー)です。一方、物理ベースのアプローチは通常、ほとんどまたは全く実験的入力を必要とせず、量子力学(すなわち密度汎関数理論)、古典力学(すなわち力場)、または他の関連方法に依存して、コンフォメーション歪み、溶解度、標的-リガンド結合などの特性を計算します。
ヒット発見と分子最適化へのこの2段階アプローチは、多くの薬物発見プログラムで成功裏に使用されてきましたが、化学空間を探索しながら同時に関心のある特性を最適化または制約できる1段階の生成的方法は、ヒットからリード、そしてリード最適化にはるかに計算効率が高いでしょう。この生成的分子最適化アプローチには、4つの基本的な構成要素が必要です:(a) 大規模な定量的、実験的データの反復的な供給源、(b) 分子特性を予測できるデコード可能で予測的な分子の特徴付けまたは表現(本研究の主な焦点)、(c) 不確実性の定量化が組み込まれた滑らかで微分可能なリグレッサー、そして (d) リグレッサーの表面を直接探索し最適化するために使用できる化学空間探索方法です。このアプローチの魅力のため、テキスト、グラフ、そして3Dモダリティの多くの生成モデルが報告されています。
最近数年間、従来の方法に代わる分子生成の方法として人気を集めているのは、教師なし学習アルゴリズムを使用して、ベクトル表現空間で直接探索し、その後有効な分子にデコードできる分子のデコード可能な潜在空間ベクトル表現を生成することです。これらの事前学習された一般化可能なエンコーダーは、近年人気のある分子設計ツールとなっています。しかし、これらのモデルは異なる化学表現で動作する可能性があり、明確な最適な選択はありません。対照学習アプローチは、いくつかのデータモダリティを統合でき、下流タスクでのロバスト性を高め、複数の分野で成功を収めています。私たちは、複数の分子モダリティの対照学習を使用するスキームを探索し、私たちの実験は、この戦略が広く適用可能でロバストな表現につながることを示しています。
より一般的に、私たちは、条件付き生成を基盤モデルの微調整から切り離し、将来のマルチモーダル表現学習の進歩への道を提供する、小分子の生成的基盤モデルを求めています。この効果のために、私たちは対照学習による加速された治療推論(COATI)を提示します。これは、微分可能なモデルで表現できる任意の分子特性セットで使用できる、分子設計のための新規で実用的な方法です。私たちは、さまざまな分子回帰タスクに対して競争力のあるエンコーダーである構造のための新規マルチモーダルエンコーダー-デコーダースキームに依存しています。私たちは、分子の2D(テキスト)および3D(点)表現を整列させ、同時に入力のいずれかから分子を回復する生成トランスフォーマーデコーダーを訓練することでこれを実現します。私たちは、対照事前学習がフィンガープリント、エンコーダーのみのモデル、および他のデコード可能な表現と比較して、回帰性能で優れた結果をもたらすことを実証します。私たちはモデルのアーキテクチャの変異を報告し、さまざまな分子空間のデコードと生成の可能性を定量化します。最近の画像生成モデルの発展と直接的な類推で、この作業に触発された分子表現のための共通の潜在空間は、空間に依存しない多くの実用的な用途があります。
私たちは、この生成設計方法が、分子発見に関連する反復的にデータを生成できる新規の高スループット実験方法(例:標的-リガンド結合測定)と連携して使用されることを想定しています。私たちは、私たちのデコード可能な分子表現であるCOATIと、分子設計と最適化のために提案するメタダイナミクスにインスパイアされたアルゴリズムが、実用的な生成設計の将来の開発のための有用なテンプレートを提供すると予想しています。この論文は最初にCOATIの開発と評価に焦点を当て、モデルタンパク質(炭酸脱水酵素)のためにTerrayプラットフォームデータの小さなサブセットを使用した生成的分子最適化の実世界応用で締めくくります。この応用では、複数の埋め込まれた特性制約を満たしながら最適化された効力を持つ分子を生成します。
3Dエンコーダーヘッドの目的は明白でないかもしれません。それが有用である理由は2つあります。コンフォメーションは分子の実際の特性であり、大規模に容易に列挙してテキストへのバイアスを減らすことができ、対照学習に有用な信号を提供します。さらに、私たちのモデルが望ましい化学空間に向けて3D生成モデルを条件付けるための基礎として使用できることを意味しますが、これは将来の作業のために残しています。
PRIOR WORKS
分子表現: 小分子は、文字列、バイナリフィンガープリント、特性ベースの記述子、3D座標など、さまざまな方法で表現できます。分子の最も一般的な文字列ベースの表現は、SMILES(Simplified Molecular Input Line Entry System)と呼ばれます。我々はまた、構造上常に有効なSELFIESも考慮します。両表現は分子グラフトポロジーをテキスト文字列にエンコードし、特性予測や自己回帰生成のために、テキスト処理用に設計された機械学習手法と便利に使用できます。
分子構造を機械学習モデルへの入力用にベクトル化する従来の方法は、グラフトポロジーハッシング、部分構造クエリ、または原子間距離のペアワイズ反復を使用してきました。これらの「分子フィンガープリント」は、定量的構造活性相関モデリング、仮想スクリーニング、大規模化学データベース全体での類似性検索を行うために数十年にわたって使用されてきました。従来のアプローチは依然として広く使用されており、小規模データセットでは大きな実用的利点を持つことがよくあります。
最近の研究は、データから直接学習した表現で設計された特徴を置き換えることを目指しています。エンドツーエンドの学習方法は、グラフニューラルネットワークを使用した分子グラフに対する直接の教師あり学習、グラフやSMILES文字列に対する自己エンコーダーを介した教師なし学習、GANs、または自己回帰事前学習の形を取ってきました。学習された分子表現は、量子化学計算の近似、化学反応の生成物予測、DNA符号化ライブラリ(DEL)データでトレーニングした後の仮想スクリーニングの実行において有望な結果を示しています。ユークリッド空間での変換に対して不変または等価となるように設計されたニューラルネットワークアーキテクチャは、多体系のシミュレーションや分子構造の特性予測において優れた性能を示します。
分子のための生成モデル: 従来のモンテカルロアルゴリズムおよび関連アプローチは、無条件または制約付きで妥当な分子構造をサンプリングすることができます。データ駆動型の手法は、分子生成への新しい道を開いており、これらは大まかに自己回帰型とワンショット型のアプローチに分けることができます。自己回帰型生成器は、前のステップからの情報を活用しながら、分子を段階的に構築します。最も一般的な自己回帰モデルはテキストモデルですが、自己回帰グラフモデルも探求されています。Winter et alは、事前学習中に二次的な回帰目的も持つデコード可能性を提供しており、我々はこれを我々のモデルアーキテクチャとベンチマークします。もう一つのアプローチはGFlowNetsで、技術的にはワンショットでありながら自己回帰生成をエミュレートしようとします。この分野で試みられたワンショットアプローチには、GANs、正規化フロー、拡散モデルが含まれます。
教師なし対照事前学習: 対照学習は、異なる入力モダリティ間または入力データの拡張間でデータポイントのペアをマッチングするようにモデルをトレーニングすることで、入力空間の埋め込みを生成する自己教師あり学習パラダイムです。対照言語-画像事前学習(CLIP)アーキテクチャは、異なるモダリティのエンコーディング間のクロスエントロピー損失を使用し、多くのゼロショット学習タスクで最先端の性能を達成します。他の研究では、2D原子接続グラフから直接分子表現を学習するためにグラフ対照学習を使用しています。
また、2D/3Dの混合表現を事前学習する研究もいくつかありますが、我々の知る限り、デコード可能な表現を持つエンドツーエンドの対照損失に基づくものはありません。Chen et alは、3D情報を組み込むために重み付けグラフを使用しました。Liu et alは、GraphMVPを報告し、これは情報ノイズ対照推定(InfoNCE)損失を使用して2Dおよび3Dグラフ表現を整列させます(InfoNCEでより詳細に説明)。Stärk et alも、デコード機能なしで2D/3D合同エンコーダーを生成するためにInfoNCE損失に依存しています。我々はこの損失関数と関連する損失も実験しますが、我々のモデルが提供する追加のデコード能力も加えます。Zhu et alは、混合2D/3Dエンコーディングでの事前学習を報告し、その埋め込みから3D構造を自己回帰的に生成します。しかし、その研究で使用されたポイントエンコーダーは等価ではなく、学習目的は分子部分構造を呼び出します。Seidl et alは、対照学習を使用してSMILES文字列と科学的アッセイを記述する自然言語の埋め込み空間を整列させ、回帰タスクでの予測性能に有用な改善を見出しています。我々は代わりに、より本質的な分子構造データの複数の空間を整列させることに焦点を当てていますが、共同表現空間にさらなるモードを追加することは合理的な拡張です。
関連する汎用埋め込み: 上記の開発に基づいて、COATIと類似のニッチを占めるいくつかの方法について結果で議論します:CLAMP、MegaMolBART、ChemGPT、ChemBERTa MTR、およびWinter et alのモデル(CDDDと呼びます)。表1は、後の線形プローブ回帰結果で議論される関連するモデルアーキテクチャの特徴をまとめています。生成モデルは、その埋め込みから分子をデコードできるため、フィルタリングなしで分子設計が可能になります。固定次元性により、エンコーダーを回帰器の基礎モデルとして使用することで、埋め込み空間上のより簡単な生成的最適化が可能になります。我々は対照的な目的を望ましいと考えています。なぜなら、監督なしで大規模データセットにスケールでき、特性データセットへのバイアスを導入しないからです。CDDDやChemBERTa MTRなどのモデルが取る別のアプローチは、薬物様空間に重要であることが知られている特徴に対する表現力を学習目的に追加することです。これは利用可能なデータセットで良好な性能を示しますが、すべてのダウンストリームタスクに重要な特徴が選択されたかどうかに疑問を投げかけます。対照損失または既知の薬物特徴へのバイアスを持つモデルは、これらの特徴を持たないエンコーダー/デコーダーよりも性能が優れています。最後に、分子の3D点表現からの埋め込みにより、エンコーダー-デコーダーと3D生成モデルの組み合わせが可能になります。例えば、生成的拡散モデルをそのようなモデルで条件付けることができますが、この特徴の活用は将来の研究テーマです。
METHODS
我々は、SMILESと3D分子構造の両方に共通の表現を求めています。この表現は予測モデルへの入力として使用でき、新しい分子を生成するためにデコードすることができます。
ネットワークアーキテクチャ:
ポイントエンコーダー:
3Dポイントエンコーダーとして、我々はWellingグループのE(3)不変グラフニューラルネットワーク(本稿ではE(3)-GNNと呼びます)を使用します。これは、球面テンソル特徴を持つモデルと比較して計算コストが低いためです。E(3)不変ポイントエンコーダーの使用は、ここで提示するCOATI潜在空間のバージョンが明示的にキラリティ情報を捨てることを意味することに注意してください。この設計選択は、SE(3)不変ポイントエンコーダーを使用するか、キラル球面テンソル不変量をポイントエンコーダーに追加することで緩和できます。原子ノードは、周期表の行と周期を表す2つのワンホットエンコードされたベクトルを線形層に通して埋め込まれます(これを「周期-ワンホット」エンコーディングと呼びます)。このノードエンコーディングは、おそらく代表性の低い元素が周期的な関係から借用できるという帰納的バイアスのため、素朴な元素ごとの埋め込みよりも損失を改善します。メッセージは、rc = 12を超えて微分可能にマスクされ、それらに立方多項式φ(r) = 1 + (-3/2)rc-2r2 + (1/2)rc-3r3を乗じることで実現されます。
テキストエンコーダー:
COATIは回転トランスフォーマーを使用してテキストのエンコーディングとデコーディングを行い、[STOP]トークンの表現をSMILESまたはグラフの埋め込みとして取ります。我々はSMILES文字列をトークン化するためのいくつかのスキームを実験しました。これらはすべて基本的なトライエンコーダーを含みます。我々はトークン圧縮を行い、単一の文字から始めて、最も一般的なトークンペアを再帰的にカウントして追加します。このプロセスは、新しい複合トークンの頻度が手動調整された閾値を下回るまで繰り返されます。その際、化学空間をカバーするために必要な還元不可能なトークンを語彙が保持するよう注意を払います。我々はいくつかのトークン化スキームを実験しました。閉じた括弧グループのみを含む語彙と、SELFIES化学表現を使用する語彙を実験しました。SELFIESは常に有効な分子に変換されるように構築されています。追加の詳細は補足情報のトークン化セクションに記載されています。すべての拡張を含むトレーニング例の平均トークン文字列長は、ペアトークンによる大幅な圧縮のため、わずか約15トークンです。
学習目的:
我々は、対照損失と自己回帰クロスエントロピーを一緒にエンドツーエンドで最適化します(図1)。サイズKのSMILES/点群ペアのバッチが与えられた場合、各インスタンスペア(xsmiles, xpoint)のxsmilesは90%の確率で[EMBED]トークンで拡張されます。次に、Mokady et alのClipCapインジェクション手順にインスパイアされた表現ベクトルを[EMBED]トークンに注入する表現ベクトルを選択します。図1はこの手順の概略を提供しています - 表現ベクトルはトランスフォーマーのデコーディングシーケンスの先頭にある特別なトークンに「注入」されます。
拡張されたトークン文字列の50%がSMILESインジェクション用に選択され、50%がポイントインジェクション用に選択されます。SMILESインジェクションペアは、入力文字列に拡張が適用されていないSMILESトランスフォーマーからの[STOP]トークン埋め込みであるxbaseという3番目の表現を取得します。xpointはE(3)-GNNエンコーダーヘッドを通過し、次に線形層を通過して埋め込みzpを生成します。インスタンスがポイントインジェクション用に選択された場合、xsmilesに埋め込まれた[EMBED]トークンはzpに置き換えられます。インスタンスがSMILESインジェクション用に選択された場合、xbaseはトランスフォーマーを通過し、[STOP]トークンの表現は線形層を通過して埋め込みzbaseを生成し、xsmilesの[EMBED]トークン埋め込みはzbaseに置き換えられます。インジェクションに関係なく、xsmilesは通常のソフトマックス出力と自己回帰エントロピー損失を持つトランスフォーマーに供給されます。[STOP]トークンの表現は線形層を通過してzsを生成します。結合目的は、モデルが分子構造をエンコードおよびデコードし、点群からSMILES文字列にデコードし、SMILES文字列を自己エンコードする能力を持つことを意図しています。我々は、エンコーダーとデコーダーが埋め込みトークンの生成を通じてエンドツーエンドでトレーニングされることを強調し、我々の実験ではこれがトレーニングに必要であることを示しています。
我々は2つの対照損失を実験します:InfoNCE損失とバーロー損失と呼ぶ相互相関損失です。
情報ノイズ対照推定(InfoNCE):
サイズbのバッチについて、インデックスiでzs,iがSMILES文字列のd次元埋め込み、zp,iが分子点群のd次元埋め込みである場合、InfoNCEは次のように定義されます:
[数式は省略]
簡単に言えば、これは2つのヘッドからのマッチした埋め込みのコサイン類似度を最大化し、マッチしていない埋め込みの類似度を最小化します。これは、各行が対角に属すると分類するエントロピーを最小化することで実現されます。
「バーロー」相互相関:
我々はまた、Zbontar et alに由来する損失を実験しました。これを「バーロー」損失と呼びます。コサイン距離の観点で非マッチングベクトルを「遠ざける」ことに焦点を当てるのではなく、この損失はバッチ内のペアのベクトル成分の非対角要素間の相互相関を最小化します。我々は経験的に、この損失が埋め込み品質の明確な損失なしにより迅速にトレーニングされることを見出しています。この損失は、各モダリティのベクトル埋め込み間で計算された相互相関行列Cの要素に対して操作します。ハイパーパラメータλは、対角および非対角相互相関の相対的な重みを制御します。
[数式は省略]
ここで、bはバッチサンプルをインデックス付けし、iとjはベクトル次元をインデックス付けし、SとPはそれぞれSMILESおよびポイント埋め込みを識別します。
総損失:
モデルは、対照損失Lcontrastive(LInfoNCEまたはLBarlowのいずれか)と自己回帰エントロピー損失LARの和でトレーニングされ、別のハイパーパラメータβで重み付けされます。
[数式は省略]
このスキームは、前処理なしで大規模なテキストベースの小分子コーパスを迅速にスクリーニングするのに適していますが、将来の作業で対処できる短所があります。特に、1つの分子に対して複数のSMILES文字列を作成できるため、自己回帰損失は有効で望ましい生成を不当にペナルティ化します。我々は分子特性情報を組み込んだ補助的な損失項を実験しましたが(補足情報の記述子デコーディングを参照)、最終的にはトレーニングの安定性を低下させることがわかりました。
データセット:
我々の対照学習モデルのトレーニングセットは、いくつかのソースから集められた1億4000万以上の(SMILES、ジオメトリ)タプルで構成されています:ChEMBL、GEOM-Drugs、TensorMol、Mcule化合物(https://mcule.com/database/)、ZINC22、およびEnamineのビルディングブロックカタログ(https://enamine.net/building-blocks/building-blocks-catalog)から列挙された5400万の組合せ分子です。3D座標はいくつかの異なるプロセスで生成されます。GEOM-DrugsとTensorMolの場合、ジオメトリはDFT計算の結果であり、他のすべての場合はRDKitコンフォーマーをMMFF94sで最適化しています。ジオメトリの混合品質は、ポイントエンコーダーの一般性を高めるために意図的です。TensorMolジオメトリには、平衡から大きく歪んだ多くの構造が含まれています。トレーニング/テスト/検証の分割は、SMILES文字列のmd5ハッシュの固定範囲で実現されています。データセットのコンフォーマー分布に関するいくつかの要約統計は、補足情報のデータセットコンフォーマーセクションに記載されています。COATIの結果に対するコンフォーマーアンサンブル品質の正確な影響を探ることは、将来の興味深い研究の方向性として残されています。
トレーニング:
我々が実験したCOATIモデルのバリアントのハイパーパラメータは、補足情報の表S1に記載されています。すべてのネットワークはPyTorchで実装され、AdamWで最適化されています。β1、β2 = {0.9, 0.99}です。モデルは浮動小数点精度でトレーニングされ、5 × 10-4から始まるコサイン学習率スケジュールを使用しています。トランスフォーマーヘッドに対する混合精度(bfloat16)の実験は、損失が悪化したため、さらに追求されませんでした。ドロップアウトは全体を通して使用されていませんが、η = 0.1の重み減衰が適用されています。モデルは16台のA100 80GB GPUを使用してトレーニングされ、それぞれ2台のDGXノードに分散されています。モデルは近似的な収束まで、通常トレーニング中に70億トークンが反復処理された後にトレーニングされました。保留された妥当性と同型性の統計が収束を判断するためにモニターされました。
ハイパーパラメータの総空間が大きく、単一のモデルのトレーニングがかなり高価であるため、我々は256次元のモデルに努力とリソースを集中しました。これは、バニラE(3)GNNポイントエンコーダーアーキテクチャで適切に動作する最大の埋め込みサイズです。E(3)GNNエンコーダーを使用してポイント埋め込み次元を256dを超えて増やそうとする試みは、初期化の問題に悩まされ、トレーニングの完全な失敗として現れます。これは、隠れ次元でナイーブにスケールしない対照マルチモーダル画像トランスフォーマーのトレーニングの困難さと類似しています。レビュープロセス中に開発された、より表現力のあるAllegro-likeな3Dエンコーダーを使用するこのモデルの将来のイテレーションで512まで成功した実験に基づいて、我々はこれらの問題をグラフネットワークの表現力がネットワークサイズと単調にスケールしないという周知の失敗に帰属する証拠を持っています。
さらに、我々は対照情報を全く使用しないモデル(Autoreg_Only)をトレーニングし、対照損失がSMILESトランスフォーマーに対してどれだけ価値を追加するかを判断します。ポイントエンコーダーの表現力がトランスフォーマーヘッドと比較して限られていることが、開発されたモデルの主要な制限であるという重要な証拠があります。これにより、回帰性能(ポイント表現に対する強い対照損失と表現の独立性によって駆動される)と自己エンコーディング(トランスフォーマーによって駆動される)の間の妥協点が設定されます。これは将来の作業で改善するための明確な方向性です。
我々は、バッチサイズがトレーニング例をカップリングしないネットワークと同じ方法でCOATIのハイパーパラメータとして機能しないことに注意します。単一行バッチの極限(これは多くの場合、大規模言語モデルをファインチューニングするためにバッチ勾配集約で使用されます)では、対照損失は対照情報を全く含まないでしょう。トレーニングを加速するために、我々は可能な限り大きなバッチサイズでモデルを実行し、逸話的に大きなバッチサイズが最も安定したトレーニングを提供することを発見しています。実際には、これはすべてのGPUにわたって256次元モデルに対して約2048のバッチサイズにつながります。
トレーニング中、我々はトレーニングデータに以下のランダムな拡張を適用します:分子のデータセットの起源を示すトークンの注入(データセットセクションでデータセットを参照)、Arús-Pous et alに従ってSMILES文字列の順序をランダム化、Bavarian et alのfill-in-the-middle手順に従って部分文字列の順序を置換します。拡張された文字列の例については、補足情報のトークン化セクションを参照してください。
RESULTS
生成とオートエンコーディング:
COATIモデルは、分子識別を記述する潜在ベクトルからエンコーディング(SMILESストリングまたは分子点群のいずれかから)を行い、学習目的で説明した手順を使用してトランスフォーマーに潜在ベクトルを注入してデコーディングすることで、分子生成とオートエンコーディングを実行するために使用できます。特に言及がない限り、生成はGPT-2のtop-kスキームをk=100と逆温度2で使用して実行されますが、実際には、オートエンコーディングと生成の忠実性と妥当性はこれらの選択に敏感ではないことがわかっています。我々は、最良のCOATIバリアントが98%以上の生成妥当性と、エンコーダー/デコーダースキームを条件付けるために記述子を使用するベンチマークモデルと同等のオートエンコーディング能力を達成することを観察しています。また、興味深いことに、対照情報なしでトレーニングされたSMILESトランスフォーマーモデルがこのオートエンコーディングタスクで非常に良好に機能しますが、マルチモーダルエンコーディングを実行できないことを観察しています。補足情報の生成メトリクスの表S2にすべてのCOATIバリアントの結果を提供しています。次のセクションでは、デコード尤度をプロキシ測定として使用して、生成/エンコーディングの失敗モードを調査します。
化学空間生成:
分子のデータセットの起源をエンコードするトークンの使用(トレーニングで説明)により、自己回帰トランスフォーマーが特定の分子に関連しない、トレーニング中に指定された分子のセットからサンプルを生成するようにプロンプトすることができます。図2は、[SET][chembl_mols][SMILES]というプロンプトを介してデコードされた分子から計算された特性ヒストグラムを示しています。これらの特性は我々のモデルによってエンコードまたはデコードされていません。我々は、定量的薬物様性推定(QED)、脂溶性、分子量の分布が、ChEMBL分子の「実際の」真の分布とほぼ一致していることを見ています。これは、分子セットの統計的特性がトランスフォーマーによって学習されたことを示しています。他の分子特性を条件付き生成に適したトークンとしてエンコードすることは容易に想像できます。
埋め込みの有無にかかわらず薬物様分子を生成する平均尤度は、任意の生成モデルの重要な指標であり、ChEMBLからのサンプルに対する両方の量の平均と分布を図3に示しています。低尤度の尾にある分子のほとんどは非常に高い分子量を持ち、大きく異なる分子量の尤度を比較することでいくぶん不公平に表現されています。我々はまた、条件付け埋め込みトークンなしで分子を生成する尤度が、埋め込みトークンが与えられた場合にどの程度デコードされる可能性があるかを示すかどうかを調べたいと考えました。これは、条件なし生成の尤度がトレーニングセットの構成によって決定されるため、生成モデルにおける埋め込み空間の使用に影響を与えます。実際、我々は2つの尤度が密接に関連していることを発見しました(図3)。化学空間の多くの大規模生成モデル(この研究を含む)は、トレーニングデータとして利用可能な分子カタログを使用しており、迅速にアクセス可能な化学空間の適切な生成器です。しかし、これは合成的にアクセス可能だが入手不可能な分子や、物理的に安定だが合成的に困難な分子の生成尤度について疑問を投げかけます。我々は現時点で「入手不可能な可能性が高い」分子の生成を追求する実用的な目的を持っていませんが、将来のユーザーはこの制限を念頭に置くべきです。
線形プローブによる回帰:
分子表現の重要な特徴は、分子構造だけでなく、薬物標的に対する効力や吸収、分布、代謝、排泄、毒性(ADMET)特性など、分子のパイプライン進行に重要な有用な分子特性に「デコード」できることです。残念ながら、化学タスクのための公に利用可能な現実的な回帰データセットのほとんどは小規模で、典型的には1000データポイント未満です。したがって、我々は多様なソースからのデータを持つタスクのアンサンブルを作成し、公に利用可能なデータをTerrayプラットフォームからの数百万のデータポイントで補強しました。この実験では、COATI(テキストとポイント)、CDDD、ChemBERTa MTR、ChemGPT、CLAMP、MegaMolBART、および2048次元ECFP6(ECFP6 2048)、RDKitフィンガープリント(RDKit FP)、RDKit 2D正規化記述子からのフィンガープリントの凍結埋め込みを、実世界の活性回帰タスクで比較します。リグレッサーの表現力に基づいてダウンストリームで埋め込みを有利または不利にすることを避けるために、我々は各埋め込みに対して線形リグレッサーを適合させます。特定のタスクに対する各埋め込みの性能は、そのタスクに対する最良の線形リグレッサーに比例して0から1にスケーリングされ、1のスコアはその埋め込みがそのタスクに対して最良であったことを意味します。
分子-標的結合データのより実用的な評価を提供するために、我々はTerrayプラットフォームデータで説明されたデータを活用します。このアッセイは、タンパク質標的に対する分子の結合親和性と相関する数百万のスカラー値を生成します。我々は分子結合親和性データセットのために4つのタンパク質を考慮します:ブルトン型チロシンキナーゼ(BTK)、ヒト炭酸脱水酵素II(hCAII)、Protein-1、およびProtein-2(名前を公開できません)。各タンパク質には、結合測定のトレーニングおよびテストデータセット、および生化学的活性アッセイデータの保留セットがあります。我々は、結合テスト分割に対する埋め込みの予測力を、結合分子の上位2%を区別するモデルの感度によって評価します。これは、結合プラットフォームと独立した検証結合アッセイの典型的な受信者動作特性曲線に基づいて選択された閾値です。我々はまた、BTK、Protein-1、およびProtein-2(hCAII活性結果は利用不可)の保留された生化学的アッセイ測定セットに対するランク相関についてモデルを評価します。
COATI学習表現は、すべてのタスクにわたるパフォーマンスで順序付けされた場合、他の学習表現を上回るか、または一致します(図4)。我々は、2048次元ECFP6フィンガープリントが結合タスクで非常に良好に機能することを観察しています(表S3)- これはデータの変動がグラフ構造特徴によってよく説明されることを示しています。小規模なADMETデータセットでは、RDKit 2D正規化記述子が良好に機能しますが、時折他の表現と同様に過適合しているように見えます。
除去研究中(表S3の完全な結果を参照)、我々は自己回帰のみのSMILESトランスフォーマーが対照的にトレーニングされたCOATIモデルと比較して性能が劣ることを発見しましたが、CDDDのような他のSMILES言語モデルは競争力があります。我々は、特性の形での追加の監督が有用な利点を提供するという仮説を立てていますが、対照的トレーニングと追加の特性監督を組み合わせること(FPバリアント)は回帰結果を改善しませんでした。特性で直接トレーニングすることなく、COATI表現は依然としてトレーニング中に特性情報を使用したモデルと競争力があります(図4)。
我々はまた、点表現(すなわち、3Dエンコーダーを使用して立体構造をエンコードする)とSMILESベースの表現の間に識別可能なトレンドを観察していません。これは確かに興味深いです。3D情報がこのタスクにうまく貢献していない可能性があるか、立体構造(RDKit MMFF94sを介して生成)の品質が意味のある信号を持つには低すぎるか、または3Dエンコーダーのトレーニングプロセスが対照的最適化のために3D情報を削除することに焦点を当てた可能性があります。我々は、自己教師あり設定での3Dエンコーダーの特性をさらに探求することを楽しみにしています。
我々は、Therapeutic Data CommonsおよびMoleculeNetからのADMETデータセットのセットに対して、凍結COATI埋め込みを使用してトレーニングされた線形リグレッサー(上記で説明)の性能を評価しました。これらのタスクは、典型的なノイズの多い、データ制限のある化学問題を表しています。データセットとトレーニングアプローチに関する情報は、補足情報の回帰スイート結果に記載されています。COATI埋め込みモデルは、各タスクに対する最良の線形リグレッサーと比較して一貫して良好に機能します。分子特性でトレーニングまたは増強された特徴付けがこれらのデータセットで最も良く機能すると予想されるかもしれませんが、特性強化のメカニズムを持たないCOATIモデルは、類似の学習表現および従来の方法と同等に機能します。
Conditional Generation of Potential Therapeutics
背景:
初期段階の薬物発見でよく行われるタスクは、ヒットからリードへの最適化と呼ばれることがあります。ここでは、分子設計チームがハイスループットスクリーニングからの情報を活用して、改善された効力や他の特性を持つ新しい分子を提案します。我々は、望ましい分子特性の実験的サンプルの小さな数(〜<1M)から生成モデルを作成したい、現実的な分子設計シナリオを想定します。可能であれば、複数の特性を同時に最適化または制約することもあります。例えば、脂溶性はタンパク質-リガンド親和性と様々なADME特性の両方に関係しているため、効力を改善しながら脂溶性を制約することがしばしば望ましいです。
これらの特性に条件付けられた生成への一つのアプローチは、Blaschke et alのように少数のサンプルで生成モデルを微調整することですが、我々の見解では、これは凍結された事前学習済み埋め込みを使用するよりもコストがかかり扱いにくいです。我々は、「関心の分離」を達成する方法を提案します - COATIの潜在空間の連続的な性質を活用して、事前学習済みの埋め込みを使用して微分可能なリグレッサーをトレーニングし、埋め込みのベクトル空間で直接特性を最適化し、望ましい特性を持つ分子を得るためにデコードします。これにより、不確実性を定量化する回帰手法を簡単に使用することもできます。
Terrayプラットフォームデータ:
微分可能なリグレッサーを構築し、化合物を最適化するために、我々はTerrayプラットフォームを使用して収集された1,307,908の(組み合わせ分子、結合親和性)データポイントの実験データセットを使用しました。これは、我々が内部で測定した20億以上のデータポイントのごく一部を表しています。アッセイを簡単に要約すると:分子はシリコンチップ上の超高密度マイクロアレイに固定化されたポリマービーズに結合した組み合わせ合成によって生成されます。蛍光標識されたターゲットタンパク質がチップ上を流れ、インキュベートされ、顕微鏡を使用して各ビード上の結合したタンパク質の量を空の背景に対する蛍光比として定量化します。このセクションで考慮されるターゲットタンパク質はヒト炭酸脱水酵素2で、ChEMBLにも数百のpIC50データポイントが利用可能です(我々は独立したテストデータとして使用します)。TerrayデータセットからのどR組み合わせ分子もChEMBLデータには存在せず、また効力データは同じ種類のアッセイから収集されたものではありません。Terrayプラットフォームでの効力ランク順序付けは、低スループットの標準的なIC50測定とよく一致します。
COATIの埋め込みを使用した微分可能なリグレッサー:
これらの(組み合わせ分子、結合親和性)データポイントはCOATI(Barlow_Closed)で埋め込まれ、結果の256次元埋め込みベクトルはDUEリグレッサーのトレーニングデータとして使用されました。このリグレッサーは、入力ベクトルのトレーニングデータからの距離に比例する不確実性推定を持つ正規分布(μbinding(v), σbinding(v))をCOATIベクトルvの関数として返します。TerrayプラットフォームデータでCOATI-DUEモデルによって推論された対数蛍光比とChEMBLに表形式化された実験的pIC50との間のアウトサンプルピアソン相関は23%です。我々はまた、他の化学特性のためのDUEリグレッサーをトレーニングしました:RDKitで決定されたQEDとlog P。これらのリグレッサーは、COATIデータセットからの数百万の分子のデータセットでトレーニングされました。
メタダイナミクス生成アルゴリズム:
COATIを使用して、化学空間生成で探索した条件付き生成方法を使用してランダムに分子を描画し、これらのリグレッサーで望ましい特性をフィルタリングすることは簡単です。しかし、より洗練された最適化を試みる理由がいくつかあります。結合効力は化学空間で極めて希少です。つまり、ほとんどの薬物様分子はほとんどの標的に結合しません。現実的な量のデータでトレーニングされた現実的な回帰モデルでは、効力もベクトル空間で希少で、局所最大値だらけであり、ランダムサンプリングは非効率です。代わりに、我々は望ましい化合物の選択の問題をベクトル値関数の微分可能な最適化として扱うことを求めます。これにより、学習された化学空間の滑らかさを利用し、リードを化学的に修飾する余地のある活性領域に焦点を当てることができます。
我々は、DUEモデルで推論された効力を最大化するために勾配上昇法を実行し、薬物様性の制約(QED > 0.5およびlog P < 5)を強制するためにラグランジュ乗数(λQED、λlogP)を利用します。勾配上昇には2 × 10-3の率が使用され、15回の反復ごとに最適化ベクトルから分子がデコードされます。DUE効力モデルのμ-σを最適化することで、最適化がトレーニングデータから遠すぎる分子やベクトルの空間に迷い込むのを防ぐのに十分であることがわかりました。この目的関数は、探索と活用のバランスを取るためにベイズモデルの予測平均と分散を利用する他の方法と幾分類似していますが、我々はモデルの勾配を直接利用します(微分可能関数に特有の他の制約とともに)。
我々は、この最適化が迅速に局所最大値に到達することを発見しました。この問題に対処するために、我々はメタダイナミクスの方法からインスピレーションを得ています。メタダイナミクスは、エネルギー地形を探索するための強化サンプリング技術で、本質的に、地形の一部が十分にサンプリングされた場合に小さなガウス型の「ポテンシャルエネルギー」の山を追加します。我々はこのアイデアを取り、活性地形の探索に適用します。デコードされた分子が25ステップ後に変化しない場合、我々は周期的に標準偏差0.125の256次元等方性ガウス型の山をポテンシャルに追加します。このプロセスは、軌跡をすでに探索した最大値から押し出します。
40,000ステップにわたって最小化された最終的な目的関数は次のとおりでした:
L(v, λQED, λlogP) = -(μbind(v) - σbind(v)) + λlogP((log P(v) - 5)^2) + λQED((0.5 - QED(v))^2) + Lbump(v)
図5と図6に、この生成最適化タスクの結果がまとめられています。「結合」とラベル付けされたデータは、主要な最適化タスク、つまりQEDとlog Pを制約しながら結合親和性を最大化することを指します。対照実験として(図5と図6で「結合なし」とラベル付け)、また制約をさらに実証するために、効力の代わりにQEDを最適化する目的から3つの独立した軌跡が描かれました。我々の効力最適化実験で行うようにlog P < 5を制約する代わりに、log P > 4を制約します。これは高いQEDとlog P < 5が相関しているため、満たすのが難しいです。ランダムサンプルのフィルタリングと比較して、最適化は特に制約のある場合に有用です。勾配降下の性質と追加されたガウス型の山の作用のため、ラグランジュ制約は軌跡全体で完全には満たされませんが、一般によく満たされています(図6)。我々は、効力軌跡サンプルの94.6%がlog P < 5の制約を満たし、QEDサンプルの63%がlog P > 4の制約を満たすことを発見しました。
実験データからの現実的な生成:
このメタダイナミクスアルゴリズムと学習されたCOATI表現の現実的なテストとして、関連する方法に対して、我々はランダムに描かれた5つの分子から5つの軌跡をCOATI + メタダイナミクスとCDDD + QMO(多目的分子最適化のための別の勾配ベースの生成アプローチ)を使用して実行しました。2つの方法の開始点、回帰方法、およびトレーニングデータ(Terrayプラットフォームデータのみで構成)は同じで、エンコーダー-デコーダーと勾配アルゴリズムだけが異なります。これらの生成実験の結果は、ChEMBLからのpIC50データとともに図7にまとめられています。COATI + メタダイナミクス法は、タニモト類似度に基づいてChEMBLからの知られた効力のある分子の近くを移動しますが、CDDD + QMO軌跡はChEMBL分子の近くにより少ない分子を見つけます。結合親和性の「公平なスコア」の最善の努力として、我々は両方の方法からの一意の生成物をスコア化するための別のECFP6リグレッサーをトレーニングしました。これにより、各最適化方法が埋め込み空間のアーティファクトを利用しているかどうかの感覚が得られます。COATI + メタダイナミクス生成最適化手順は、これらの分子がトレーニングデータに存在しないにもかかわらず、知られている効力のある分子との高い類似性を達成することに成功しています。最適化プロセスの例で訪れた分子のムービーは、https://github.com/terraytherapeutics/COATI/blob/main/examples/binding_meta.gif のソースコードリポジトリで利用可能です。この方法論と実験セットアップの詳細は、補足情報のhCAII最適化概要に記載されています。
CONCLUSION
我々は、デコード可能なマルチモーダル分子エンコーダーをトレーニングするための対照的フレームワークであるCOATIを提示しました。我々はこれらのモデルのいくつかのバリアントを提供し、テキスト分子表現への潜在ベクトル空間からの生成/オートエンコーディングを実行できることを示しました。我々は、学習された埋め込みが有用に表現力豊かであり、実世界の大規模分子結合アッセイおよび低データのADMETデータセットに対して、一般的に使用されるフィンガープリントと同等またはそれ以上の性能を示す線形モデルを生成することを示しました。さらに、我々は、高品質データの独自のセットを活用して実用的な制約付き分子最適化を実行するメタダイナミクスにインスパイアされた分子設計アルゴリズムを提供しています。
我々は、固定長の表現を生成することが可能であり、これは分子特性回帰に有用でありかつデコード可能であることを発見しましたが、これら2つの目標の間にはある程度の緊張関係が存在することがわかりました。我々は、大規模なデータセットに対するオートエンコーディングの妥当性に焦点を当てることが、回帰性能の低下につながる可能性があることを実証しています。いくつかの表現(この研究を含む)は、ダウンストリームタスクに物理的に関連している可能性のある分子特性も表現するように埋め込みを制約しようとしてきました。我々の研究は、3D構造がテキストのみの自己エンコードよりも化学空間のより滑らかで連続的な埋め込みを生成するだろうという仮説に基づいています。他の化学表現モデルも、事前トレーニング中に補足的な情報源を活用しています。例えば、Winter et alが使用する事前計算された物理化学的ヒューリスティック特徴や、アッセイのテキスト記述などです。我々は、追加の特性を事前トレーニングすることで、ECFP6フィンガープリントと比較してロバスト性が向上することを発見しましたが(回帰と線形プローブのセクションを参照)、結合親和性タスクでは性能が低下しました。現時点で公に利用可能なデータの不足により、事前トレーニングの選択の相対的メリットがやや不明確になっており、分子エンコーダーの開発をサポートするためのより大規模な公開データセットの必要性を支持しています。
我々は、2つの対照損失と2つの一般的なエンコーダーを用いたエンドツーエンドのトレーニングスキームを実証しましたが、このアプローチを新しいポイントエンコーダー、テキスト表現、または対照損失関数に適用することを妨げるものは何もありません。高度に表現力豊かな分子グラフエンコーダーは数十年にわたって重要な研究活動の分野であり、特に3D表現については、この研究で使用されたE(3)-GNNよりも強力なエンコーダーが確実に存在します。この潜在空間に基づいた分子コンフォメーションの条件付き生成、または望ましい特性を持つ分子を生成しながら埋め込まれた分子の近くにとどまる潜在拡散は、将来の研究の明確で有用な方向性となるでしょう。我々は、COATIモデルとその後継モデルが、多くのタスクに生産的に使用できる分子構造とコンフォメーションの統一された表現への道を提供すると考えています。
生成的分子設計と最適化の分野は非常に新しく、効果的な治療薬を臨床に導入するプロセスを加速する上で有望です。おそらく、正確で実用的に有用なデータの獲得がはるかに困難であるため、画像やテキストデータの急速な台頭とは異なる進展を見せるでしょう。我々の見解では、生成的設計と新規アッセイ技術を結合することで、フィルタリングまたは仮想スクリーニングよりも魅力的な実用的利点が得られ、これをTerrayプラットフォームからの現実的な大規模データを使用した制約付き生成的最適化を通じて実証しました。