IEV2Mol: Molecular Generative Model Considering Protein-Ligand Interaction Energy Vector
Summary
IEV2Mol: タンパク質-リガンド相互作用エネルギーベクトルを用いた新規化合物生成モデル
論文の概要
本論文では、IEV2Mol という新しい深層学習ベースの分子生成モデルが提案されています。IEV2Molは、**タンパク質-リガンド相互作用エネルギーベクトル(IEV)**を用いることで、標的タンパク質との結合親和性が高いと予測される新規化合物を設計することを目的としています。従来の分子生成モデルは、主に化合物の構造的特徴に焦点を当てていましたが、IEV2Molは、化合物の構造に加えて、タンパク質との相互作用エネルギーを考慮することで、より正確かつ効率的な化合物設計を可能にします。
IEV (Interaction Energy Vector) とは
IEVは、ドッキングシミュレーションから得られる、タンパク質とリガンド間の相互作用の強さを定量的に表す記述子です。水素結合、静電相互作用、ファンデルワールス力など、相互作用の種類ごとに計算され、各相互作用タイプに対応する要素で構成されるタンパク質-リガンド相互作用の包括的な表現を提供します。
IEV2Mol のモデル構造
IEV2Molは、以下の3つのモジュールから構成されています。
SMILES-VAE: SMILES表記を入力・出力とする変分オートエンコーダー (VAE) で、化合物の構造情報を学習します。
IEV-VAE: IEVを入力・出力とするVAEで、活性化合物のIEV分布を学習します。
Z-DNN: SMILES-VAEとIEV-VAEの潜在空間を連結したものを入力とし、SMILES-VAEの潜在空間へ写像するDNNです。
IEV2Mol の学習方法
SMILES-VAEの事前学習: 大規模化合物データベース(DM-QP-1M)を用いて、SMILES-VAEを事前学習します。
IEV-VAEの事前学習: 標的タンパク質に対する活性化合物のデータセット(DRD2-Active)を用いて、IEV-VAEを事前学習します。
統合モデルの学習: 事前学習済みのSMILES-VAE、IEV-VAE、およびZ-DNNを統合し、DRD2-Activeデータセットを用いて学習を行います。
IEV2Mol の新規化合物生成方法
標的タンパク質との相互作用を模倣したい化合物のIEVを入力としてIEV-VAEに入力し、潜在表現を取得します。
SMILES-VAEの潜在空間と同じ次元数の標準正規分布から変数をランダムにサンプリングします。
1と2で得られた変数を連結し、Z-DNNに入力します。
Z-DNNの出力をSMILES-VAEのデコーダに入力し、SMILES表記にデコードすることで、新規化合物を生成します。
実験と評価
本論文では、ドーパミン受容体D2(DRD2)を標的タンパク質として、IEV2Molの性能を評価しています。評価指標としては、生成された化合物の妥当性、独自性、多様性、ドッキング可能性、IEVのコサイン類似度などが用いられています。
その結果、IEV2Molは、既存の生成モデルと比較して、以下の点で優れていることが示されました。
構造的多様性: IEV2Molは、シード化合物と構造的類似性が低い化合物を生成することができます。
相互作用の再現性: IEV2Molは、シード化合物と同様のIEVを持つ化合物を生成することができます。
活性化合物空間のカバレッジ: IEV2Molは、活性化合物の化学空間を広くカバーする化合物を生成することができます。
結論
IEV2Molは、タンパク質-リガンド相互作用エネルギーベクトルを用いることで、標的タンパク質との結合親和性が高いと予測される新規化合物を設計するための有効なツールとなる可能性があります。
今後の展望
より大規模なデータセットを用いた学習による精度向上
他の標的タンパク質への適用
生成された化合物の実験による活性評価
補足
本論文では、IEV2Molのソースコード、学習済みモデル、および使用されたデータセットが公開されています。これにより、他の研究者による追試や、さらなる発展が期待されます。
Introduction
構造に基づく創薬(SBDD)は、創薬において重要な役割を果たしています。1–4 SBDDは、標的タンパク質の三次元構造を用いて、リガンドとの相互作用を最適化し、活性、選択性、物性など、広範囲にわたる最適化目標を同時に満たす新しい薬剤候補を合理的に設計する方法です。5,6 SBDDは、多くの創薬プロジェクトで成功裏に適用されてきました。7 例えば、選択的COX-2阻害剤であるセレコキシブの開発では、8 1,5-ジアリールピラゾール誘導体の構造活性相関研究により、COX-2阻害活性と選択性を維持しながら物性を最適化することに重点が置かれ、最終的に高い阻害活性と選択性を有する化合物が発見されました。9 世界的なCOVID-19パンデミックを受けて、SARS-CoV-2の3CLプロテアーゼを標的とした治療薬の開発において、10,11 SBDDアプローチを用いたドッキングベースのバーチャルスクリーニングおよび生物学的スクリーニングにより、IC50値が10 µM未満のヒット化合物がいくつか同定されました。12 ヒット化合物の一つである化合物1は、臨床開発のために選択されました。化合物1は、X線共結晶構造を用いたSBDDによって構造的に最適化され、活性が600倍以上向上し、最終的に非ペプチド性で非共有結合性の経口3CLpro阻害剤であるS-217622が得られました。
既存のライブラリを用いたドッキングシミュレーションとその後のin vitroおよびin vivoアッセイにより、多くの研究で有望なヒット化合物が同定されてきました。13–16 しかし、最適な化合物が常にライブラリに含まれているわけではありません。創薬の究極の目標、すなわち、望ましい薬理学的特性を有し、副作用の少ない新規薬剤候補を発見するためには、1060個17という膨大な化学化合物の空間を効率的に探索し、関連性の高い化合物を生成できる革新的な方法が必要です。
近年、人工知能(AI)技術の急速な発展に伴い、分子設計への応用が注目されています。特に、リカレントニューラルネットワーク(RNN)、18–20 変分オートエンコーダー(VAE)、21,22 敵対的生成ネットワーク(GAN)、23–25 グラフニューラルネットワーク(GNN)26などの深層学習モデルは、分子グラフや簡略化分子入力ライン入力システム(SMILES)27表現を用いて新規化合物を生成することに成功しており、分子設計の強力なツールとなることが期待されています。
これらのモデルは、大規模化合物データベースから化学構造の分布を学習し、新しい構造を生成することができます。深層学習を用いて標的タンパク質のポケット情報を活用し、たとえ標的タンパク質の既知リガンド情報が存在しない場合でも、同じファミリーに属するタンパク質のリガンド情報を用いることで、新規リガンドを設計する、転移学習とドッキングスコア最適化を組み合わせたリガンド生成法が提案されています。28 一方で、特定の残基とリガンドとの相互作用を考慮しなければならない場合も少なくありません。
標的タンパク質と相互作用する化合物を生成するために、リガンド/タンパク質相互作用フィンガープリンティング(IFP)29–33を利用した条件付きリカレントニューラルネットワーク(cRNN)モデルが提案されています。34 IFPは、リガンドがタンパク質と相互作用するかどうかを示すために自動的に構築されたドッキングポーズに基づくバイナリベクトルであり、このベクトルをcRNNモデルに組み込むことで、特定の標的に対して望ましい結合様式を持つ新規リガンド構造を生成することができます。しかし、IFPは相互作用の有無のみを考慮しており、相互作用の強さを反映していません。バーチャルスクリーニングでは、相互作用の強さを考慮する方が、IFPのみを考慮するよりも正確であることが既に示されています。35
本研究では、タンパク質とリガンド間の相互作用の強さを定量的に測定する記述子として、相互作用エネルギーベクトル(IEV)を導入します。IEVは、ドッキングシミュレーションから得られます。水素結合、静電相互作用、ファンデルワールス力など、相互作用の種類ごとに計算されます。35 このベクトルは、各相互作用タイプに対応する要素で構成されるタンパク質-リガンド相互作用の包括的な表現を提供します。このIEVは、SMILES表現から化学空間を学習する別のVAEとエンドツーエンドで学習される変分オートエンコーダー(VAE)モデルへの入力として使用されます。学習時に結合潜在空間におけるSMILESの再構成誤差を最小化することにより、モデルは、望ましい相互作用を持つ化合物をより正確に生成することを学習します。
提案手法の有効性を評価するために、ランダムに選択した化合物、制約のないVAEモデル(JT-VAE)、IFP-RNNによって生成された化合物を用いてベンチマーク比較を行いました。その結果、提案手法で生成された化合物は、クエリ構造の結合様式を維持する割合が有意に高いことが確認されました。これらの結果は、IEV2Molが望ましいタンパク質-リガンド相互作用を持つ新規化合物を生成するための有用なツールとなる可能性を示しており、創薬プロセスの効率化に貢献することが期待されます。
Materials and Methods
ドッキングシミュレーション
本研究では、Glide SPモードのドッキングシミュレーションを用いて、標的タンパク質と生成された化合物との間の相互作用を計算しました。36 タンパク質調製ウィザードを用いて、水素付加と構造最小化を行いました。LigPrepを用いて、pH 7.4におけるリガンドの互変異性体およびイオン化状態、環の立体配座、立体異性体を生成しました。さらに、スコアの最も良いポーズを用いて解析を行いました。
相互作用エネルギーベクトルの構築
相互作用フィンガープリントは、タンパク質-リガンド相互作用の類似性を定量的に計算するために用いられます。これは、相互作用の有無に基づくビット列表現です。
IEV(相互作用エネルギーベクトル)は、相互作用フィンガープリントに触発された手法であり、安井らによって開発されました。35 この手法は、相互作用フィンガープリントが相互作用の有無のみに依存して0/1値として表現されるビット列であるのに対し、IEVはエネルギーに基づく実数値のタンパク質-リガンド相互作用のベクトルであるという点で異なります。IEVは、以下の手順で計算されます。まず、ドッキンググリッドの中心から12 Å以内の各アミノ酸残基について、ドッキングされた化合物と残基との間のすべての原子対について、ファンデルワールス力、クーロン力、水素結合エネルギー値を計算します。次に、各アミノ酸残基について、各アミノ酸残基内の原子のエネルギー項を合計することで、3つの相互作用エネルギー値を計算します。そして、ファンデルワールス力、クーロン力、水素結合を、標的タンパク質のPDBファイル中の各アミノ酸残基に割り当てられた番号の順に並べます。言い換えれば、IEVベクトルの長さは、ドッキンググリッドの中心から12 Å以内のアミノ酸残基数の3倍であり、標的タンパク質ごとに異なり、したがって各タンパク質に固有の表現となります。これらの計算は、Glideを用いたドッキングシミュレーションで実行することができます。36,37
データセット
本研究では、モデルが活性化合物の化学空間に過剰適合することを防ぎ、幅広い化学空間を学習させるために、DM-QP-1Mデータセットを使用しました。さらに、本手法の評価対象としてドーパミン受容体D2(D2R)を選択し、D2Rの活性化合物データセットであるDRD2-Activeデータセットを作成しました。DM-QP-1MデータセットとDRD2-Activeデータセットは、GitHubで公開されています。
DM-QP-1Mデータセットは、Leeらによって作成された薬物様化合物のデータセットであるDM-QPデータセット38から、以下の手順で取得した981,139個の化合物で構成されています。まず、DM-QPデータセットからランダムに1,000,000個の化合物を選択しました。次に、SMILES表記に溶媒など複数の化合物が含まれている場合は、分子量が最も大きい化合物のみを残しました。最後に、重複する18,861個の化合物を削除しました。
DRD2-Activeデータセットは、本研究で作成したデータセットであり、ドーパミン受容体D2(DRD2)に対して活性を有する化合物のデータセットです。DRD2-Activeデータセットは、以下の手順で取得した8,350個の化合物で構成されています。まず、2023年9月25日時点で、DRD2結合活性の指標となるKi値またはIC50値が得られている化合物のSMILESをChEMBLデータベースから取得しました。39 次に、SMILESに溶媒など複数の化合物が含まれている場合は、その中で分子量が最も大きい化合物のみを残しました。次に、重複する化合物を削除しました。その後、LigPrepを用いて3次元構造を生成し、DRD2(PDB ID: 6CM4)とのドッキングシミュレーションをGlide HTVSモードで実行してIEVを計算しました。ドッキングシミュレーションでは、1つの化合物に対して複数のドッキングポーズが生成される可能性があり、その場合はドッキングスコアが最も低いものを選択しました。DRD2へのドッキングによって得られたIEVは、189次元でした。最後に、DRD2-Activeテストデータセットとして10個の化合物をランダムに選択し、残りの8,340個の化合物をDRD2-Activeトレーニングデータセットとして選択しました。
モデルアーキテクチャ
IEV2Molのアーキテクチャは、SMILES-VAE、IEV-VAE、Z-DNNで構成されています(図1)。
SMILES-VAE
SMILES-VAEは、SMILES表記を入力・出力とするVAEモジュールであり、MOSES40ベンチマークのVAEモデルを使用しました。SMILES-VAEのエンコーダは、双方向GRU層と全結合層で構成され、デコーダは、ドロップアウト付きの3つのGRU層で構成されています。潜在空間は128次元です。SMILES-VAEは、化学空間分布の学習と利用に使用されます。
IEV-VAE
IEV-VAEは、IEVを入力・出力とするVAEモジュールです。エンコーダとデコーダは、畳み込み層(Conv1D)と全結合層(FC)の組み合わせと、ドロップアウト、バッチ正規化(BatchNorm)、ReLUやSELUなどの活性化層を用いて実装されています。
ここでのConv1D層は、1次元畳み込み層(Conv1D)です。式1は、カーネルWkと入力特徴ベクトルhiとのドット積の結果として、i番目の位置における変換された特徴h'k,iを定義しており、h'k,i = Wk · hiと表すことができます。
h'k,i = W⊤
k hi (1)
BatchNorm層は、バッチ正規化を行う層であり、バッチ内のデータのi番目の特徴値hiごとに、式2の演算によって、バッチ内で平均が0、分散が1になるように標準化されます。この場合、式2のepsilon = 1e− 5です。
h'i =
hi − E[hi]√ Var[hi] + ϵ
(2)
ドロップアウト層では、学習時にエポックごとにニューロンを一定の割合でランダムに間引きます。
本研究におけるFC層は、全結合層を指します。ここでは、式3のように、学習済み重み行列Wとバイアスベクトルbを用いて、入力ベクトルhを線形変換します。
h' = W⊤h+ b (3)
ReLU層では、式4に示すように、ReLU活性化関数を用いて入力ベクトルhを活性化します。
h' = ReLU(h) = max(0,h) (4)
SELU層では、式5に示すように、活性化関数SELUを用いて入力ベクトルhを活性化します。この場合、式5のα = 1.6732632423543772848170429916717、λ = 1.0507000009873554804934193349852946です。
h' = SELU(h) = λ(max(0,h) + min(0, α(exp(h)− 1)) (5)
潜在空間は56次元です。IEV-VAEは、活性化合物のIEV分布を学習し、利用するために用いられます。
Z-DNN
Z-DNNは、3つの全結合層(FC)で構成され、SMILES-VAEとIEV-VAEの連結された潜在空間からSMILES-VAEの潜在空間への写像を学習するように設計されています。この写像により、IEVで表されるような、望ましい相互作用エネルギーを持つ新規化合物を生成することができます。Z-DNNは、SMILES-VAEの潜在空間と同じ次元数を持つため、Z-DNNの出力をSMILES-VAEのデコーダに直接入力して、新規化合物を生成することができます。
モデル構築
SMILES-VAEの事前学習
DM-QP-1Mデータセットを用いて、化学空間の多様な表現を学習するためにモデルを事前学習しました。DM-QP-1Mデータセットを事前学習することで、モデルが標的タンパク質の活性化合物の化学空間に過剰適合することを防ぎ、幅広い化学空間を学習することができます。SMILES-VAEは、DM-QP-1Mデータセットを用いて、バッチサイズ512、Adamオプティマイザ、100エポックで事前学習を行いました。
式6で表されるように、損失関数LSMILES−VAEは、式7で表される、正しいSMILESと予測されたSMILES文字列中の各トークンの確率値との間のクロスエントロピー誤差による再構成誤差LSMILESと、式8で表されるKLダイバージェンス(カルバック・ライブラー情報量)LKLの重み付き和で構成されています。
LSMILES−VAE = LSMILES + αLKL (6)
LSMILES = CrossEntropy(SMILESOutput, SMILESInput)
= − ∑ L
∑ k
(SMILESOutputk × log(SMILESInputk)) (7)
LKL = KL[N (µ,Σ)||N (0, I)]
= −1
2
( D + log|Σ| − trace(Σ)− µ⊤µ
) (8)
ここで、SMILESInputは入力化合物のSMILES、SMILESOutputは入力化合物から計算された各トークンkを選択する確率です。DはVAEの潜在空間の次元数、µとΣはそれぞれVAEが出力するD次元正規分布の平均と分散です。KLダイバージェンスの重みαの初期値は0に設定し、エポックごとに5e-3ずつアニールしました。また、学習率は3e-4に固定しました。
IEV-VAEの事前学習
本実験では、IEV-VAEをDRD2-Activeトレーニングデータセットを用いて、バッチサイズ128、Adamオプティマイザ、100エポックで事前学習しました。式9で表されるように、損失関数は、式10で表される、正しいIEVと出力IEVのL1損失であるLIEV−L1と、式8で表されるKLダイバージェンスであるLKLの和で構成されています。
LIEV−VAE = LIEV−L1 + LKL (9)
LIEV−L1 = ∑ L
(||IEVInputl − IEVOutputl||1) (10)
ここで、IEVInputlは入力IEVのl番目の値、IEVOutputlは出力IEVのl番目の値です。また、学習率の初期値は1e-3とし、処理されたバッチ2000個ごとに0.9倍しました。
エンドツーエンドモデルの学習
SMILES-VAEとIEV-VAEの事前学習が完了した後、事前学習済みのSMILES-VAE、IEV-VAE、Z-DNNで構成される統合モデルを、DRD2-Activeトレーニングデータセットを用いて、バッチサイズ128、Adamオプティマイザ、100エポックで学習しました。
学習時には、DRD2-Activeデータセット中の化合物のSMILESとIEVのペアを、それぞれ事前学習済みのSMILES-VAEとIEV-VAEのエンコーダへの入力として使用しました。そして、2つのエンコーダが出力した潜在表現を連結し、Z-DNNへの入力としました。最後に、Z-DNNが出力した変数を、SMILES-VAEのデコーダによってSMILES表現にデコードしました。式11で表されるように、損失関数LModelは、式7で表されるSMILESの再構成誤差LSMILESによって定義されます。
LModel = LSMILES (11)
事前学習済みのSMILES-VAEエンコーダとIEV-VAEの重みは固定され、SMILES-VAEデコーダとZ-DNNの重みのみが学習されることに注意してください。学習率の初期値は1e-4とし、処理されたエポック20個ごとに0.8倍しました。
化合物の生成
一連の学習の後、IEV2Molは、以下の手順でIEVを入力として使用して、同様のIEVを持つと考えられる化合物を生成します。
(i)標的IEVをIEV-VAEエンコーダに入力し、潜在表現を取得します。
(ii)SMILES-VAEの潜在空間と同じ次元数の標準正規分布から変数をランダムにサンプリングします。
(iii)手順(i)と(ii)で得られた変数を連結し、Z-DNNへの入力とします。
(iv)Z-DNNの出力をSMILES-VAEのデコーダに入力し、SMILES表現にデコードします。
技術詳細
IEV2Molは、PyTorch41とRDKit42を用いて実装しました。計算環境は、Intel Xeon E5-2680 v4 CPUを搭載したSUSE Linux Enterprise Server 12 SP2であり、DRD2 ActiveデータセットのIEV計算とモデル評価のためのドッキングシミュレーションには、NVIDIA TESLA P100(メモリ64 GB)を使用しました。モデルの学習と化合物の生成のための計算環境は、Ubuntu 22.04 OS、Intel(R) Xeon(R) Silver 4110 CPU、メモリ64 GB、NVIDIA GeForce RTX 4000 GPU(メモリ24 GB)でした。
Experiments and Evaluation
実験の詳細
IEV2Molを評価するために、DRD2-ActiveテストデータセットのIEVを入力として使用して、化合物の生成実験を行いました。本実験では、テスト化合物ごとに100個の化合物を生成しました。この100回の生成において、IEV-VAEの潜在表現とSMILES-VAEの潜在表現は、その都新たにサンプリングされたことに注意してください。
JT-VAE
提案されたIEV2Molモデルとの比較のために、グラフベースの新規分子生成モデルであるJT-VAE43を、DRD2-Activeトレーニングデータセットを用いて、バッチサイズ2、Adamオプティマイザ、20エポックで学習および評価しました。なお、JT-VAEモデルは、Bibhash Mitra氏によってPython3で実装されたものを使用しており、GitHubリポジトリhttps://github.com/Bibyutatsu/FastJTNNpy3から入手できます。44
また、学習率の初期値は1e-3とし、処理されたバッチ2000個ごとに0.9倍しました。その他の設定はデフォルト値としました。学習中のモデルは、学習中に10エポックごとに保存し、検証損失が最も低いモデルを選択しました。
IEV2Molと同様に、JT-VAEはテスト化合物ごとに100個の化合物を生成しました。JT-VAEはIEVを入力として受け付けないため、テスト化合物のSMILESを生成の入力として使用しました。
IFP-RNN
さらに比較するために、相互作用フィンガープリント(IFP)に基づくcRNN生成モデルであるIFP-RNN45を、DRD2-Activeトレーニングデータセットを用いて、バッチサイズ500、Adamオプティマイザ、500エポックで学習および評価しました。なお、IFP-RNNモデルは、Jie Zhang氏によってPython3で実装されたものを使用しており、GitHubリポジトリ(https://github.com/jeah-z/IFP-RNN)から入手できます。46
学習には、Glide HTVSモードでDRD2にドッキングさせたDRD2-Activeデータセットから計算された、残基特異的なIFPを使用しました。学習率はデフォルト設定(初期値は1e-3、200エポック後、初期値は10− epoch−200
400 を乗じて減衰)としました。
そして、IEV2Molと同様に、IFP-RNNではテスト化合物ごとに100個の化合物を生成しました。テスト化合物のIFPを生成過程の入力として使用しました。
ランダムChEMBL
ベースラインとして、約227万個の化合物を含むChEMBL3347データベースからランダムに選択した100個の化合物を、各テストデータポイントについて評価しました。
なお、227万個の化合物は、データセット作成時と同様に、溶媒を除去した後、ChEMBL33上のすべてのSMILESシーケンスを前処理して重複を除去することで得られました。
指標
IEV2Molを評価するために、以下の6つの指標を使用しました。比較のために、各テストデータセットを用いて各モデルによって生成された化合物のこれらの指標の平均値を使用しました。
妥当性(有効な化合物の数)
独自性(有効な化合物の重複排除率)
多様性(有効な化合物の多様性)
Glide HTVSモードで標的タンパク質にドッキングできた化合物の数(IEVを計算できた化合物の数)
入力化合物のIEVと自身のIEVとのコサイン類似度が0.7より大きい化合物の数
入力化合物のIEVと自身のIEVとのコサイン類似度が0.7より大きく、かつ入力化合物とのTanimoto係数が0.5未満である化合物の数
独自性は、生成された化合物間の非重複の程度を示す指標です。これは、RDKit42を用いて生成された有効な化合物のcanonical SMILESを計算し、重複を除去することで、有効な化合物の中で重複のない化合物の割合を求めることで決定しました。
多様性は、生成された化合物の多様性を示す指標であり、MOSES40ベンチマークで内部多様性として与えられている、p = 1とした式12で計算しました。
IntDivp(G) = 1−p
√ 1
|G|2 ∑
m1,m2∈G
T (m1,m2)p (12)
T (m1,m2) = t
S − f (13)
ここで、Gは生成された有効な化合物の集合、Tは式13で与えられるTanimoto係数、tは化合物m1のECFPと化合物m2のECFPを比較したときに両方が1であるビットの総数、fは両方が0であるビットの総数、SはECFPビットの数です。本研究では、S = 2048のECFP4を使用しました。
これらの6つの指標のうち、妥当性、独自性、多様性は、IEV2Molの生成モデルとしての性能を評価するために使用しました。残りの3つの指標は、本研究の目的である、入力化合物と類似した相互作用を持ちながら多様な構造を持つ化合物を生成する能力を評価するために使用しました。
さらに、学習に用いたデータセットの化学空間の分布と、生成された化合物の位置を合わせて、すべてのテストデータを入力として用いて生成されたすべての化合物について、シード化合物とのTanimoto係数(ECFP4)とIEVのコサイン類似度の分布をプロットしました。化学空間の分布と生成された化合物の位置のプロットについては、S = 2048のECFP4を主成分分析(PCA)で次元削減して2次元プロットを作成しました。
最後に、Tanimoto係数が0.5以下で、IEVのコサイン類似度が高い上位4つの化合物について、Glide HTVSモードでのドッキングポーズを評価しました。
Results and discussion
表2は、IEV2Mol、JT-VAE、IEV-VAE、ランダムChEMBLの妥当性、独自性、多様性を評価した結果を示しています。
IEV2Molは、同じくSMILESベースの生成を用いたIFP-RNNよりも妥当性が高いことが示されました。これは、IEV2Molがより大きなデータセットであるDM-QP-1Mデータで文法を学習できたのに対し、IFP-RNNはDRD2-Activeデータセットで文法を学習したためと考えられます。IFP-RNNのアーキテクチャでは、すべての学習データに対してIFPを計算する必要があり、学習データの拡張が困難です。一方、IEV2Molは、SMILES-VAEの事前学習にSMILESのみを必要とするため、容易に拡張でき、より大きなDM-QP-1Mデータセットで文法を学習することができました。
また、IEV2Molは、独自性と多様性の評価において、ランダムChEMBLと同等の性能を示しました。JT-VAEは、特に独自性と多様性において結果が良くありませんでしたが、これは、JT-VAEが入力化合物との構造的類似性に基づいてサンプリングを行うことで化合物を生成しているためと考えられます。一方、IEV2Molは、IEVの類似性に基づいてサンプリングを行うことで化合物を生成しているため、より良い結果が得られたと考えられます。
表1は、Glide HTVSモードで標的タンパク質にドッキングできた化合物の数、入力化合物のIEVと自身のIEVとのコサイン類似度が0.7より大きい化合物の数、入力化合物のIEVと自身のIEVとのコサイン類似度が0.7より大きく、かつ入力化合物とのTanimoto係数が0.5未満である化合物の数の評価結果を示しています。
IEV2Molは、生成されたドッキング可能な化合物の数と、IEVのコサイン類似度が高い化合物の数の評価において、JT-VAEを除く他のどの場合よりも良い結果を示しました。しかし、表2で議論したように、JT-VAEは、入力化合物と構造的に類似性の高い化合物を生成するため、これらの指標で良い値を示すと考えられます。したがって、我々の目的からすると、JT-VAEの結果を単純に良いと評価することはできません。入力化合物との構造的類似性が低いことに加えて、IEVのコサイン類似度が高いという追加条件で評価した場合に、JT-VAEの結果が有意に悪化したという事実からも、この考察は裏付けられています。一方、IEV2Molは、入力化合物との構造的類似性が低いという追加条件で評価した場合でも、結果が有意に悪化するということはありませんでした。言い換えれば、IEV2Molは、入力化合物との構造的類似性に依存することなく、類似した相互作用を持つ化合物を生成することに成功しています。
図2は、シード化合物と生成された化合物の間の(a)Tanimoto係数(ECFP4を用いて計算)と(b)IEVのコサイン類似度の分布を、カーネル密度推定(KDE)を用いて比較解析したものです。提案されたIEV2Molフレームワーク(「我々のモデル」と表記)を、JT-VAEおよびIFP-RNN法、ならびにChEMBLデータベースからのランダムサンプル(ランダムChEMBL)と比較しています。各アプローチの入力には、すべてのテストデータを使用しました。図2(a)のTanimoto係数のKDEプロットを見ると、IEV2Molは、JT-VAEやIFP-RNNよりも構造的多様性の高い化合物を生成していることがわかります。これは、Tanimoto係数が低い化合物の密度が高いことから明らかです。これは、IEV2Molが、シード化合物と構造的に類似性のない多様な分子を生成できることを示しています。図2(b)に示すIEVのコサイン類似度のKDEプロットに関しては、IEV2Molによって生成された化合物は、IFP-RNNよりもシード化合物との類似性が高いことがわかります。この観察結果は、IEV2Molが、シード化合物と構造的に類似性のない化合物を生成した場合でも、IEVをうまく再現できることを示唆しています。注目すべきことに、JT-VAEのIEVコサイン類似度分布は、1.0に顕著なピークを示しています。これは、JT-VAEがシード化合物と構造的に類似性の高い化合物を生成する傾向があることを示しています。これは、JT-VAEが生成プロセスにおいて、シード化合物の構造情報に大きく依存しているためと考えられます。シード化合物と同様の相互作用エネルギーを持つ化合物を維持しながら、多様な構造を持つ化合物を生成するという本研究の目的を考えると、JT-VAEと比較してIEV2MolのIEVコサイン類似度が低いことは問題ではありません。実際、それは、IEV2Molが、シード化合物と同様の相互作用エネルギーを持つ、構造的に多様な化合物を生成できることを強調しています。これらの結果は、IEV2Molが構造的多様性と相互作用エネルギー値の再現性のバランスを実現していることから、望ましいタンパク質-リガンド相互作用を持つ新規化合物を生成するための有望なアプローチであることを示しています。
図3は、IEV2Molが、シード化合物の化学空間における位置に関わらず、活性化合物の化学空間をカバーする多様な化合物を生成することを示しています。この結果は、図2の結果と併せて、IEV2Molが、生成された化合物がシード化合物と構造的に類似していない場合でも、シード化合物と同様のIEVを持つ化合物を生成できることを示唆しています。標的とするタンパク質-リガンド相互作用を維持しながら、化学空間の異なる領域を探索できるIEV2Molの能力は、創薬において大きな利点です。
図4は、シード化合物(上)とIEV2Molによって生成された4つの化合物(下4つ)のドッキングポーズを示しています。これらの生成された化合物は、Tanimoto係数が0.5未満で、シード化合物とのIEVコサイン類似度が高い化合物の中から選択されました。ドッキングポーズはGlide HTVSモードを用いて得られたものであり、IEV2Molが、標的タンパク質であるDRD2と相互作用する可能性のある、構造的に多様な化合物を生成できることを示しています。
Conclusion
本研究では、相互作用エネルギーベクトル(IEV)と呼ばれる、化合物とタンパク質との相互作用に関する情報を利用して化合物を生成する新しいVAEモデル、IEV2Molを提案しました。IEV2Molは、化合物と標的タンパク質との間で計算されたIEVを入力として使用することにより、その標的タンパク質に対して同様のIEVを持つ化合物を生成します。これは、シード化合物と標的タンパク質との間のIEVから得られた潜在表現と、広大な化学空間からランダムに取得した潜在表現を組み合わせてデコードすることで実現されます。
一連の実験により、JTVAEやIFP-RNNなどの他の生成モデルと比較して、IEV2Molで生成された化合物は、シード化合物との構造的な類似性は低いものの、シード化合物と同様のIEVを持つ傾向があることが示されました。
IEV2MOLは、標的タンパク質の三次構造と既知のリガンドデータが必要であるという制限がありますが、シード化合物との構造的類似性に関わらず、同様の相互作用を持つ化合物を生成できるため、ヒット化合物発見プロセスにおいて有用なツールとなる可能性があります。
この記事が気に入ったらサポートをしてみませんか?