Incorporating Synthetic Accessibility in Drug Design: Predicting Reaction Yields of Suzuki Cross-Couplings by Leveraging AbbVie’s 15-Year Parallel Library Data Set

2024年5月31日 18:01

Summary

この論文は、AbbVie社の15年間にわたる医薬品開発のための並列合成ライブラリーのデータセットを用いて、機械学習により鈴木カップリング反応の収率を予測するモデルを構築した研究です。

医薬品開発では、多数の化合物を合成し評価する必要があり、合成の効率化が重要な課題です。特に並列合成ライブラリーは構造活性相関の探索に有用ですが、収率予測は考慮されていませんでした。著者らは、AbbVie社の大規模な並列合成データに着目し、機械学習による収率予測モデル構築を目指しました。

データセットは24,203の鈴木カップリング反応からなり、基質の構造多様性が高く、マイナスデータも豊富に含まれています。 One-hot encoding、Morgan fingerprint、密度汎関数法(DFT)由来の記述子の3種類の特徴量を用い、ランダムフォレスト、勾配ブースティング、ニューラルネットワークの3種の機械学習アルゴリズムでモデル構築しました。訓練データの分割方法や、2値分類、多クラス分類、回帰の予測タスクを検討しました。

その結果、fingerprintとDFT記述子の組み合わせ、ランダムフォレストが最良の性能を示しました。訓練データに含まれない基質でもある程度予測可能であり、経験豊富な合成化学者の予測を上回る精度を達成しました。

さらに、予測モデルを用いて、収率が低いと予測されたモノマーや、実際に収率が低かったモノマーを、類似構造で収率が高いと予測されるモノマーに置き換える、というライブラリーデザインへの応用も示しました。

本研究は、大規模で質の高い企業の実験データを機械学習に活用し、創薬プロセスに貢献する好例といえます。モデルの性能向上の余地は残るものの、合成化学者の経験や勘に加えて定量的な収率予測が可能になれば、医薬品開発の効率化に大きく寄与すると期待されます。データ駆動型の合成化学研究の先駆的な成果として高く評価できます。

Introduction

医薬品の候補化合物が臨床試験に選ばれるまでに、何百から何千もの化合物を設計し、合成し、評価し、解析する(DMTA)必要があります。多くの場合、このプロセスのボトルネックとなるのは標的化合物の合成であり、全体のDMTAサイクルの時間に最も大きな影響を与えます。このような状況において、設計した化合物を実際に合成可能な化合物に変換することは、DMTAサイクルの効率を左右する決定的に重要な要素です。一般的に、化合物設計段階では、物理化学的特性の計算、活性やADME特性の予測、分子の多様性解析、タンパク質-リガンドのドッキングスコアなどの手法を慎重に組み合わせることで、合成対象を絞り込みます。これらのツールの使用範囲はプロジェクトによって異なりますが、最終的にはこれらの手法が次に合成すべき最良の化合物の選択を導きます。

特に並列合成ライブラリーは、医薬品化学における構造活性相関の効率的かつ迅速な探索に有用です。単一の合成とは異なり、多数の類似化合物を並列に合成することで、複数の構造活性相関仮説を同時に検証でき、合成がDMTAサイクルのボトルネックになることを軽減できます。ライブラリー合成は現代の医薬品化学プロジェクトの常套手段となっていますが、ライブラリーの化合物選択においては、合成成功の可能性が明示的に考慮されていません。AbbVie社の社内ライブラリーデータの解析は、医薬品化学者が候補化合物の探索に使う最も一般的な合成反応の成功率が、よく確立された鈴木-宮浦カップリングでさえ60-70%程度にとどまることを示しており、この考慮の必要性を浮き彫りにしています。したがって、化学者が変換反応の合成効率(例えば反応収率)を予測できるモデルがあれば、貴重な原料の無駄を減らし、不成功な反応による損失を減らせるだけでなく、全体のDMTAサイクル時間を大幅に短縮できるでしょう。

そのようなツールを開発するには、モデル構築に適切なデータセットを精選し、収率予測を複雑にする要因を特定し制御することが重要です。これまでに文献で報告されている反応収率予測のためのデータセットは、出所やサイズ、反応スケール、構造多様性などが様々です。例えば、ハイスループットスクリーニング(HTE)由来のデータセット、文献から抽出した反応データベース、企業の内部データセットなどが用いられています。HTEデータは、ブックバルトハートウィッグアミノ化や鈴木カップリングの収率予測に成功していますが、これらは非常に狭い組み合わせ的な反応空間の徹底的な探索を表しているため、そのスコープを超えて一般化することは期待できません。HTEは大規模な反応データを迅速かつ効率的に生成するのに有効ですが、機械学習に使う場合でも、出力は多くの場合単離収率ではなく、UVエリアパーセントや転化率、生成物/内部標準比などのアッセイ収率です。単離操作が導入する交絡因子のために、HTEデータを大スケールでの合成収率予測に使うことには疑問が残ります。結果として、HTEデータだけで訓練したモデルの予測は、必ずしもアッセイに十分な量の化合物の合成に直結しないかもしれません。米国特許庁や科学文献などに由来する公開データセットも、収率予測などのタスクにさまざまなサイズで使われていますが、出所間で実験手順の変動が大きく、収率予測モデルの性能は低くなっています。さらに、文献データでは失敗例の報告が少ないことも、この低性能に拍車をかけていますが、Gloriusらは文献データにマイナスデータを追加することでモデル性能が改善できることを示しています。

このような理由から、製薬企業の電子実験ノート(ELN)データや企業内データを使う試みが増えていますが、原理的にはこれらのデータは創薬関連の広い化学空間と構造・変換をカバーしています。しかし残念ながら、ELNデータのクリーンアップと処理は非常に面倒な作業で、多大な人的・資本的投資が必要です。また、反応条件、スケール、反応物の性質などが一定でなく(その他記録されていない要因もあり)、機械学習モデルの構築を困難にしています。

一方で、より狭い範囲の反応データを実験的に生成してモデル化する研究もありますが、創薬のための幅広い化合物設計に必要な化学空間を十分にカバーできない可能性があります。我々は、医薬品化学の合成研究のみから成るデータセットが、創薬での実用的な収率予測モデルを構築するのに最も適していると考えました。

AbbVie社では、2000年代初頭に中央集権的な化学技術グループを設立し、医薬品化学のSAR研究を加速するための並列ケミカルライブラリーの迅速な生成を可能にしてきました。各ライブラリーでは、医薬品化学者が選んだ一連のモノマーを共通の中間体(コア)と反応させ、各モノマーに対して同じ反応条件で、類似しているが異なる一連の生成物を合成します。私たちのグループは100以上の低分子創薬プロジェクトにおいて約9,000のライブラリーを完成させ、約160,000の化合物ロットを合成・登録してきました。過去には、ライブラリー合成で登録された化合物が、AbbVie社の医薬品化学者が毎年登録する全化合物の最大50%を占めたこともあります。この膨大な化合物コレクションの合成に関連するデータは、ELNデータとは別に管理されている私たちの研究情報管理システム(LIMS)データベースに記録されています。記録されている詳細には、ライブラリー申請情報、並列ライブラリーの実験計画、試薬の計算、最終的な合成結果、生成物の特性データなどが含まれます。ライブラリー合成の主なワークフローは長年にわたって一貫しており、粗生成物をUPLC-MSで分析した後、逆相の質量分取HPLCで精製します。また、粗生成物の精製前処理、質量分取精製、精製化合物のバイアルへの移し替え、最終秤量など、いくつかの段階でオートメーション化が進み、実験ミスによる結果のばらつきが減少しました。さらに、このデータは、過去20年間にわたってAbbVie社のさまざまな治療領域と機能の医薬品化学研究を専門的に支援する中で生成されたものです。これらの要因により、私たちはデータの生成方法とデータセットのフォーマットの両方に精通することができました。AbbVie社のケミカルライブラリーデータセットには、多数の失敗データも含まれています。これは、科学文献や特許由来のデータセットを反応収率モデル化に使う際の制約の1つに対処するものです。

また、このデータは、これまでに報告されているHTEデータセットよりも反応数、ユニークな反応物構造、分子多様性が格段に多い一方で、同一反応タイプのHTEや文献データセットに比べてユニークな反応条件の数は少なくなっています(詳細は補足情報のFigure S15を参照)。多くの収率予測用に評価されたデータセットとは異なり、このデータセットは化合物の単離収率のみを報告しており、アッセイ収率(NMR収率やLCMSのエリアパーセントなど)とは異なります。これは、化合物を純粋な形で得られるかどうかを判断する上で重要な違いです。精製そのものがモデルに明示的には含まれていないばらつきを最終的な収率に導入する可能性がありますが、私たちの反応ワークフローでは、すべての化合物精製に逆相分取HPLCを用いることで、できる限り一貫性を保つよう努めました。原料LCMSのエンドポイントをモデル訓練に使うことで、内部標準で検量したり、基質対の数が少ない場合にはこのばらつきを軽減でき、反応性のみのエンドポイント(反応条件予測など)のタスクに有用かもしれません。しかし、単離収率で訓練したモデルは、医薬品化学にとって重要な指標、すなわち反応生成物を十分な純度で生物学的アッセイに供給できるかどうかを直接評価できます。したがって、この過去のライブラリー反応データの蓄積は、反応収率予測モデルを構築する上でエキサイティングな機会をもたらしたのです。

本研究では、AbbVie社の広範なケミカルライブラリーのデータセットを用いて鈴木カップリングの収率予測モデルを構築・評価し、製薬化合物の設計への活用法を実証しました。化学者のライブラリー設計を支援するツールとしてこのようなモデルを使うアイデアを、モデルの予測と熟練の医薬品化学者の予測を比較することで示し、モデルの実際の適用例も紹介しています。

Results and Discussion

データセットの選択と準備

我々は研究対象を単一のライブラリー変換反応に限定しました。文献で報告されている医薬品化学で使用される反応の普及率と一致して、鈴木カップリングはAbbVie社のライブラリーデータセットで2番目に多く実施されている変換反応であり、反応生成物の登録(つまり、十分な純度でアッセイに供する目的化合物が単離された)の全体的な成功率は約68%です。また、鈴木反応は他のクロスカップリング変換反応よりも一般的/堅牢な反応条件を持つことが知られており、医薬品化学において無くてはならない存在です。したがって、ライブラリー反応の結果に対する反応条件のばらつきの影響は小さいと予想されました(つまり、収率はむしろ反応条件よりもクロスカップリングの基質に左右される)。さらに、鈴木ライブラリー反応の85%以上がAbbVie社のわずか3人の化学者によって実施されました。以上より、我々はこのサブデータセットを収率予測モデル構築のための模範的な並列ライブラリーデータセットとして評価することにしました。

前述のように、機械学習に適したデータセットを準備するには、データ自体に関する深い知識が不可欠です。この知識を活用することで、反応物のラベル付け間違いや、誤ったデータ入力、データ保存の際の不備などを手作業で修正することができました。当初の鈴木ライブラリー反応データセットには40,000以上の個別データポイントが含まれていましたが、データの保存方法の性質上、すべてのデータポイントが個別の有効な反応に対応しているわけではありませんでした。そこで、機械学習に適したデータセットを作成するために、広範なデータセット処理ワークフローを開発しました。まず、いくつかの触媒、塩基、溶媒の名称がデータセット全体で異なることがわかりました。これらは化学者が実験をデザインする際にフリーテキストで入力することが多かったためです。例えば、ある一つのパラジウム触媒に対して、データセット内で2ダースものユニークなラベルがありました(Figure 2a)。このようなエンティティは、化学者が実験デザイン時に入力した分子量を利用して特定し、手動レビューを補助するために共通の名称に割り当てました。次に、精製時に複数の生成物ロットに分割された反応を1つのデータポイントに統合しました。これらは反応生成物の登録時に分離されたままになっていることが多かったためです(Figure 2b)。一方、状況によっては反応をデータセットから完全に除外しました。例えば、典型的な鈴木反応以外の変換を示す反応(クロスカップリング後の脱保護やエステル加水分解など、Figure 2c)や、2回以上の精製を経た化合物は、データセットから除外しました。これらの追加反応と精製操作は、後続の合成変換の効率や化合物の再精製の難しさにより、最終的な単離収率に予測不可能な量のばらつきを導入する可能性があるためです。さらに、反応条件が全く関連付けられていない反応も全て除外しました。これらの作業を合わせて、24,000以上の個別の鈴木反応からなるクリーンなデータセットが作成されました(Figure 2d)。

処理済み鈴木ライブラリー反応データセット

処理済みデータセットには、24,203の個別反応から得られた23,236のユニークな鈴木反応生成物が含まれており、これらは629のライブラリーで合成されました。各ライブラリーは、共通の反応条件と共通のコア構造を共有し、一連の分化したモノマー構造を持つ一連の反応で構成されています。典型的には、共通のコアはアリールハライドで、モノマー構造はこのデータセットではオルガノボラン(ボロン酸とエステルの両方)です。一部のデータセットではその逆もあります。データセット内の各反応には、反応の単離収率パーセントでラベル付けされています(Figure 3a)。コアとモノマーの化学空間をt-SNEで可視化すると、このことが確認でき、コア構造の大部分がアリールハライドモノマーとともにクラスター化されています。この解析により、ボロン酸/エステルモノマーに存在する多様性は、MIDAボロネートモノマーに存在する多様性よりも大きいことも明らかになりました(Figure 3b)。コアとモノマー化合物に使用される官能基の解析から、この鈴木データセットは可能なコア/モノマーペアの約3%に達していることがわかります。全体として、このデータセットは、いくつかの創薬に関連する物理化学的特性にわたって大きな多様性を示しています(詳細は補足情報のFigure S14を参照)。さらに、ライブラリーを実施する化学者が選択した反応条件は、しばしば非常に一般的で堅牢です。データセット内には118のユニークな反応条件の組み合わせがありますが、反応の80%以上が5種類のパラジウム触媒のいずれかで行われました。同様に、ごく少数の反応を除いて、すべての反応が鈴木カップリングでよく使用される4種類の無機塩基で行われました(Figure 3c)。反応条件の構成要素のこのような多様性の低さは、鈴木クロスカップリング反応の利便性を物語っており、少数のユニークな試薬を使って多様な化合物ライブラリーを合成できることを示しています。これは例えば、C-Nカップリングとは対照的です。C-Nカップリングでは、アミンカップリングパートナーの性質が反応の触媒選択に大きな影響を与えることがあります。また、データセットの多様性は主にコアとモノマー構造の組み合わせに由来していることを示しています。さらに、データセット内の単離収率の分布は、ほとんどの成功したライブラリー反応が目的の生成物を10〜40%の収率で与えたことを示しています(Figure 3d)。したがって、収率は4つのクラス、すなわち不成功(0%)、低(0〜10%の収率)、中(10〜30%の収率)、高(30%以上の収率)に分けることができます。このデータセットでは、不成功な反応には、単に反応が進行しなかったものと、化合物を精製できなかったり単離できなかったりしたものが含まれています。目的の生成物が登録された(つまり、アッセイに十分な純度の化合物が得られた)結果は、最終収率に関わらず全て成功とみなされました。さらに、データセット内の反復反応のセットを解析することで、記録されていない反応要因によるデータセットの固有ノイズを推定したところ、これらの201の反応セットの半数以上で単離収率の標準偏差が5%未満であることがわかりました(補足情報のFigure S19を参照)。

全体では、このデータセットは393のユニークなコアと3,113のユニークなモノマーで構成されています。データセット内のユニークなコアの約2/3は1つのライブラリーで使用されており、通常20〜70の反応に登場します。比較として、ユニークなモノマー構造のほぼ半数は1つのライブラリーで使用されており、これらのモノマーはデータセット全体で1回だけ登場することを示しています(Figure 4a)。残りのモノマーの多くは複数回要求されており、中には100以上のライブラリーに含まれているものもあります。私たちのグループの過去の分析で述べたように、高頻度で要求されるモノマーが常に高い成功率のモノマーであるとは限りません。例えば、ピラゾールやアニソールは鈴木ライブラリーでよく要求され、多くの場合クロスカップリングに成功する官能基モチーフですが、2-チアゾールは医薬品化学で非常に要求/希望される構造モチーフですが、この変換反応には不向きな基質です(Figure 4b)。

レトロスペクティブモデリング

我々は15年分のデータセットの評価において、3つの分子の特徴化手法に焦点を当てました(Figure 5a)。ベースラインとして、コアとモノマーの識別に基づいてone-hot encoded (OHE)特徴量を割り当てました。なぜなら、この特徴化手法は内挿的予測タスクで良好な性能を示しており、特徴量ベースのモデルがデータセットの統計量以上のことを学習しているかどうかを判断するのに使えるからです。Morgan fingerprint (FP)はRDKitを用いて生成しました。これは、広く使用されており、高速で、計算コストが安いためです。さらに、化学関連の予測タスクで良好な性能を示すことが知られています。これらと並行して、反応部位の原子と分子について密度汎関数理論(DFT)で計算したab initio量子化学的特徴量を使用しましたが、これらの特徴量はFPに比べて計算コストが高くなります。DFT特徴化は、Auto-QChemを改変して構築した自動化パイプラインを用いて、コア/モノマー分子の各原子の特徴量に加えて、分子全体の特徴量を取得することで行いました(補足情報のFigure S1を参照)。データセット内のすべての反応に対して、まず原子マッピングを行い、3,473のユニークなアリールハライドとオルガノボランを抽出しました。各分子について、RDKitを用いて1〜20の構造異性体を生成しました。そして計算オーバーヘッドを減らすために、半経験的(GFN2-xTB)エネルギー計算を用いて最低エネルギーの構造異性体を選択しました。選択した最低エネルギーの構造異性体を用いて、G16で構造最適化と振動数計算(APFD/6-31G*)を行いました。これにより、分子あたり25の分子レベル記述子と、原子あたり19の原子レベル記述子が生成されました。各反応について、オルガノボラン上のC-B結合とアリールハライド上のC-X結合に対応する反応部位の4つの原子の原子レベル特徴量を抽出しました。データセット全体で分布が異なる計算された記述子をモデリングのために選択しました(補足情報のFigures S2とS3を参照)。その結果、各反応について、分子ごとに8つの分子特徴量と、反応部位の4つの原子それぞれについて8つの原子レベル特徴量からなる、長さ48の最終的なDFT特徴ベクトルが得られました(DFT特徴化パイプラインの詳細については、補足情報のSection 2dを参照)。

特徴量選択に加えて、本研究では、データセットの分割方法と予測タスクの2つの「軸」を選択しました(Figure 5b)。並列ライブラリー設計ワークフローに役立つ将来の予測ツールの開発に適した分割と予測タスクを選択しました。分割については、ランダム分割、モノマーベースの分割、コアベースの分割を用いてモデルの性能を評価しました。ランダム分割では、構造をトレーニングセットとテストセットに分配する際にユーザーのバイアスがかからないため、同一または非常に類似した構造がトレーニングセットとテストセットの両方に現れる可能性が高くなります。一方、モノマーベースとコアベースの分割では、モデルが未知のモノマー構造とコア構造についてそれぞれ評価されることが保証されます。これらの分割はより難易度が高く、新しいライブラリー反応の収率予測(コア分割)や、未知のモノマーを用いて以前にライブラリー合成を行ったコアでのフォローアップライブラリーの収率予測(モノマー分割)など、モデルの潜在的な使用例における性能を分析することができます。特にコアベースの分割では、並列ライブラリーの性質上、テスト反応に未知のモノマー構造が含まれる可能性もあります。つまり、モデルは未知と既知の両方のモノマーについて収率を予測しているため、完全に未知の反応への外挿という最も難しい課題の評価を表しています。実際には、フォローアップライブラリーではモデルが既に見たことのあるコアやモノマーを使用することがあります。実際、ライブラリーの性質上、コアとしてもモノマーとしても使われている構造が33あります。モデリングのタスク軸に関しては、2値分類、多クラス分類、回帰の各タスクを選択しました。これらはいずれも医薬品化学のタスクに関連しているためです。このデータセットでは、0%の単離収率は、下流のアッセイやテストに必要な十分な量の生成物を精製後に得ることができない(または十分な純度が得られない、再精製に必要な十分な材料がない可能性がある)ことを示しているため、2値分類(0または非0の収率)タスクでも良好なモデル性能は医薬品化学プログラムにとって有用です。多クラス収率分類では、0%、0〜10%、10〜30%、30〜100%の4つの収率区分を設定することで、成功した反応の予測により多くのニュアンスを持たせることができ、医薬品化学者が高収率区分に予測される化合物を優先することが可能になります。最後に、最も難易度の高い予測タスクである回帰については、分類モデルよりも弁別力の高いランク付けでライブラリーのモノマーをランク付けすることが可能かどうかを調べました。過去の収率予測の取り組みの多くは回帰に焦点を当ててきましたが、信頼できる分類モデルも医薬品化学の設計にとって非常に価値があります。なぜなら、これらのモデルは、生成物を生物学的アッセイに十分な純度で合成できるかどうかを直接評価するからです。

モデルの種類としては、ランダムフォレスト(RF)、極端勾配ブースティング(xGB)、フィードフォワードニューラルネットワーク(NN)の機械学習モデルを選択しました(Figure 5b)。我々は比較的「シンプル」なモデルタイプに解析を限定しました。なぜなら、これまでの収率予測の取り組みでは、実世界のデータに対してより複雑なディープラーニングアーキテクチャを使用しても、ほとんど改善が見られないか、むしろ性能が低下することが一貫して示されているからです。それでも、グラフニューラルネットワークと言語ベースのトランスフォーマーモデルからの特徴量を評価したところ、これらの3つのモデルから得られた最良の結果を大きく上回ることはできませんでした(補足情報のTables S6とS7を参照)。データセットの分割方法、予測タスク、モデルの選択肢がそれぞれ3つあることから、OHE、FP、DFT、FPとDFTの組み合わせの特徴量を用いて、合計108のモデルを構築し評価しました。すべてのケースにおいて、前述のアリールハライドとボロン酸由来の特徴量を使用しました。反応条件は、触媒+リガンドシステムと塩基にOHEを、溶媒にマルチホットエンコーディング(MHE)を用いて、すべてのモデルで表現しました。この表現を分子の特徴ベクトルに連結して、モデル訓練のための最終的な入力ベクトルを得ました。評価した108のモデリングシナリオのそれぞれにおいて、最終結果を得るために15回のデータシャッフルをモデル化しました。

FPとDFTの特徴量を組み合わせることで、すべての予測タスクとデータセットの分割方法において、概して最高の性能が得られました(Figure 5c)。この観察結果の潜在的な説明は、化学反応性のモデル化の全体的な複雑さにあります。構造的特徴量と量子化学的特徴量はどちらも、もう一方には提供できない、構造の反応性に関する有用な情報を提供できるのです。例えば、分子内の近接した官能基の存在はFPで知ることができますが、反応部位の電子的特徴はDFT特徴量で知ることができます。さらに、OHEベースのモデルは、特徴量ベースのモデルと比較して、一般的に精度が低く、ばらつきが大きくなっています。このことから、モデルは未知の構造に対してある程度外挿していることがわかります。機械学習モデル間の違いはわずかで、RFモデルが特徴量ベースのモデリングでxGBとNNモデルをわずかに上回る傾向があります。予想通り、ランダム分割では、評価したすべての予測タスクにおいて、最も楽観的な予測結果が得られました。モノマーベースの分割では、それと比較してわずかな性能低下が見られました。しかし、モデルが新しいモノマー構造について評価されていることを考えると、同様の性能が観察されたことを嬉しく思います。一方、コアベースの分割では、性能の低下がより大きく、データセットを未知の化学物質の評価のために分割する最も難しい方法であることは明らかです。この性能低下は、データセット内のコアの数(393)がモノマーの数(3113)よりも少ないこと、および未知のモノマー構造がテスト分割に現れる可能性があることに起因していると考えられます。さらに、コア分子は通常、モノマー構造よりも構造的に複雑であるため、より大きな一般化の課題を提示します。したがって、コアベースとモノマーベースの分割は、ランダム分割モデルよりも標準偏差が高く、これらのより複雑な分割方法では、トレーニング/テストへの反応の分布にパフォーマンスがより敏感であることを示しています。

ここで強調しておきたいのは、異なる分割タイプは、これらのモデルが将来的にどのように使用されるかのさまざまなシナリオを模倣しており、モデル自体の設計選択とは見なすべきではないということです。予測タスクの直接比較は避けるべきです。なぜなら、より具体的な反応結果を予測する際には、モデリングは自然と難しくなるからです。したがって、各タスク/分割の組み合わせをナイーブなベースライン(分類モデルがデータセットで最も占有率の高いクラスのみを予測した場合に達成される精度、または回帰の場合は平均収率を予測する)とOHEベースラインモデルと比較する方が良いでしょう。全体的に控えめな一般化が観察されますが、特にモノマーベースの分割で顕著です。ここでは、3つの特徴量ベースのアプローチすべてが、ナイーブおよびOHEベースラインと比較して、分類タスクおよび回帰タスクでそれぞれ有意に高い精度およびR^2値を達成しました。一方、コアベースの分割の結果を比較すると、モデルが未知のコア構造に外挿するのはより困難であることがわかります(選択された結果、混同行列、パリティプロットについては、補足情報のSections 2e〜2hを参照)。

要約すると、RFモデルとFP+DFT特徴量の組み合わせは、評価した9つのデータセット分割と予測タスクのすべてにおいて、一貫して最高の性能を示しました。データセットの分割戦略に応じて、分類モデルでは2値精度が約72〜78%、多クラス精度が約45〜55%に達しました。回帰モデルでは、ランダムおよびモノマーベースの分割でR^2値が約0.35〜0.39、より難易度の高いコア分割ではR^2値が約0.13でした。OHEベースのモデルが特徴量ベースのモデルよりも一貫して性能が悪いことから、特徴量ベースのモデルは、このレトロスペクティブな研究である程度未知の構造に一般化していることが示唆されます。この研究の結果から、分類モデルは将来の使用に十分であり、回帰モデリングは新しいモノマーの収率予測に有益である可能性があることがわかりました。この研究の結果を踏まえ、以降のすべての研究ではFP+DFT特徴量を組み合わせて使用することにしました。

レトロスペクティブモデルと専門家の医薬品化学者の予測の比較

ライブラリーデザインの全体的なワークフローにおいて、事実上のベースラインは人間の専門家です。そこで、モデルの予測をAbbVie社の11人の専門医薬品化学者が行った予測と比較することにしました。調査対象の化学者は、AbbVieの異なる拠点で幅広い治療領域をサポートしており、さまざまな合成化学のバックグラウンドを持ち、経験年数もさまざまです。調査対象の化学者の中には、6ヶ月しか医薬品化学者としての経験がない人もいれば、15年以上のベテランもいました。評価したのは、(1)ライブラリー全体の予測と(2)ライブラリーの一部の予測の2つのシナリオです。後者では、トレーニング分割に使用されたモノマーとそれに対応する単離収率を化学者に提供しました。反応数とモデルの性能が異なる3つのライブラリーを各シナリオで選択しました。化学者には、このプロジェクトの背景と、レトロスペクティブデータセット全体で見られた反応収率の分布を簡単に説明し、各反応がゼロ/低/中/高収率(多クラス分類モデルの収率区分で定義)になると思うかを評価するよう依頼しました。合計で、各化学者が117の予測カテゴリ収率値を提供し、これを使用して、反応の成功と反応の収率区分の予測を、それぞれ2値分類と多クラス分類モデルの予測と比較しました。

喜ばしいことに、モデルは評価したほとんどのライブラリーにおいて、ライブラリー反応の成功(2値分類)と収率の区分(多クラス分類)の両方を、医薬品化学者が達成した中央値よりも高い精度で予測することができました(Figure 6a)。モデルは、ライブラリー2と6の両方の分類予測タスクでは特に性能が悪いですが、それでもAbbVie社の専門医薬品化学者の精度の範囲内にあります。また、化学者の予測精度の範囲は、反応成功の予測よりも収率区分の予測の方がはるかに広く、評価したすべてのライブラリーで単一の医薬品化学者が最高の精度を達成することはありませんでした。さらに、ライブラリーの一部の予測では、提供された反応収率の数が多いほど化学者の性能が向上するという傾向は見られず、化学者の予測はモデルよりも全体的に主観的であることがわかりました(補足情報のSection 4を参照)。全体として、このモデルは、調査対象の医薬品化学者の平均と比較して、反応の成功と収率を10〜25%高い精度で予測することができます。この比較から得られた結果は、他の機械学習モデルと化学者の直感を比較した場合の結果と一致しています。よく議論されるように、予測ツールは専門の化学者とその直感を補強するものであり、代替手段と見なす必要はありません。この研究は、このモデルが合成に成功する可能性の高い望ましいモノマーの優先順位付けにおいて、化学者を支援するより信頼性の高いツールとして機能する可能性を示しています。

擬似プロスペクティブ評価

過去のライブラリー反応データを用いて広範なレトロスペクティブモデリングを行い、モデルが専門の医薬品化学者の予測を上回ることを実証した後、新しいデータとおそらくより新規な構造に直面した際のモデルの性能を評価しようと考えました。この分析には、レトロスペクティブ分析に使用したデータセットよりも最近(レトロスペクティブデータセットのカットオフ日である2021年中頃以降)に当グループが実施した574のライブラリー反応(18ライブラリー)からなる保留データセットを使用しました。このタスクは、トレーニングデータの90%が2019年以前に取得されたという点で、極端な時間ベースの分割を表しています(Figure 7a)。このデータには11の新しいコアと207の新しいモノマーが含まれています。つまり、ユニークな反応物分子の44%はモデルにとって未知であり、以前に見たことのある分子の新しい組み合わせも含まれています。事前に訓練したモデル(すべてFP+DFT特徴量を使用し、レトロスペクティブデータセット全体で訓練)をこのデータに適用したところ、3つの予測タスクすべてでパフォーマンス指標の全体的な低下が見られました(補足情報のSection 2jを参照)。このパフォーマンスの低下を調査するために、この保留データセットを4つのサブデータセットに分割しました。(1)レトロスペクティブデータセットで見られたコアとモノマーの両方を含む反応(110反応)、(2)見られたコアだが見られていないモノマーを含む反応(140反応)、(3)見られていないコアだが見られたモノマーを含む反応(237反応)、(4)見られていないコアとモノマーを含む反応(87反応)です。

モデルは、各データサブセットの多クラス分類ではナイーブベースラインを概ね上回りましたが、2値分類ではナイーブベースラインと同程度の性能でした(Figure 7b)。重要な点は、収率の分布が過去のデータと比較して変化しており、反応の成功率と平均収率が高くなっていることです(Figure 7c)。例えば、多クラス分類の観点から見ると、レトロスペクティブデータでは最も多い区分は不成功反応区分(収率0)ですが、保留データでは最高収率区分(収率30%以上)になっています。したがって、ナイーブベースラインは、レトロスペクティブデータセットで最も占有率の高い区分であるクラス0のままとしていますが、これはモデルがこの収率分布の変化を認識していないためです。

期待通り、ナイーブベースラインと比較して全体的な改善度が最も高かったサブデータセットは、見たことのあるコアと見たことのあるモノマーで構成された反応でした。交絡変数と時間経過に伴う実験手順の変化(新しい化学者、ワークフローへの改良点の導入など)により、レトロスペクティブ評価からこのプロスペクティブ評価への内挿的パフォーマンスの低下を説明できます。例えば、近年、鈴木反応を不活性雰囲気下で行うようにする化学者の意識の変化があり、これは一般的に収率を向上させるでしょう。これらの結果は、反応環境、温度、濃度などの収率予測タスクに影響を与える可能性のある交絡変数を制御することの重要性を強調しています。また、2021年中頃以降のコア構造は、平均して分子量が大きく、ヘテロ原子と回転可能な結合が多く、QEDが低いことがわかりました(補足情報のFigure S20を参照)。このことから、レトロスペクティブデータセットのコアと比較して、2021年中頃以降のコアの複雑さが増していることが示唆され、観察されたパフォーマンスの低下を説明するのに役立ちます。したがって、長期的な展開のためには、新しいデータが収集されるたびにモデルを頻繁に再トレーニングすることが賢明です。これにより、モデルの堅牢性が向上し、実験の変更や反応収率と分子の複雑さの変化により良く対応できるようになると考えられます。

ライブラリーデザインに向けたプロスペクティブな応用

収率予測を化合物設計に応用する最も基本的なのは、ライブラリー設計ワークフローにおけるモノマーの選択(または置換)です。合成に失敗するライブラリーメンバーを減らすことで、貴重な原料の無駄を減らし、人員の時間を節約し、設計に関連するより多くの化合物をDMTAの反復サイクルに提供できます。我々は、このコンテキストでモデルを組み込むための2つの具体的な機会を特定し、探求しました(Figure 8)。1つ目の設定はモノマーの優先順位付けで、2値分類モデルで不成功と予測されたモノマーに代替モノマーを提案します。このシナリオは、ライブラリーを実施する前に化合物設計にモデルを使用することに相当するため、この応用のための予測に使用するモデルは、ターゲットライブラリーのコアをまだ見ていません。2つ目の設定はモノマーのレスキューで、合成時に不成功だったモノマーに代替モノマーを提案します。この場合、初期の実験結果の知識をモデルのトレーニングに使用して、代替モノマーの選択をより適切に情報提供します。このシナリオでは、不成功だったモノマーを成功すると予測される類似のモノマーに置き換えることで、ライブラリーが「レスキュー」されています。両方のシナリオにおいて、クエリモノマーの構造的・電子的な類似性という設計目標を保持するために、オープンソースのパッケージespximを使用して分子の類似性を判断しました。このパッケージを使用して、3次元の形状と静電ポテンシャルの類似度スコアを計算し、それらを掛け合わせて、クエリモノマーとその潜在的な置換候補との間の最終的な類似度スコアを得ました。各クエリモノマーについて、このアプローチを用いて最も類似した10個のモノマーを決定し、回帰予測収率が最も高い類似モノマーを合成用の置換候補として選択しました(例については補足情報のFigure S30を参照)。本論文で示した研究では、置換候補モノマーのプールをレトロスペクティブデータセットに存在する1,934のユニークなボロン酸/エステルモノマーに限定しましたが、必要に応じて潜在的な置換候補モノマーのリストを拡張することもできます(補足情報のSection 6を参照)。レトロスペクティブモデリングの知見に基づき、本研究のすべての予測にはFP+DFT特徴量のRFモデルを使用しました。

両方のモノマー置換シナリオの具体的な評価には、レトロスペクティブデータセットから得たアザオキシンドールコアを使用した46化合物のライブラリーを用いました(Figure 9)。このライブラリーでは、選択された46のモノマーのうち19が成功し、27が不成功でした。このライブラリーのモノマー優先順位付けシナリオでは、当初設計された46のモノマーのうち9つが2値モデルによって不成功と予測されました。前述のワークフローを使用して、そのうち6つが設計に関連する化合物で置換することに成功しました(Figure 9a)。したがって、モデルによるプロスペクティブな設計により、モデルが当初の合成時に使用されていれば、合計24の化合物が合成できたことになります。一方、モノマーレスキューシナリオでは、モデルは対象のコアに対するモノマーの性能をより適切に情報提供されています。同じライブラリーに対してレスキューアプローチを実施したところ、以前は不成功だった27のモノマーのうち23をうまく置換することができました(Figure 9b)。これは、元のライブラリー合成での成功反応と合わせると、このコアを使用して合計42の化合物を合成できたことになります。特に例を挙げると、モデルは3級アニリン基を有するモノマーは潜在的な置換モノマーの中で最高の収率にはならないと予測しました(補足情報のFigure S30を参照)。我々は、異なるコアと異なる反応条件を用いた2つ目のライブラリーに対してもこのモノマーレスキューワークフローを繰り返し、その実行可能性を再確認しました(選択例については補足情報のFigure S23を参照)。これは、モデルが可能な限り元の設計に忠実に新しい反応物で不成功モノマーを置換できる可能性を広く示すものです(クエリモノマー、置換モノマー、類似度スコア、予測収率、単離収率の完全なリストについては、補足情報のTables S14とS15を参照)。また、モノマー置換アプローチは柔軟に対応できることを強調しておきます。本研究では予測収率が最も高い置換モノマーを選択しましたが、実際の使用では、医薬品化学者が支援する医薬品化学プログラムの特定のニーズに応じて、予測される反応収率よりもモノマーの類似度スコアを優先することができます。

この研究の結果は、収率予測モデルを医薬品化学キャンペーンのDMTAサイクルに組み込むことで、設計と合成の効率を高められることを明確に示しています。設計段階で取り入れることで、医薬品化学者は予測収率による合成結果を評価できるようになります。これは現在の設計プロセスでは大きな空白となっています。その意味は重大です。複雑なコアは制限試薬であり、多くの場合、長くて面倒な合成が必要で、時には化学者の努力を1ヶ月以上も費やすことがあるからです。そのため、貴重な原料を賢明に使用して、最大数のライブラリーアナログを得ることは、DMTAサイクルを短縮する上で非常に重要になります。示した例のように(モノマー優先順位付け、Figure 9a)、合成収率予測を設計の漏斗に組み込むことで、より高い合成効率が達成できると確信しています。さらに、収率予測モデルと分子の類似性検索を組み合わせることで、合成で不成功だった重要なアナログと類似していて、より高い合成収率が予測される類似モノマーをすばやく特定できます。これらの代替アナログは、特定のアナログが合成で不成功だった場合に、その合成方法/条件を見つける作業と並行して、より多くの関連化合物をDMTAサイクルに迅速に供給するために効率的に合成できます(モノマーレスキュー、Figure 9b)。

Conclusions

化学における機械学習の様々な応用の中でも、反応収率予測は非常に難しい課題であり続けています。その主な理由は、反応収率に影響を与える可能性のあるパラメータの本質的な複雑さ、機械学習に適した高品質のデータセットの欠如、反応性予測タスクに適した一般的な表現に関する経験と知識が限られていることです。理論的には、我々の15年間の並列ライブラリーデータセットは、医薬品化学研究における反応収率予測のための理想的な実世界データセットを提供します。企業のELNから抽出したデータセットと比較して、ライブラリーから抽出したデータセットには、半自動化された反応プロセス、並列合成の性質による高いデータポイントの一貫性、収率に影響を与える可能性のあるパラメータ(オペレーターや反応スケールなど)のばらつきが最小限であるなど、ユニークな利点があります。単離したライブラリー収率をエンドポイントとして使用することも、ほとんどのHTEの出力とは対照的に、反応収率予測にとってより適切です。データセット内の正と負のデータポイントのバランスは、既存の公開データセットに対するもう1つの利点であり、我々のデータセット内の化学構造が医薬品関連の反応収率予測に高い関連性を持つことは言うまでもありません。さらに、並列ライブラリー合成は、AbbVie社内の高度にカスタマイズされたLIMSを使用して、中央集権化された研究所によって実行・管理されています。これにより、データの取得、キュレーション、保存の一貫性と網羅性が確保されましたが、これは大規模で多様な反応データセットではあまり見られません。それでも、機械学習に適したデータセットにするために、データセットのクリーンアップに多大な努力を費やしました。例えば、前述のように、試薬の命名法のばらつきを統合・標準化するには手作業が必要でした。さらに、オペレーターによってライブラリー合成の特定のシナリオの扱い方にばらつきがありました。このようなケースを特定し、元のオペレーターに相談し、個別に対処しました。この努力の程度は、本研究で使用した最終的な24,203反応と、ライブラリーデータベース内の当初の40,000以上の鈴木カップリングデータポイントとの差に反映されています。データの品質と整合性を高めるために、データポイントのかなりの部分を除外したためです。総じて、我々の経験は、データ科学者をデータセット生成と保存の議論の最初の段階から関与させることの重要性を強調しています。社内では、機械学習に適した方法でデータを取得するために、次世代LIMSの議論の最初の段階からデータ科学者を戦略的に関与させることを決定しました。将来的にモデリングのためにデータセットを活用したいというニーズを予見し、データセット処理の必要性をなくすためです。このような戦略は、企業のELNやその他の化学関連ソフトウェアの開発にも役立つと推測できますが、これは過去には見落とされがちな側面でした。

15年間にわたって収集した24,203の鈴木反応は、反応条件などの他の要因を考慮に入れなくても、コアとモノマーの組み合わせの可能性のわずか3%しか網羅していませんでした。このデータセットには、濃度や温度などのいくつかの条件情報が含まれていませんでした。これらはLIMSによって取得されていなかったためです。たとえば、精製や生成物の安定性に関する情報も取得されていませんでした。これは、単離収率から得られたデータセットをモデル化する際に考慮が難しい要因です。鈴木反応は他の反応タイプよりも反応条件の影響を受けにくいと予想されますが、前述のように、これらの要因は、我々の高品質なライブラリー合成データセットであっても、反応収率予測の分野における大きな課題を例示しています。反応収率に影響を与える可能性のあるパラメータは膨大であり、容易に特定したり定量化したりできないかもしれません。そのため、1つの変換反応の収率を確信を持って予測するために、どれだけの数の反応データポイントが必要で、どのようなデータポイントが必要なのかという疑問が生じます。さらに、単離収率の取得は、例えば粗反応混合物のUV分析と内部標準との比較などに比べて、はるかに労力と時間がかかります。このようなデータセットを構築するために必要な時間と財政的投資は相当なものになる可能性がありますが、多くの企業が社内反応データセットの構築と一元化に着手しています。まとめると、我々がコミュニティとしてこの分野で前進するためには、(1)データを最初からML対応のフォーマットに調和させる方法と、(2)十分に正確な予測を行うための十分な量のデータポイントを取得する方法の2つの重要な要因を考慮する必要があります。

これらの既存の課題にもかかわらず、AbbVie社の15年間の並列ライブラリーデータセットを評価して収率予測モデルを構築することで、DMTAサイクルの設計段階で反応収率予測を将来的に利用できる可能性が示されました。2006年以来、永続的なデータベースを維持してきたことが、本研究に適したデータセットを提供する上で不可欠でした。レトロスペクティブなモデル性能は、ナイーブなベースラインを大幅に上回り、FPおよび/またはDFT表現は、OHEベースのモデルを上回ることで、未知の構造への少なくとも部分的な一般化を可能にしています。本研究では、様々な特徴化手法と機械学習モデルを調査しました。DFT特徴化によりモデルの全体的な性能は向上しましたが、SAR研究のための日常的な創薬設計に合成収率予測を効果的に組み込むためには、計算コストの低いFP表現だけで十分かもしれません。本研究のモデル性能には改善の余地がありますが、FP+DFT特徴量を組み合わせた最良のRFモデルが、専門の医薬品化学者の予測精度を上回ることができたのは喜ばしい結果です。この比較は、このモデルが医薬品化学の設計ワークフローに展開されれば、反応の成功率を高められる可能性を強く示すものでした。さらに一歩進んで、ライブラリーの実施前と実施後の両方で、構造的・電子的に類似し、より高い合成収率が予測されるモノマーを提案することで、並列ライブラリー反応の成功率を高めるモデルの実用的な将来の応用を示しました。我々の知る限り、これは合成結果予測ツールを医薬品化学者が日常的に使用する他の設計ツールと共に設計サイクルに組み込むことができることを初めて示したものであり、SARの取り組みのための全体的な合成効率を大幅に改善する可能性を秘めています。このモデルは、AbbVie社内で、SARの研究を方向付ける上で不可欠な設計ツールの1つとして広く使用されることを想定しており、我々は社内でモデルのDMTAサイクルでの使用に関するケーススタディを実施しています。

現在の我々の取り組みは、未知の反応物構造により適切に一般化するために既存のモデルを補完する実験のデザインと、本稿で詳述した包括的なアプローチを用いた他の並列ライブラリーデータセットの反応収率予測の調査に向けられています。我々は、この研究が他の人々に反応収率予測の分野を調査し、協力して加速するよう触発することを願っています。それが反応データセットのキュレーション/設計の側面であれ、分子の特徴化であれ、新しい機械学習アーキテクチャの開発であれ、です。