ADMEOOD: Out-of-Distribution Benchmark for Drug Property Prediction
https://arxiv.org/abs/2310.07253
1 本研究の学術的背景,研究課題の核心をなす学術的「問い」は?
本研究の学術的背景は、薬物分子に関する正確かつ有効な情報を得ることが重要であり、それは困難な課題であるという点です。また、過去100年間、さまざまな地域や研究室、実験目的から化学の知識と情報が蓄積されてきました。本研究の核心となる学術的な「問い」は、ノイズや不一致が含まれた領域外(Out-of-Distribution)の問題について、その影響を考慮した堅牢性の弱さと満足のいく性能を示すことです。
2 本研究の目的及び学術的独自性と創造性は?
本研究の目的は、薬剤の性質予測に特化した、体系的な領域外データセットの作成とベンチマークの提案です。本研究では、27の薬剤のADME(吸収、分布、代謝、排泄)特性をChemblと関連文献から取得しました。さらに、ノイズシフトと概念の衝突ドリフト(CCD)という2種類のOODデータシフトも含まれています。ノイズシフトは、環境を異なる信頼レベルに分類することで、ノイズのレベルに対応します。一方、CCDは、元のデータ間でラベルが一貫していないデータを記述します。本研究では、さまざまなドメイン一般化モデルでテストを行い、提案されたパーティション手法の効果を実験結果で示しました。
3 本研究の着想に至った経緯や,関連する国内外の研究動向と本研究の位置づけは?
従来の薬物探索プロセスは非常に時間とコストがかかるものです。特に、臨床試験の50%までがADMET(吸収、分布、代謝、排泄、毒性)特性の不備に起因しているとされています。この問題を解決するためには、最大の効率とコスト効果のある方法が急務です。近年、製薬業界では、実験的なADME特性の収集と予測に活用するため、数多くの化合物の実験的ADME特性が収集されてきました。人工知能技術(ディープラーニングなど)の普及により、薬剤の特性予測の劇的な改善が実現しました。しかし、これらの実験的ADME特性は、異なる信頼レベル、単位変換エラー、単一の測定の繰り返し引用など、さまざまな要因が含まれており、ノイズと不一致のOOD問題を引き起こしています。
4 本研究で何をどのように,どこまで明らかにした?
本研究では、薬剤の特性予測に特化した領域外データセットの自動化された管理システムとベンチマークテストを提案しました。また、ChEMBLから大規模なバイオアッセイデータセットの管理と必要な27のADME特性のフィルタリングを行いました。特に、領域特定のドメインを生成し、データ環境を注意深く設計するための2つのアプローチを提供しました。ノイズシフトとCCDというデータシフト手法も提案し、これらに基づいた一連のOODデータセットを構築しました。さらに、24のデータセットインスタンスで4つの現代的なOOD一般化アルゴリズムをテストし、実験結果を比較分析することで、徹底的なOODベンチマークテストを行いました。また、薬剤の特性予測におけるノイズによるOOD研究に対する洞察を得ました。
5 本研究の有効性はどのように検証した?
本研究では、提案されたベンチマークを使用して、さまざまなドメイン一般化モデルの性能を評価しました。実験結果は、ADMEOODでのパーティション手法の有効性を実証しました。ADMEOODは、内部分布と領域外データの間で著しい違いを示しました。また、ERM(経験リスク最小化)および他のモデルは、異なるドメインと測定タイプに対して明確な性能トレンドを示しました。これにより、提案手法の効果を検証しました。