Collaborative analysis for drug discovery by federated learning on non-IID data
https://www.sciencedirect.com/science/article/abs/pii/S1046202323001445
1. 本研究の学術的背景には、大規模な定量的構造活性相関(QSAR)データセットの利用可能性が増したことがあります。それにより、薬物発見の新たなアプローチとして協同分析が可能となりました。その一方で、核心となる学術的「問い」は、データのプライバシーとセキュリティの課題が生じる伝統的な集中型分析と、原始データの共有なしに協同モデルの訓練を可能にする分散型分析の間の対立です。
2. 本研究の目的は、非独立同一分布(non-IID)データセットに対するfederated learningを用いた協同薬物発見の新しいフレームワークを提案することです。この研究の独自性と創造性は、すべての機関間で小さなデータ部分集合を全体的に共有することで、非IIDデータの訓練難しさを解決し、個々のデータのプライバシーを保護しながら複数の機関が堅牢な予測モデルを共同で訓練できるフレームワークを提供していることにあります。
3. 本研究の着想は、薬物発見の研究におけるデータ問題、特にデータのプライバシーとセキュリティの課題から生まれました。本研究は、データプライバシーを尊重しながら、効果的な協同分析を可能にする新たなアプローチとして位置づけられます。
4. 本研究では、非IIDデータセットに対するfederated learningを用いた協同薬物発見の新しいフレームワークを提案し、その有効性を示しました。実験結果は、データのプライバシーを尊重しながら、提案した方法が中央集中型分析と同等の予測精度を達成することが示されました。
5. 本研究の有効性は、15のベンチマークデータセットを用いた実験結果により検証されました。その結果、提案したフレームワークが、データの送受信の削減および拡張性の向上等の利点を提供し、大規模な協調しての薬物発見作業に適していることが確認されました。