Selective UMLS knowledge infusion for biomedical question answering
1. **学術的な背景と研究の問い**
生物医学領域における人工知能の応用の一つは、特定の知識を必要とする質問応答です。この領域では専門知識が特に重要なため、私たちは生物医学の知識を事前に訓練された言語モデルに効率的に注入する方法を提案しています。大規模な知識グラフすべてのセマンティクス(意味情報)をモデル全体に転送することは、計算費用、時間、パラメータ数を増大させます。ここでの研究の問いは、「知識グラフのすべてのセマンティクスを使う必要があるのか、そしてそのセマンティクスを効率的に利用するためのアプローチは何か」です。
2. **研究の目的および学術的な創造性と独自性**
本研究の目的は、Unified Medical Language System(統一医療言語システム)の知識を事前に訓練された言語モデルに注入するためにアダプターを活用する、効率的なアプローチを探ることです。特に、知識グラフの効率的なパーティショニング(部分化)と、いくつかの部分の結合または廃棄に焦点を当てています。
3. **着想の経緯と本研究の位置付け**
生物医学の質問応答における言語モデルのパフォーマンス向上のための効率的な方法を追求する必要性が本研究の着想に繋がりました。この研究は、特定の知識が必要な質問応答のための言語モデルの効率的な訓練手法を開発するという新たな研究アプローチを提案しています。
4. **何をどのように明らかにしたか**
本研究では、3つの生物医学の質問応答に対するファインチューニングデータセットを用いて、セマンティックにパーティション化されたグループに対する事前トレーニングアダプターが、評価指標、必要なパラメータ、時間という観点でより効率的な性能を示すことを明らかにしました。また、小さなデータセットに対しては、概念数が少ないグループを捨てることが、大きなデータセットに対しては、これらのグループを統合することがより良い方向性であることも示しました。
5. **有効性の検証方法**
アダプタ手法の有効性は、評価指標によるパフォーマンス、必要なパラメータの数、所要時間を評価することで確認しました。また、具体的なグループ形成に対するアダプタ手法の不感応性を示す微細な改善も指摘しました。