大規模言語モデル(LLM)は臨床上の意思決定に使用可能か? (Nat Med)
Nature Medicineより
Evaluation and mitigation of the limitations of large language models in clinical decision-making | Nature Medicine
要約
臨床上の意思決定は医師の責任の中で最も重要な部分の1つであるが、特に人工知能ソリューションと大規模言語モデル(LLM)が大きな利益をもたらす可能性がある。LLM は医師免許試験で優れた成績を収めることは出来る一方で、これらのテストでは、情報収集、ガイドラインの順守、臨床ワークフローへの統合など、現実的な臨床意思決定への展開に必要なスキルの多くは評価することは出来ない。ここでは、2,400件の実際の患者症例と4つの一般的な腹部病変をカバーするMedical Information Mart for Intensive Careデータベースと、現実的な臨床現場をシミュレートするフレームワークに基づいてデータセットを作成した。現在の最先端のLLMは、すべての病変に関して、患者診断の精度は悪かった(医師よりも有意に悪い成績)。LLMは診断ガイドラインや治療ガイドラインの遵守率は悪く、検査結果を解釈できないため、患者に重大なリスクをもたらすことが分かった。さらに、診断精度以外にも、LLMは指示に従わないことが多く、情報の量と順序の両方に依存するため、既存のワークフローに容易に統合できないことが判明した。今回の分析により、LLMは現在、将来の研究を導くデータセットとフレームワークを提供することは出来るが、自律的な臨床意思決定を行うことには不十分であることが分かった。
所感
現実的には、まだ臨床現場では使えない、ということで、安易に頼りすぎると有害ですらあるということ。ただ、例えば5年先などを見据えた際に、実装に関する規制や法的な問題がクリアできていれば、かなり有用なツールになっているのではないか、とも思う。