AMIE: 会話型医療AIは総合診療医よりも高い診断性能を発揮する！

2024年7月19日 11:50

記事執筆者：大塚（バックエンドエンジニア）
レビュアー：稲森瑠星（医療AIコミュニティ運営者）

3つの要点

診断対話に最適化された会話型医療AIであるAMIEを開発した。
従来の自然言語で使われるような評価指標では、医学的妥当性等の評価において適切ではないため、新たな評価指標を設計した。
AMIEは診断対話において総合診療医よりも総合的に高い性能を発揮した。

Towards Conversational Diagnostic AI

Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan
Published Online:Jan 11 2024 https://doi.org/10.48550/arXiv.2401.05654

この記事に含まれる画像は、論文や紹介スライド、またはそれらを参考に作成されたものです。

医療におけるLLMの有効性について

医療の現場では日々多忙な医師たちが、時間と労力を最適化するための新たなアプローチを模索している。特に医師は長時間に及ぶ時間外労働が問題となっているため、近年では「医師の働き方改革」が実施されている。

しかし、この改革によって今まで青天井に実施されていた時間外労働に上限を設けたとしても、必要な労働の総量は変わらない。そこで、医療行為のうち一部の特定行為を、特定行為研修を受けた看護師でも実施できるようにするといった形で、タスク・シフト / シェアの動きが出ている。

このタスク・シフト / シェアに、LLMは利用できないだろうか。
そこで今回題材とした論文で紹介されている医療LLMのAMIEが役に立つ可能性が出てくる。

AMIEとは

診断対話に最適化された会話型医療AIとして、AMIEは設計された。
基本的にはテキストベースでの診断を想定しているため、一般的に想起される対面での実診療とは少し設定が異なることに注意が必要である。

主なモデルの特徴としては以下の4点が挙げられる。

多様な医療タスクでの学習：診断だけでなく、医療に関す知識の一問一答や要約など、様々なタスクを学習している。
シミュレーション環境での学習：実際の医療データには限りがあるため、AIが自分自身と対話を行う「自己相互対話」という手法を用いて、より多くの仮想的な症例を学習している。
指示による出力の調整：与えられた指示に応じて、適切な形式で回答を生成できるよう訓練されている。（Instruction Tuning）
自然な対話の実現：会話の文脈を考慮しながら次の応答を生成することで、より自然な対話を実現している。（Chain of Thought の会話版）

医療分野におけるLLMの評価

AIの性能を評価する際、通常は正確さ（Accuracy）やF値といった指標が使われる。しかし、医療分野では、これらの指標だけでは不十分である。これは、以下のような医療分野特有の評価の視点によるものである。

感度の重要性：医療では「見逃し」が重大な結果につながる可能性があるため、病気を正しく検出する能力（感度）が特に重視される。
医学的妥当性：生成された文章が文法的に正しいだけでなく、医学的に正しい内容である必要がある。

自然言語処理の世界では、特に生成モデルの評価指標として、ROUGEやBLEUといった定量的な指標が用いられる。しかし、医療分野で生成モデルの評価を行う際に重視される指標に一般的に普及しているものはあまり存在しない。仮にそのまま自然言語処理の自動評価指標を医学分野の評価指標に使用した場合、内容の医学的妥当性といった部分の評価が困難といった問題がある。そのため、AMIEの評価には新たな指標が開発された。

AMIEの評価方法

AMIEの性能を正確に評価するため、以下の方法が用いられた。

客観的臨床能力試験（OSCE）を基にした評価指標：医学生の臨床能力を評価する試験を参考に、AIの性能を測る指標を作成した。
専門医による評価：実際の医療現場の専門医がAIの性能を評価した。
専門医を模倣したAIによる評価：評価の一貫性を保つため、専門医の判断を模倣するAIも評価に使用された。

AMIEの性能評価

診断性能

上記は推薦システムで使用されるランキング指標を用いて、診断性能評価結果を表している。具体的にはある特定の症例において、考えられる診断結果をランキング形式で指定し、そのAccuracyを測っている。

赤線がAMIE、青線が総合診療医とのスコアとなっている。見ての通り赤線が青線よりも上に出ており、AMIEの方が診断性能が高いことがわかる。

しかし、この結果から医師よりもLLMの方が診断性能が優れているとは断定出来ない。前述した通り、この結果はテキストによる診断となっており、対面での実診療とは異なる。そもそも医師がテキストでの診断に慣れていない、加えて対面での診療の場合ノンバーバル情報を使用できることから、対面による診療では医師の方が診断精度が高いことが予想される。

今回の結果は、あくまでも通常とはことなる仮想的な環境での結果という部分に注意が必要となる。

会話の質

上記の図は、患者役が会話の質を様々な観点から5段階評価を行った結果を表している。
「患者のプライバシーを尊重する」と「間違いを認める」という項目以外では、AMIEの方が統計的有意に質が高いと評価されている。

今度の図は専門医が同様に評価を行った結果を示している。こちらの場合は32の評価項目のうち、28の項目においてAMIEの方が質が高いと評価されている。

これらの結果にも注意が必要な点が存在する。前提として今回の設計が医師が十分にパフォーマンスを発揮できる設計になっていないことに加え、LLM特有の特徴も存在する。例えば患者は医師との診察時間が長い方が、診察に対する満足度が高いという特徴が存在している。今回医師とLLMでLLMの方が長文のテキストを返したという特徴が出ている。この特徴は診断時間の満足度と極めて似ており、長文のテキストが返された方が、より会話として丁寧な印象を持つ可能性がある。医師のテキストの執筆とLLMのテキスト生成では、明らかにLLMの方が必要な労力は少ない。
そのため、楽に長文を生成できるLLMの方が、解答が長くなり、それが会話の質に影響する可能性も存在している。

記事執筆者大塚（バックエンドエンジニア）の感想

今回は「Towards Conversational Diagnostic AI」を通して、医療LLMの紹介を行った。条件設定の問題から、完全に医師の診断を代替するとは言えないものの、性能面では十分に使用できる水準に達しているように思われる。
一方でまだ安全性の問題から、AMIE作成時に使用したコードやモデルは公開されておらず、再現することは難しい。将来的に安全なLLMが開発され、医療現場に投入されることで少しでも医師の負担が軽減され、医療の質向上につながることが期待される。

レビュアー稲森瑠星（医療AIコミュニティ運営者）の感想

近年、ChatGPTやGemini, Llamaなど様々な企業が独自に大規模言語モデル（LLM）を開発している。一般的なLLMは汎用的な使用を想定しているため、特定の特化した分野では、性能が発揮されない場合もある。それに伴って、Med-PaLMなど医療に特化したLLMの開発・研究も行われている。今回の論文は、医療に特化したLLMの研究における重要な知見と言えるだろう。

Callistoについて

東大発スタートアップCallistoは、医療AI／創薬AIの研究開発にすぐ使える医用画像データプラットフォームを手掛けています。医療施設が提供した放射線画像や病理画像（と臨床情報・分子診断結果）に取捨選択～アノテーション～標準化を施し、匿名加工情報の形で医療AI企業・医療機器メーカー・製薬企業などに販売します。また、これらのデータセットも活かしつつ、創薬AI／医療AIの受託開発やコンサル、マーケティングも行っています。データ提供施設には、データセット利用による売上の一部を還元することで、持続可能なエコシステムを実現します。
https://callisto-ai.com/