大規模言語モデル(GPT-4)を用いた診断・トリアージの精度は、専門医資格を有する医師と遜色ないことが明らかに
GPT-4の臨床現場での活用可能性の評価のため、既存の臨床事例を用いて臨床診断・トリアージの精度について研究しました。TXPメディカル社のリサーチチームとの共同研究です。
その結果、GPT-4の診断・トリアージ精度は救急・集中治療専門医らと遜色ないことが明らかになりました。加えて、臨床事例に人種・民族的バイアスの情報を追加した際にも、GPT-4の精度に大きな変化は見られませんでした。
研究の背景
大規模言語モデル(LLM)の進歩により、医療分野でも診断やコミュニケーションの改善が期待されています。しかしながら、医療分野においては不正確な情報が健康結果に悪影響を及ぼす可能性があるため、医療分野での会話型AIの実装には注意が必要です。さらに、会話型AIは人種および民族的な偏見によって歪められた可能性のあるインターネット情報から学習を行っていることから、LLMが人種および民族的な偏見を再現、強化しているのではないかという懸念も提起されています。そのため、診断やトリアージの正確性、さらにはその提案に人種および民族的な偏見が含まれているかどうかについての調査が行われる必要があります。
そこで私達は、既存のLLMの中でも特に巨大かつ高性能とされているモデルであるGPT-4と、3人の専門医資格を有する医師との間で、45の典型的な臨床事例を使用して診断およびトリアージの正確性を比較しました。また、患者の人種と民族性(黒人、白人、アジア人、ヒスパニック)の情報を臨床事例に追加し、GPT-4の診断およびトリアージの正確性が人種間で異なるか否かを調査しました。
その成果については査読付きのオープンアクセスジャーナルである『JMIR Medical Education』に2023年11月2日掲載されています。
GPT-4の診断・トリアージ精度は専門医資格を有する医師と遜色がない
この研究では、GPT-4と専門医資格を有する医師の両方に45種類の典型的な臨床事例の臨床情報を与え、それに対する診断とトリアージの精度を定量化しています。GPT-4は診断性能において97.8%(44/45)の割合で正確な回答を出力し、医師は91.1%の割合(41/45)で正確な回答をしました。また、臨床情報の緊急度を①緊急, ②緊急ではないが病院へ行くのが妥当, ③非緊急 (病院へ行く必要なし)の3段階に分類するトリアージの正確性において、GPT-4は66.7%の割合(30/45)で正確な回答を出力しました。同様に、医師も66.7%の割合(30/45)で正確な回答を出力しました。
GPT-4の診断・トリアージでは人種・民族的な情報によるバイアスは見られなかった
さらに、GPT-4に入力する典型的な臨床事例について、患者の人種・民族に関する情報として白人、黒人、アジア人、ヒスパニックのいずれかの情報を追加したうえで更なる解析を行いました。私たちが調査した範囲では、GPT-4が人種・民族的バイアスにより受ける診断・トリアージの精度への影響は検出されませんでした。結果は以下の図にまとめられています。
今回の研究を通じて
今回の研究では、典型的な臨床事例を用いて臨床診断・トリアージにおけるGPT-4の精度を評価し、その精度が専門医資格を有する医師と比べて遜色がなく、かつ人種・民族的バイアスに対して影響を受けにくい可能性が示唆されました。
研究の詳細
"Accuracy and racial bias of Generative Pre-trained Transformer-4 (GPT-4) for diagnosis and triage of health conditions"
GPT-4の臨床診断・トリアージにおける精度を調査し、さらに、人種・民族的バイアスがGPT-4の出力に影響を与えるかについても明らかにする。
調査対象:GPT-4 (OpenAI Inc.) on March 15th, 2023
比較対象:3人の専門医 (救急専門医2名、感染症およびに集中治療の専門医1名)
評価基準とした臨床情報:45種類の典型的な臨床事例
雑誌:JMIR Medical Education 2023;9:e47532
日本語版プレスリリースはこちら
※当サイトの情報を転載、複製、改変等は禁止いたします。
この記事が気に入ったらサポートをしてみませんか?