Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine
論文タイプ:原著論文
掲載誌:不明
本研究の背景と関連研究:
最近の研究によると、Generative Pre-trained Transformer 4 with Vision(GPT-4V)は、医療の課題において人間の医師を上回る性能を示しているとされています。しかし、これらの評価は主に多肢選択問題の正確さに焦点を当てています。本研究では、GPT-4Vの画像理解の根拠、医学知識の回想、およびステップバイステップの多モーダル推論に関する包括的な分析を行いました。これは、医療専門家の知識と診断能力をテストするために設計された画像クイズであるNew England Journal of Medicine(NEJM)の画像チャレンジを解決する際のGPT-4Vの根拠を評価するものです。
本研究の目的とその重要性:
本研究の目的は、GPT-4Vの根拠に関する詳細な評価を行うことです。これにより、臨床ワークフローにこのようなモデルを統合する前に、その根拠についてさらなる評価が必要であることを強調します。GPT-4Vは多肢選択問題の正確さにおいて高い精度を示していますが、本研究の結果は、正しい最終選択肢を出す場合でも、GPT-4Vがしばしば欠陥のある根拠を提示することを明らかにしました。特に画像理解の場合に顕著です。
本研究で用いた材料やデータの詳細:
本研究では、New England Journal of Medicine(NEJM)の画像チャレンジの問題を使用しました。これは、医療専門家の知識と診断能力をテストするために設計された画像クイズです。GPT-4Vの性能を評価するために、多肢選択問題の正確さだけでなく、画像理解、医学知識の回想、ステップバイステップの多モーダル推論に関する根拠も評価しました。
本研究で何をどのように、どこまで明らかにした?
本研究では、GPT-4Vの性能を評価するために、NEJMの画像チャレンジの問題を使用しました。GPT-4Vは、多肢選択問題の正確さにおいて人間の医師を上回る性能を示しました(88.0%対77.0%、p = 0.034)。また、医師が誤って回答する場合でも、GPT-4Vは80%以上の正確さで解答することができました。しかし、本研究では、GPT-4Vが正しい最終選択肢を出す場合でも、欠陥のある根拠を提示することが多いことが明らかになりました(27.3%)。特に画像理解の場合に顕著です。
本研究の有効性はどのように検証した?
本研究では、GPT-4Vの性能を評価するために、NEJMの画像チャレンジの問題を使用しました。GPT-4Vは、多肢選択問題の正確さにおいて人間の医師を上回る性能を示しました。また、医師が誤って回答する場合でも、GPT-4Vは80%以上の正確さで解答することができました。しかし、本研究では、GPT-4Vが正しい最終選択肢を出す場合でも、欠陥のある根拠を提示することが多いことが明らかになりました。これらの結果は、GPT-4Vの根拠に関するさらなる評価の必要性を強調しています。