ChatGPT-Generated Differential Diagnosis Lists for Complex Case–Derived Clinical Vignettes: Diagnostic Accuracy Evaluation
本研究の学術的背景と核心となる学術的「問い」は、人工知能チャットボットであるChatGPTが、一般内科(GIM)の複雑な症例から生成された鑑別診断の診断精度についてです。具体的には、第3世代と第4世代のChatGPTが、日本の獨協医科大学病院のGIM部門で公開された症例報告から作成された症例ビネットを使用して生成した鑑別診断リストの精度を評価することが目的です。
本研究の目的は、ChatGPTが生成した鑑別診断リストの診断精度を評価することで、その独自性と創造性は、GIM部門の症例報告から作成された複雑な症例ビネットを使用してChatGPTの診断精度を評価するという新たなアプローチにあります。
本研究の着想は、医療現場での診断ミスの削減と、医療の質向上のための新たなツールとしてのAIの可能性にあります。これまでの研究では、ChatGPTの診断精度は64%から83%の範囲にあると報告されていますが、GIM部門から得られた複雑な症例に焦点を当てた研究はまだ行われていません。これが本研究の位置づけとなります。
本研究では、ChatGPT-3.5とChatGPT-4が生成した鑑別診断リストの診断精度を評価しました。結果として、ChatGPT-4が生成した鑑別診断リストの中で正しい診断が得られた割合は、上位10件のリストで83%、上位5件のリストで81%、最上位の診断で60%でした。これらの結果は、他の医療機関のGIM専門医が作成したリストと比較しても遜色ないものでした。
本研究の有効性は、ChatGPTが生成した鑑別診断リストの診断精度を、他の医療機関のGIM専門医が作成したリストと比較することで検証しました。その結果、ChatGPT-4が生成した鑑別診断リストの診断精度は、医師が作成したリストと比較しても遜色ないことが示されました。