Assessment of Resident and AI Chatbot Performance on the University of Toronto Family Medicine Residency Progress Test: Comparative Study
1 本研究の学術的背景は、大規模な言語モデル(LLM)に基づくチャットボットが急速に進化しており、特にGPT-3.5とその後継モデルGPT-4によって、一般的なタスクや言語生成において様々な教育試験基準で優れた性能を発揮している点にあります。これら2つのLLMモデルと家族医学の医師の複数選択肢の医学知識テストでの性能を比較することで、医学教育ツールとしての可能性を探ることができます。本研究の「問い」は、GPT-3.5、GPT-4、そして家族医学の医師が家族医学の専門家レベルで適切な複数選択肢の医学知識テストでどのように性能を発揮するか、ということです。
2 本研究の目的は、GPT-3.5、GPT-4、そして家族医学の医師の複数選択肢の医学知識テストでの性能を定量的および定性的に比較することです。独自性と創造性は、GPT-3.5とGPT-4の間における違いを明示し、その結果を家族医学の医師と比較した上で、学問としての人間の役割とAIの役割を再評価できる可能性にあります。
3 本研究はAIベースのチャットボットの開発というテクノロジーの進歩から着想を得ました。これらのチャットボットは複雑な問い合わせを人間のように反応するために設計されており、質問の応答、説明と要約の生成、言語間の翻訳など、自然言語関連の様々なタスクに使用されています。本研究は、高度な言語モデルの性能を、家族医学の研修医と比較することで評価しようとするものです。
4 本研究では、トロント大学家族医学部門の公式進行テストでGPT-3.5とGPT-4のパフォーマンスを評価しました。テストの正誤、応答の長さと時間、答えの理由付け、正しくない回答の根本的な原因などを分析しました。結果として、GPT-4はGPT-3.5と家族医学の研修医の両方より優れたパフォーマンスを示し、正確かつ効率的に他の回答選択肢を排除し、選択理由を明確に説明することができました。これらの結果はGPT-4が医学教育の潜在的な応用、試験問題の作成や医学知識の資源などに有用であることを示します。
5 本研究の有効性は、トロント大学家族医学部門の複数選択肢の進行テストを用いてGPT-3.5とGPT-4の性能を評価し、同時期にテストを受けた家族医学の研修生と比較することで検証しました。