見出し画像

Comparing the Performance of Popular Large Language Models on the National Board of Medical Examiners Sample Questions

https://assets.cureus.com/uploads/original_article/pdf/203719/20240312-25181-1v7yeok.pdf

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

  1. 本研究の背景について、詳しく説明してください。
    この研究は、大規模な言語モデル(LLM)の性能を比較することを目的としています。LLMは、医学のさまざまな領域で使用され、複雑なタスクや臨床的な意思決定を支援しています。特に、OpenAIのGPT-4、GPT-3.5、GoogleのBard、およびAnthropicのClaudeは、広く使用されています。これらのモデルの中で、GPT-4はいくつかの研究で優れた性能を示していますが、これらのモデルの包括的な比較はまだ限られています。この研究では、医学生の臨床的な知識を評価するためのNational Board of Medical Examiners(NBME)の試験問題における人気のあるLLMの正確性を比較することを目的としています。

  2. 本研究の関連研究について、詳しく説明してください。
    以前の研究では、個々のLLMが特定の医学資格試験に合格する能力を示していますが、異なるLLMの性能を比較する研究は限られています。最近の研究では、GPT-4が神経外科、整形外科、一般外科など、さまざまな医学の専門分野に関連する質問において他のLLMよりも優れた性能を示しています。さらに、GPT-4は前任のChatGPTよりも米国医師免許試験(USMLE)のソフトスキル試験で優れた性能を発揮し、技術的な知識に加えて共感の能力を示しました。このような潜在能力を考慮すると、医学教育や臨床実践におけるLLMの能力を評価することに関心が高まっています。

  3. 本研究の目的について、詳しく説明してください。
    本研究の目的は、人気のあるLLMの性能をNational Board of Medical Examiners(NBME)の臨床科目試験のサンプル問題において比較することです。LLMの能力を考慮すると、この研究の結果は、特定のLLMが他のLLMよりも優れた利点を持つ可能性を示すことができます。

  4. 本研究で用いた材料やデータについて、詳しく説明してください。
    本研究では、公式のNBMEウェブサイトから入手した複数選択問題を使用しました。これらの問題は無料で一般に利用可能です。医学、小児科、産婦人科、臨床神経学、外来診療、家庭医学、精神医学、外科のNBME臨床科目試験の問題と、NBMEサンプル総合臨床科学試験の問題を使用しました。各試験には、19または20の問題があります(家庭医学は5問)。すべての問題を使用し、問題は省略されませんでした。

  5. 本研究で何が明らかになったか、詳しく説明してください。
    本研究の結果、GPT-4はNBME臨床科目試験のサンプル問題において優れた性能を示しました。LLMは医学教育や臨床実践において有望なツールですが、時折不正確な情報もあるため、その適用には注意が必要です。技術の進歩に伴い、LLMの信頼性と関連性を維持するためには、定期的な再評価と改善が重要です。

  6. 本研究の有効性をどのように検証したか、詳しく説明してください。
    本研究では、各LLMが提供する回答をNBMEが提供する正解と比較し、正確性を確認しました。163の問題を各LLMにクエリし、GPT-4は163/163(100%)、GPT-3.5は134/163(82.21%)、Claudeは138/163(84.66%)、Bardは123/163(75.46%)の正解率を示しました。GPT-4の総合的な性能は、GPT-3.5、Claude、およびBardよりもそれぞれ17.8%、15.3%、24.5%優れていました。GPT-3.5、Claude、およびBardの総合的な性能には有意な差はありませんでした。GPT-4は、医学、小児科、家庭医学、外来診療のような特定の科目でBardを、外来診療と家庭医学でGPT-3.5を有意に上回りました。すべてのLLMを対象にした場合、外科試験が最も高い平均点(18.25/20)を持ち、家庭医学試験が最も低い平均点(3.75/5)を持っていました。

いいなと思ったら応援しよう!