Evaluating the efficacy of leading large language models in the Japanese national dental hygienist examination: A comparative analysis of ChatGPT, Bard, and Bing Chat
https://www.sciencedirect.com/science/article/pii/S1991790224000564
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。
本研究の背景は、大規模な言語モデル(LLM)が医療や歯科の分野で教育ツールとしての潜在能力を持つことが示されていることです。具体的には、OpenAIのChatGPT、GoogleのBard、MicrosoftのBing ChatなどのLLMが、人間のような対話能力を持ち、仮想アシスタントやチャットボット、オンライン学習支援システムなどの教育環境での利用に大きな可能性を秘めていることがわかっています。医師や看護師、薬剤師の国家試験での評価結果からも、LLMの教育支援ツールとしての潜在能力が示されています。しかし、日本の国家歯科衛生士試験におけるLLMの評価はまだ行われていないため、本研究では日本の国家歯科衛生士試験の問題を使用して、LLMの効果を評価しました。
関連研究としては、GPT-3.5やGPT-4、Bard、BingなどのLLMの性能を医療や歯科分野で評価した報告があります。これらの研究では、テキスト情報のみを対象にして正答率を評価しており、医師や歯科医師の国家試験などでの評価結果が報告されています。また、ChatGPT-4はGPT-3.5よりも歯科の知識を持っていることが報告されており、これらの研究結果からLLMの性能は進化しており、医療や歯科分野での教育支援ツールとしての潜在能力があることが示されています。
本研究の目的は、日本の国家歯科衛生士試験の問題を使用して、LLMの教育支援ツールとしての潜在能力を明らかにすることです。具体的には、LLMのChatGPT-3.5、GPT-4、Bard、Bing Chatを使用して、テキスト情報のみを対象にした問題の正答率を評価しました。これにより、LLMが歯科衛生学習において教育支援ツールとしての優れた潜在能力を持つかどうかを明らかにすることを目指しました。
本研究では、2023年3月に実施された第32回日本国家歯科衛生士試験の問題から73問を分析しました。分析にはLLMのChatGPT-3.5、GPT-4、Bard、Bing Chatを使用しました。各問題は9つのカテゴリーに分類され、統一されたプロンプトがすべてのLLMに使用されました。統計分析にはフィッシャーの正確確率検定が適用されました。
本研究の結果、GPT-4が最も高い正答率(75.3%)を達成し、Bing(68.5%)、Bard(66.7%)、GPT-3.5(63.0%)の順に続きました。LLM間には統計的に有意な差はありませんでした。また、問題のカテゴリーによって性能が異なり、すべてのモデルが「疾患のメカニズムと回復プロセスの促進」のカテゴリーで優れた正答率(100%)を示しました。特に、GPT-4は複数の回答がある問題で他のモデルよりも優れた性能を発揮しました。
本研究では、日本の国家歯科衛生士試験の問題を使用して、LLMの正答率を評価しました。その結果、GPT-4が最も高い正答率を達成し、LLMが歯科衛生学習において有効な教育支援ツールとなりうることが示されました。また、LLMの性能は問題のカテゴリーによって異なることも明らかになりました。ただし、LLMの能力は常に変化し改善される可能性があるため、今後の研究や開発が必要です。