GPT-4 in Nuclear Medicine Education: Does It Outperform GPT-3.5?

2023年10月26日 10:00

1 本研究の学術的背景，研究課題の核心をなす学術的「問い」は？
この研究では、教育機関における学術的誠実性への影響について、ChatGPTの登場がもたらした問題に焦点を当てています。特に、核医学の訓練を提供する教育機関において、ChatGPTの使用による学問的な書き方の制約や学生の評価に対する影響について評価する必要がありました。

2 本研究の目的及び学術的独自性と創造性は？
この研究の目的は、GPT-4という新しいモデルの評価によって、学問的な書き方や試験の評価におけるChatGPTの潜在的な利用価値を明らかにすることです。これにより、GPT-4の機能や性能についての理解を深めることができます。また、この研究はChatGPTの潜在的な課題にも焦点を当て、学術的誠実性へのリスクや問題を明らかにすることにも貢献しています。

3 本研究の着想に至った経緯や，関連する国内外の研究動向と本研究の位置づけは？
この研究は、ChatGPTの先行研究から着想を得ています。以前の研究では、GPT-3.5というモデルを使用して核医学と放射線療法の科目において試験や課題を行い、学生の評価と比較しました。これにより、ChatGPTの性能や限界についての理解が進んでいます。また、国内外の研究では、ChatGPTの利点や潜在的な問題に関しても議論されており、ChatGPTの使用が学術的誠実性に与える影響に関心が寄せられています。

4 本研究で何をどのように，どこまで明らかにした？
本研究では、核医学の科目においてGPT-3.5とGPT-4を使用して試験や課題を実施し、その結果を評価しました。具体的には、GPT-3.5の性能が計算の試験では低い（31.4%）、一方でGPT-4では高い（59.1%）ことがわかりました。また、GPT-3.5は3つの書き込みの課題で失敗し（39.9%）、GPT-4はすべての課題を合格しました（56.3%）。これにより、GPT-4は学生の支援ツールとしての有用性が向上していることが示されましたが、幻想や捏造のリスクは依然として存在しています。

5 本研究の有効性はどのように検証した？
本研究では、Turnitinソフトウェアを使用してGPT-3.5とGPT-4の応答を評価し、人工知能スコアと標準化された評価基準との比較を行いました。さらに、学生の成績と比較することにより、ChatGPTの評価方法と学生のパフォーマンスとの関連性を検討しました。これにより、ChatGPTの性能やリスクを客観的に評価することができました。

GPT-4 in Nuclear Medicine Education: Does It Outperform GPT-3.5?

いいなと思ったら応援しよう！