Performance of the Pre-Trained Large Language Model GPT-4 on Automated Short Answer Grading
本研究の学術的背景と研究の核心となる学術的な「問い」は、「自動短答採点(ASAG)において、特別な追加訓練が無い一般的なツールが、特化したモデルとどの程度比較できるのか?」です。ASAGは、一体化形式の応答に対する教員の採点とフィードバックを、評定者の可用性が限られている大規模なコースで可能にすることを約束する機械学習研究の活発な領域であり、GPT-4等の事前訓練された大規模言語モデル(LLM)が新たな可能性を示しています。
本研究の目的は、GPT-4という事前訓練された一般目的性のLLMの性能を評価し、それが手作業で設計されたモデルや専用の訓練を受けたLLMとどのように比較できるかを明らかにすることです。学術的な独自性と創造性は、一般的なツールを用いて特殊なタスクに取り組む試みにあります。
本研究の着想は、大規模な授業における学生の理解を自動的に採点し、フィードバックを提供することの困難さから来ています。教育におけるAIの利用が盛んになる中で、ASAGが特に注目を浴びていました。これまでのASAGのモデルは、具体的な採点タスクのために明示的に訓練されることが一般的でしたが、最近のLLMの登場によりその傾向が変わりつつあります。
本研究では、標準的なベンチマークであるSciEntsBankとBeetleの2種類と3種類のデータセットを用いて、GPT-4の性能を評価しました。結果として、事前訓練された一般目的のGPT-4 LLMの性能は、手作業で設計されたモデルと同等で、しかし特化訓練を受けたLLMよりは劣ることが明らかになりました。
本研究の有効性は、標準に対する学生の回答の採点だけでなく、参考答えを抑制する形で検証しました。その結果、GPT-4は質問だけに基づいて学生の回答を適切に採点することが可能であることが示されました。
この記事が気に入ったらサポートをしてみませんか?