見出し画像

Assessing the Quality of Multiple-Choice Questions Using GPT-4 and Rule-Based Methods

1. この研究の学術的な背景、研究課題の核心をなす学術的「問い」は何ですか?
- 答え: 多肢選択問題での問題作成の欠陥が生じると、学生の学習に悪影響を与え、分析結果にも偏りが生じます。これらの問題は、学生が作成する場合に頻繁に発生するため、その品質と教室での使用適性を評価することが困難です。本研究の核心的な問いは、教育資料内での実際の使用を考慮して、多肢選択問題を評価するための既存の方法が、機械的な可読性指標に重点を置いたもので、その教育的な意義を考慮しているかどうかについてである。

2. 本研究の目的及び学術的独自性と創造性は何ですか?
- 答え: 本研究では、多肢選択問題を評価する当社のルールベースの方法を、GPT-4を利用した機械学習ベースの方法と比較し、19の問題作成欠陥に基づいて多肢選択問題を自動評価することを目的としていた。研究結果から、4つの異なる領域から200個の学生が作成した問題を分析したところ、ルールベースの方法は人間による注釈者が特定した問題の91%を正確に検出することができ、一方GPT-4は79%の精度であったことがわかりました。研究では、異なる科目領域の学生が作成した問題に共通する問題作成の欠陥を発見し、根本的なアルゴリズム手法を比較して、本研究のルールベースの方法が、一定以上の学域を横断して高い精度・効率で評価することができること、また、教育的な文脈を含めた要素に対する評価を考慮した方法を提供していることが示されています。

3. 本研究の着想に至った経緯や、関連する国内外の研究動向と本研究の位置づけは?
- 答え: この研究は、多肢選択問題に関連する研究の一部として提起された。既存の検査手法は、主に機械的な可読性指標に基づいており、教育的文脈を考慮していないため、本研究のルールベースの手法は、より高い評価精度を実現できる可能性がある。

4. 本研究で何をどのように、どこまで明らかにした?
- 答え: 本研究では、多肢選択問題に対する評価手法として、ルールベースのアルゴリズム手法とGPT-4を用いた機械学習ベースの手法の2つを比較している。ルールベースの手法によって多くの不備を検出できたことが示され、異なる科目領域の学生が作成した問題に共通する問題作成の欠陥を確認した。

5. 本研究の有効性はどのように検証した?
- 答え: 本研究においては、異なる科目領域の学生によって作成された200の問題を評価し、アルゴリズム手法と機械学習手法による評価の比較を行った。この結果、ルールベースの手法が、異なる分野にまたがる多肢選択問題の評価において、高い精度と効率で評価することができることが示された。

いいなと思ったら応援しよう!