定期考査の自動採点GPT-4oでやってみた

椋本哲也

2024年6月9日 21:16

GPT-4oの手書き文字認識が素晴らしいので、定期考査の採点に使えないか2つの視点から実験してみました。
・手書き解答用紙の自動読み取り
・解答の自動採点(特に自由記述部分)

※あくまでも「業務」としての採点ではなく、個人的な「実験」です。データは問題作成した教員と答案作成した生徒の許諾を得た上で個人情報を消してから処理しています。

最初に結論

結論から言うと、「今のところまだ実用にならない」というのが正直な感想です。
理由は２つ。

実用にならない理由その１　解答用紙の様式が独特すぎる

まあ、はじめに試したのが国語で、縦書きだったり文字数制限のための一文字一枠の造りだったり、他教科よりも特殊性が高いというのもあります。

読み取った結果、問題番号と読みとる枠が合致せず、プロンプトで「縦書きです」とか「大問が１～4まであります」「大問１は問一～十四まであります」「問一はa～eまで回答欄があります」とか、とにかく細かく指示してみましたが、なかなかうまく読みとってくれません。
英語の答案でも試してみましたが、やはり読みとる場所が安定しませんでした。
プロンプト以外にもいくつか対策を試してみました。
・特定の解答欄を赤枠で囲んだ用紙を一枚読みとらせ、「他の答案もこの枠の範囲を読みとってください」とプロンプトで指示
→うまく読み取れたものもあるが、前後の文字まで読んでしまうこともあった(不安定)
・事前に画像処理して、解答欄一つずつの画像を作成して読みとらせる
→当然、枠の範囲間違いは無くなったが、手書き文字認識の精度が落ちる

「使えない」と判断した２つ目の理由にもつながるのですが、GPT-4oの認識率が高いと感じるのは「前後の文脈や状況からの推論」に依るところが大きく、単体の文字認識の精度が既存のOCRよりも格段に高いわけではなさそうです。
そうであるなら、手書き答案用紙の読み取りについては、「工夫次第では絶対に使えないということもないが、そこまで手をかけるなら既存のアプリを使った方が良い」というのが現時点で自分が出した結論です。

実用にならない理由その２　「GPT-4oが賢すぎる」ということ

この点は大学入試センターのCBTに関するシンポジウム（https://www.dnc.ac.jp/research/kenkyukaihatsu/symposium.html）でも指摘されていましたが、生成AIに自動採点させると「間違いを勝手に正してしまう」ということが起こります。
先ほども触れましたが、他のOCRと比べてGPT-4oの読み取り精度が高いと感じる理由は、推論して補正する能力が高いことに依ると想像しています(あくまで個人の想像です)。
その結果、スペルミスや漢字の間違いを勝手に補正してしまうという、「正しく書けるか」を問う試験としては致命的な現象が生じることになります。

さらに、前後の文脈などから推論する能力が高く、前後の答案（別の生徒の解答）と比較して修正してしまう（と思われる）様子すら見られました。
「40文字程度で本文から抜き出せ」という問いで、読み取った10名のうち8名が全く同一の解答だったので元の答案を見てみると、読み取ったままの文を書いていた生徒は3名。全く別の文を書いた2名を除く残り5名は、微妙に前後にずれたところを書いていたり、途中までしか抜き出していない状況でしたが、AIが適切と判断した解答に自動的に修正されたようです。
さすがにこれでは採点になりません。

まとめ

手間と工夫で何とかなるかもしれないが…

現在東京都では「リアテンダント」という採点ソフトが導入されています。

自分はほとんど使っていないのですが（考査はCBTで実施してるので）、他の先生方の様子を見ていると、解答欄を設定するのがめんどくさそうと感じたところから今回の検証の前半は始まっています。
今のところ、頑張ってGPT-4oで解答欄を読ませる意味はなさそうです。
後半の自動採点も、デジタルデータになった解答の完全一致を確認するだけなら、Excelの関数一つでできることですよね。

私的な雑感

あまり言うと敵を作るかもしれませんが、
手書きで試験する必要あるのでしょうか？
CBTでよくないですか？
というか、完全一致で採点できるような定期考査って必要ですか？
生徒が論述し、それをGPTで採点させるような試験はどうでしょう？