ChatGPTを使用して、解答を作らせたり採点を自動化できるか実験①(小学生・算数編)
ChatGPTは写真やPDFの内容を解析し、例えば数学の問題を解いたりといったことができると謳われています。
しかし、会話のやりとりでもまだ間違いが多々見受けられる会話型のAIです…果たしてどこまで信頼して良いのか、今回は問題のレベルを少し下げて小学生の算数の問題をどのくらいの精度で解答を導き出したり、採点をすることができるのか検証していきます。
写真を読み取って解答を生成することはできるか検証
まずは簡単な問題から検証する為、小学校2年生の算数「ひょうとグラフ」の問題で試します。
今回検証に使用したものは、教材を販売している会社がサンプルとして公開していたページですので、著作権を尊重する為、ここでは実際の問題の写真は載せられないことをご承知おきください。
問題のイメージは以下の画像のような感じで、学校のテストに非常に似た形式です。
まずは、上記の問題の写真を添付して「このテストの解答を作成してください」と指示しました。
写真などのファイルの添付の仕方は、メッセージを入力する場所の左側にあるクリップマークをクリックしてファイルを選択。スマホ版の場合も同様にフォルダのアイコンや写真のアイコンをタップします。尚、カメラのアイコンをタップすると、カメラが起動し、取った写真をすぐに添付することも可能です。
画像の解析が終わると、解答が生成されました。1分もかからず、あっという間です。
問題の写真から、花やくだものの名前などをちゃんと読み込めていることが分かります。
しかし、AIが導き出した解答が正しいか細かく見ていくと、やはり間違いが含まれていました。
まず、1問目の花の問題ですが、実際の表の花の数は、
チューリップ:9
パンジー:6
すいせん:4
ヒヤシンス:5 です。
つまり、表の中に数字が書いてあるにも関わらず、正確に読むことができていない結果になりました。
2種類の花の数の違い(差)がいくつかなどを聞いている問題文自体はちゃんと読めているものの、読み取っている数が違う為、回答も誤答だらけでした。
次に2問目の果物の数についてですが、こちらもイラストからそれぞれの数を正確に読み取ることができず、生成された解答も誤答でした。
読み取りの精度を上げることは可能か検証
では、読み取りの精度を上げることは可能なのか検証をしてみます。
精度を上げる方法はあるのか検証していきます。
まず、問題1と問題2で分けて写真を添付して、写真一枚あたりの情報量を減らしてみました。(写真は先述の通り、実際の問題の写真が映らないようにしています。)
2問目については全く同じ結果でしたが、1問目の解答に変化が見られました。
なんと設問4つとも正確に回答することができ、グラフに●を記入することについても理解していました!
2問目については、同じ数え方をして間違えている為、果物のイラストの部分のみに絞った画像を添付し、再度数えるよう指示しましたが、それでも結果は変わりませんでした。
元の写真のままでは無理だと判断し、一手間加えてみます。
それぞれの果物に違う色の印をつけ、再度アップロードしました。
残念ながらいちごに関しては、表に数字で書いてあるのにも関わらず間違えてしまい、バナナとみかん以外の数についても間違えて回答しています。
つまり、イラストが分かりづらいということではなく、色のデータから読み取ることにも失敗していることを意味します。
小学2年生のレベルでつまづいてしまっています。正しい数をチャットで入力することで、正しい解答を生成することはできましたが、この精度では写真をどんどん取り込み採点を先生の代わりにやらせるのは、かなり厳しいと思われます。
イラストやグラフのない問題で検証
グラフの読み取りが苦手なだけで、計算などについては正確なのかを検証してみます。
この検証で使用させていただいたのは、富山県学習応援サイト きときと とやまっ子 学習応援サイト「家庭学習のすすめ」の内にある小学校6年生の範囲から出題されているPDFファイルです。
まずは先ほどの写真の添付と同じ手順でPDFファイルを読み込ませ、解答を作成する指示を出します。
ご覧のように、分数についても表示することができていますが、よく見ると気になる点に気がつきます。
例えば、”3 □に当てはまる数を書きましょう。(4点×5)”と問題文は読み取れているものの、導き出された解答を見ると、(1)0.3 = 0.30 解答: 0.30 となっており、「分数に直しなさい」という意図は理解できておらず、また解答欄の括線も読み取れていないように見受けられました。
また、(1)(2)(5)となっており、問題が抜かされていたり、(2)としているのは実際には(4)であったりメチャクチャな部分があります。
また、大問4の”分数の計算をしましょう”という問題に至っては、「省略されているため、具体的な問題が必要」と回答しています。
問題を見直すと、全く省略などされておらず、完全に嘘をついている状態でした。
修正の指摘を入れたり、最初の検証で行ったように含まれる情報量を減らしたりして、スクショを添付することで、ようやく正確に答えることができました。
採点の精度はどのくらいなのか検証
修正を繰り返し、すべての正答を認識したところで、いよいよ解答用紙を読み込ませて採点させてみます。
今回は以下の点を意図的に含めて実験しました。
手書きで読めるレベルではあるが、丁寧ではない字を書き、認識できるか
小数点を敢えて付けずに誤答した場合、しっかりと間違いを判断できるか
分数の問題で、数字の記入の順番が重要な場合、逆に記入したら誤答と判断できるか
仮分数と帯分数については混ざっていても正答と判断ができるか
無回答についても間違いと判断できるか
まず、2ー(2)、(4)や3ー(5)について、わざと小数点を付けませんでしたが、Chat GPTの方では小数点があるものとして判断しており、正確に読み取ってはいませんでした。
また5ー(1)では、帯分数で正確に回答していますが、誤答として判断され、仮分数を正しい答えとしています。今回の場合、どちらで表すかなどを指定していない為、どちらも正解としなくてはならないはずですので、AIによる採点が間違えていることになります。
更に、7ー(6)に至っては、こちらは回答していないのにも関わらず正解としているだけでなく、AIの計算も間違えています。
ちなみに、なぜそのように答えを出したのか質問すると、以下のように返ってきました。
どうやら帯分数を読めていないことと、小数点で計算し、勝手に四捨五入していたようです。
小数点の付け忘れは誤答とすることや、無回答についても誤答扱いにするよう追加の指示を出すことで、採点のやり直しはできました。
最初のプロンプトにこれらのことを条件として明記しておくことで、よりスムーズに採点をしてもらうことの期待はできますが、やはり分数を正確に読み取れていない点や、こちらの予期していないところでのAIが見落としをしてしまう可能性もあり、最終確認の作業を人間が入れることを考えると、本当に採点の効率が上がるかと考えた場合、疑問です。
まとめ
正確に画像を読み取ることができない場合、画像1枚あたりの情報量を減らすことで、改善されることがあるが、それでもまだ確実ではない。
小数点の付け忘れや回答の未記入がある場合は、指示を加えない限り、正解として扱われてしまう。
イラストから情報を読み取ったり、正しい分数の読み取りなど、部分的にちゃんと認識できないものがある
これらの結果から、現在のバージョン(Chat GPT 4o / omni) ではまだ、算数の採点を自動化するのは難しかったり、正確に解答用紙を読み取らせる為の手間がかかってしまうことがわかりました。
ただし、こちらが少し手間を加えることで、問題を正しく解かせることや考え方の手順を示させることはできる為、AIを使用することができる*中学生以上の学生は、先生が近くにいない時の自習中に、解き方が分からない問題の考え方を訪ねることなどはできそうです。
また、AIのバージョンが上がるごとに、より正確に画像などの情報を読み取ることができるようになっていますので、近い将来採点が自動で行えるようになると期待できるかもしれません。
引き続き他の学年、他教科でもどの程度活用できるのかや、精度を高める為の方法などを検証、紹介していきますので、記事へのスキやフォローをしていただけたら幸いです。
* Chat GPT(OpenAI社)の利用規約では、 13歳以上18歳未満の場合には保護者の同意が必要。(記事執筆時点)これについては各社微妙に違いがある為、利用前に確認するようにしてください。
<自習ノートについて>
自習ノートは、全国の学校で無料配布される広告入りノートです。会員登録するだけで、毎月抽選で500名の方にノートが届きます。2回目以降はさらに簡単にゲットできるチャンスも。デジタル化が進んでも、学生に必ず利用されるノートを通して、学生と広告主双方にメリットのある取り組みを行っています。ご興味のある方は、ぜひ下記URLから詳細をチェックしてみてください。
https://jishu-note.com/