
ChatGPTは東大数学入試でなぜ1点しか取れなかったのか考察してみた
AIに大学入試を解かせるという試みは何度も行われており、僕も京大や東大などの難関大の数学入試で試したことがあります。で、5月6日に日本経済新聞が、ChatGPTが東大の数学入試で1点しか取れなかったという旨の記事を出しました。
僕自身は記事を直接読んでいない(会員登録が面倒で断念した)ので、あくまでもSNSやこのnoteで取り上げられていた方の記事から得た情報を元に書いています(今更感はありますが)。
数学の点数が伸びなかった原因
ChatGPTは東大の文系数学で2点、理系数学では1点という結果で、ほかの教科(英語や国語、地理など)と比較して、ダントツで低かったそうです。
GPT‐3.5とGPT‐4のどちらで試したのかはわかりませんが、前者ならまあ、納得かなというのが個人的な意見です。
実際に使ったことがある方ならわかると思いますが、GPT‐3.5の計算能力ははっきり言って低いです。壊滅的とまでは言いませんが、簡単な掛け算でもミスするので壊滅的と言ってもあながち間違いではないか。
東大の数学入試でそんな簡単な計算問題はまず出題されませんが、論証に関して言えばGPT‐4も弱いです。一度、2024年の文系数学で試してみましょう。
以下の問いに答えよ。必要ならば、$${ 0.3 < \log_{10} 2 < 0.31}$$を用いてよい。
(1)$${ 5^n>10^{19} }$$となる最小の自然数nを求めよ。
(2)$${ 5^m + 4^m > 10^{19} }$$となる最小の自然数nを求めよ。
これをGPT‐4に解かせた結果がこちら、
(1) $${ 5^n>10^{19} }$$ となる最小の自然数 nは 28 です。
(2)$${ 5^{m} +4^{m}> 10^{19} }$$となる最小の自然数 mは 27 です。
計算過程は一切記載されておらず、2つともプログラミング(Python)で求めたようです。にもかかわらず、(2)で誤答してます。おそらく(2)は$${ 0.3 < \log_{10} 2 < 0.31}$$を計算で使用したことが誤答の要因でしょう。
実際、$${ 0.3 < \log_{10} 2 < 0.31}$$を用いずに計算するよう指示したところ、正しい答えである28を導き出しました。
GPT‐4は計算問題をプログラムで解くことが多く、今回は誤答しましたが大抵は正確に求めます。
しかし、実際の入試でそんなことはできません。人間で言うなら電卓を使うのと同じです。これで点数をもらえるはずがありません。
結局、今回は問題の選定やプロンプトがChatGPTの点数が伸び悩んだ要因になった可能性が高いです。ChatGPTを擁護するつもりはありませんが、プロンプトにひと工夫あれば正答率は上がったかもしれません。
AIが東大に合格する日は来るか
これは賛否両論あると思いますが、僕個人としては合格するだろうと思います。それがいつかはわかりません。
別にChatGPTを過大評価しているわけではありませんが、AIの進歩は正直予想していた以上に早い。
AIはコロナが流行する以前から話題にはなっていましたが、画像を簡単に生成したり、動画もクオリティはまだ劣るものの、手間をかけずに作成できる日が来ると予想できた人はいなかったでしょう。
人間はAIにできないことをやろう、という言葉を聞きますが、肉体的な労働を除いて、大抵のことはAIが代替できるようになると思います。
これからはAIを上手く活用した新しい働き方が確立していくのではないか、というのが僕の予想です。素人の勝手な予想なので当たらないとは思いますが……。