見出し画像

数学が1点では…ChatGPT、英語8割超も「東大不合格」 日経記事 2024年5月5日

この記事はなかなか面白かった。面白かったというのは「興味深い」というのもあるけど、どちらかというと「笑える」という点で面白かった。

自分自身ChatGPTはそれなりに使っている。検索より直接質問したいとか、作成した文章内容の正しさを確認してもらうとか、データをある形式に整理してもらうとか。

自然な文章で会話できる事は純粋にすごいと思うが、でも結構間違いも多かったりする。こちらが2019年と言っているのに別の年の話をしだしたりする。専門家でないのでなぜかは良くわからない。

今回の日経記事ではChatGPTが東大入学試験に挑戦したそうだが、結果は惨憺たるものだったとの事。記事を追ってみる。

「10日発表された合格最低点は
  文系で331点(文科Ⅰ類)、
  理系で314点(理科Ⅱ類)だった。
仮に共通テストの得点が90点(得点率は82%)だったとすると、
2次試験は
  文系で241点(55%)、
  理系で224点(51%)が必要になる。

チャットGPTの東大2次試験の得点は、得意な文系でも
  215点(49%)
だった。(中略)苦手の理系は言うに及ばず。2次試験の得点は
  182点(41%)
と合格ラインを大幅に下回った。」

2次試験に絞ってみると文系では6%足りず、理系では10%足りなかった。

「試験科目ごとの結果は文理共通の
  英語が106点(120点満点)、
  文系国語は53点(120点満点)、理系国語は38点(80点満点)、
  文系数学1点(80点満点)、理系数学2点(120点満点)。
  選択科目は世界史33点(60点満点)、
  地理22点(60点満点)、物理5点(60点満点)、化学31点(60点満点)
だった。」

この結果から明らかなように数学や物理の点数が悪い。特に数学の得点は生成AIの得手不得手を知る上で非常に興味深い。

数学の問題に対してどのように答案用紙に解答したかという内容が記事に書かれているが、これがかなり面白い。

解答例1:
「説明の途中で「解法に誤りがありました」と告白したかと思うと、誤っていた理由を並べ立てて答案を締めくくってしまうケースがあった。」

解答例2:
「「この計算は複雑で手作業では困難。数学の専門書や専門ソフトの利用をおすすめします」と、まるで人ごとのような答案もあった。」

解答例3:
「「段階別に考えます」と3つのステップに分けて長々と説明した解答は、問題文を言い換えているだけだった。」

物理に関してもほぼ似たような内容のようです。↓

「答案では長々と考えを述べた後で「この解法は適切ではない」と説明を打ち切ったり、見当違いの物理法則を持ち出したりしていた。駿台講師は「これだけレベルが低い学生はそういないと思われる程度の答案だ」と断じた。」

これまで自分自身もChatGPTを多少なりとも使用していたので、これらの解答例は何となく理解できる。

何が笑えるかと言えば、解答している内容がまるで他人事だったり、自信ありげに説明しているのに全く見当違いだったりするのに、文章がものすごく自然だから本当に人が解答しているように見えて、こんな解答しているヤツがいると想像しただけでとても面白いのである。

しかも駿台講師によればかなり辛辣な評価だが、ChatGPTは人ではないので「あ、そう」といった感じで全く気に欠けない、というのも笑える。

巷では生成AIや機械学習なる言葉をだいぶ耳にするようになったが、実際どういう事を意味しているのか。わかりやすい記事があったので以下に記載する。
(参考:「機械学習とは?学習の種類や予測プロセスの紹介」
入江 佳輝氏 https://www.acceluniverse.com/blog/developers/2019/11/post-24.html

人工知能と機械学習の違い
「機械学習と並べて話題に出されるものとして、人工知能が挙げられる。人工知能とは人間が行っている言語理解や推論、問題解決などの知的な活動をコンピュータに行わせる技術である。人工知能と機械学習は、一見すると同じようなものに聞こえる。しかし、機械学習はある特定の分野においてデータに基づいて予測の結論を下すため、人工知能における人間の知的な活動のすべてを網羅しているわけではない。つまり、人工知能の一つのトピックとして機械学習が位置づけられる。」

機械学習
「機械学習とは与えられたデータからデータに潜む規則性を自動的に発見し、データの分類や未知のデータの予測をコンピュータの計算手法を利用して行うことである。データから予測を行うとき、扱うデータによっては膨大な規則を用いたり、人力では見つけることの難しい規則が存在したりするので、人間だけでは予測が困難な場合があるが、それをコンピュータの計算に落とし込むことで予測が容易になる。」

機械学習とはデータを大量に持ってきてそこから規則性を見つけ、将来予測をするという事らしいので、回帰モデルの構築など比較的イメージしやすい。

では生成AIとは。
こちらも分かりやすい記事を参考にする。
(参考:SoftBank「生成AIと機械学習の基礎知識」)

「「生成AI」とは、人工知能を使って新しいデータを生成する技術のことです。生成AIは、入力されたデータにもとづいてそのパターンを学習していき、新しいデータを生成することができます。生成できるデータには、文章、音声、画像など、さまざまな種類のものがあり…」とある。

このうち「言語生成AI」を見てみる。

「「言語生成AI」とは、文章(テキスト)を自動生成する人工知能技術のことです。(中略) ChatGPTで利用されているGPT(Generative Pre-trained Transformer )というOpenAI社が開発しているAIモデルを使用することで、人間が書いたような自然な文章を生成することができます。言語生成AIは、ニュース記事やWebページ、小説や会話ログなどから大量のデータを収集し、文法や語彙、文脈を学習し、その結果、自然な文章を実現しています。」

前述の記載で「人工知能の一つのトピックとして機械学習が位置づけられる」とあった。参考記事を読んで何となく理解できたのは、例えば工場などの生産データを大量に収集してそこから将来予測等をするのは機械学習、言語生成AIでは同じくデータを収集してそこから何らかの解答を見つけていくという事でプロセス自体は機械学習と同じだが、データそのものがより複雑なものを用いているというように理解した。

言語生成AIの場合は言語での解答出力が求められるが、そのプロセスで必要なのが「言語のベクトル化」らしい。

言語のベクトル化とは、日本語や英語などの自然言語の単語や文を数値(ベクトル)に変換する技術のことで、コンピュータでは言語を文字列の集合ととらえ、言語を数値のベクトルで表現する。

単に機械学習で数値データから将来予測した数値データを導くより、言語生成AIは言語のベクトル化プロセスを介す分だけはるかにプロセスが複雑で、高性能半導体を必要とし大量の電力を消費する、というのは想像できることである。

生成AIが東大入試試験の数学や物理に合格するためには単に知識だけでなく、解答を導くためのプロセスを大量に学ばせる必要があるという事なのか?

でももしそうだとしたら、それができるようになるのは時間の問題なのか、あるいはかなり高い技術的な壁があるのか、この点については今後も色々な情報を追いかけてみたい。


この記事が気に入ったらサポートをしてみませんか?