リーディングスキルテストを最近のAIに解かせてみた③ ~OpenAI o1編~
OpenAI o1の登場
OpenAI o1は、OpenAIが2024年9月に発表した最新の人工知能モデルシリーズです。このモデルは、従来のAIモデルと比較して飛躍的に向上した推論能力を持ち、特に科学、コーディング、数学分野での高度な問題解決能力を特徴としています。
OpenAI o1の主な特徴
高度な推論能力
OpenAI-o1は、人間のように時間をかけて思考するよう設計されています。複雑な問題に対して多段階の思考プロセスを経て解決策を導き出す「Chain of Thought(思考の連鎖)」アプローチを採用しています。
STEM分野での卓越した性能
科学、技術、工学、数学(STEM)分野において、OpenAI o1は驚異的な成績を収めています:
国際数学オリンピック予選試験(AIME)で83.3%の正答率を達成(GPT-4oは13.4%)
競技プログラミング「Codeforces」で89%の正答率(GPT-4oは62%)
物理学、化学、生物学の難しいベンチマークタスクでPhDレベルの精度を超える成果
間違えた問題に挑戦
新しいモデルが出たので、どれだけ優秀になったか試さずにはいられません。早速ChatGPT君に登場いただき、新しいモデルに挑戦してもらいました。
結果
前回の挑戦で、間違った問題のみ再挑戦しました。
ただし、o1はまだプレビュー版でファイル添付ができないため、イメージ同定は実施しませんでした。
では、結果一覧です。青く塗りつぶされているところは、今回の挑戦で、正解した問題です。
先回のイメージ同定を入れた結果では、正答率が57%まで落ちたChatGPT君ですが、今回の挑戦で75%まで上昇しました。
特に推論の上昇は著しく、先回50%だったものが100%となりました。高度な推論能力があるというのは確かなようです。
間違えた3問
照応解決 難
「そのほとんど」とは何のほとんどを指すか。最も適当なものを1つ選びなさい。
2文構成の文章ですが、ChatGPT君は「そのほとんど」は直前の主語である「砂糖」を指しています。と第1文を無視して答えてしまいました。
そこで「穀類・いも類・砂糖は並列で述べられています」とアドバイスしたところ正解しました。
具体例同定(辞書) 難
「直喩」がもちいられている例を選択肢の中からすべて選びなさい。
君のように暗い人は芸能人には不向きだね。を直喩と判断しました。
そこで、「「ように」「ような」には「例示」として用いられる場合もあることを考慮して回答しなさい。」という一文を付け加えたところ正解しました。
具体例同定(理数) 難
ゲームにおいて、得点が4点になる数の組み合わせを選択肢の中からすべて選びなさい。
問題文には「袋の中に、0、1、2、3、4、5と番号が付けられた6個の球が入っている。」という条件がありましたが、ChatGPT君はこの条件を無視しました。
そこで、「問題の条件をよく分析して解答しなさい。」と付け加えたところ、正解しました。
このように、聞き方を少し工夫するだけで、全問正解となりました。
ChatGPT君、たった4か月でここまで進歩しました。
(注)
OpenAI o1は、その高度な推論能力と特にSTEM分野での優れたパフォーマンスにより、複雑な問題解決や高度な分析が必要な場面での活用が期待されています。
ただし、現時点ではWeb閲覧やファイル・画像のアップロードなどの機能には対応していないため、一般的な用途ではGPT-4oの方が優れている場合もあるそうです。