見出し画像

OpenAIが新モデルo1をリリースしたので東大入試数学の問題を解かせてみる

お久しぶりです。OpenAIがまたとんでもないものを出してきたのでご紹介です。
リリースの内容はこちら。

https://openai.com/index/introducing-openai-o1-preview/

いつもnpaka先生にはお世話になっております。
日本語で読みたい方はこちらをどうぞ。

では、まとめていきましょう。

OpenAIは2024年9月12日に新しいAIモデルシリーズ「o1」を発表し、その最初のモデルとして「o1-preview」と「o1-mini」をリリースしました。これらのモデルの主な特徴と違いは以下の通りです。

o1-preview

  • より複雑なタスクを推論し、科学、コーディング、数学の分野でより難しい問題を解決できる高性能モデル

  • 国際数学オリンピック(IMO)の予選試験で83%の正答率を達成

  • ChatGPT Plusユーザーは週30メッセージまで利用可能
    API価格は100万入力トークンあたり15ドル、100万出力トークンあたり60ドル

o1-mini

  • o1-previewよりも高速で80%安価なモデル

  • STEMの推論に特化しており、特に数学とコーディングで優れたパフォーマンスを発揮

  • 数学のAIME競技でo1-previewを上回る70.0%のスコアを達成

  • Codeforcesのコーディング競技で1650 Eloを達成し、参加プログラマーの上位86パーセンタイルに相当

  • ChatGPT Plusユーザーは週50メッセージまで利用可能

  • API価格は100万入力トークンあたり3ドル、100万出力トークンあたり12ドル

共通の特徴

  • 両モデルとも、応答する前により多くの時間をかけて思考するように設計されています

  • 学習した知識は2023年10月までのものです

  • コンテキストウィンドウは128,000トークンです

  • 現時点ではWeb閲覧やファイル・画像のアップロード機能は未対応です

  • APIはTier 5で利用可能

OpenAIは、これらのモデルが従来のGPT-4oよりも複雑なタスクで優れたパフォーマンスを発揮し、特にSTEM分野での応用に適していると述べています。ただし、一般的な知識を必要とするタスクではGPT-4oの方が依然として優れている場合があるとのことです。

o1-previewに東大入試数学問題を解かせてみる

解かせてみる問題はこちら。

Cを半径1の円周と,AをC上の1点とする.3点P,Q,RがAを時刻t=0に出発し,C上を各々一定の速さで,P,Qは反時計回りに,Rは時計回りに,時刻t=2πまで動く.P,Q,Rの速さは,それぞれm,1,2であるとする.(したがって,QはCをちょうど一周する)ただしmは1≦m≦10を満たす整数である.△PQRがPRを斜辺とする直角二等辺三角形となるような速さmと時刻tの組を全て求めよ.

2010 東京大学 理系 数学5

先に正解を見たい方はこちらをどうぞ。

実際に解かせた様子はこちらになります。

動画にも撮ったので挙動を見たい方はこちらをどうぞ。

URL

ご覧のように、質問をすると思考を始めます。試行の最中は「考慮しています」のように表示され、トグルを開かないとその思考過程は確認できません。時間はかかりますが待ちましょう。

開くと思考過程が見れる

思考が終わると計算過程を含めてまとめてくれます。

思考を終えると解答を出力してくれる

o1-previewが導き出した解答は以下の通りでした。

東大入試数学の解答結果は……

結果は惜敗!!
m=2の組み合わせ2つ、m=4の組み合わせ2つは合ってるけど、m=2の残りの4つの組み合わせが出せませんでした!

ちなみに3回ほど試してこの回答になりました。
しかしどうでしょう?
計算過程は見ていただけました?
東大の問題が解けないからといって頭が悪いと言えるでしょうか?
皆さんは15分で解けますか?
私も数学はもはや現役ではないので、o1には及びません。現役でも解けるか怪しいです。

ヤクザの持つ道が気になる……?

これからもOpenAI含む、AI界隈から目が離せません。

いいなと思ったら応援しよう!