o1-previewに日本数学オリンピックの予選問題を解かせてみた
OpenAIの最高性能の推論モデルo1(未公開)のアメリカ数学オリンピック予選(AIME)の正解率は83.3%、o1-previewの正解率は56.7%でした。但し、これは64サンプルの多数決の結果で、1回限りの回答だと、o1-previewの正解率は40%程度(濃いオレンジ色の部分)に落ちます。
今回は、実際に今年1月に行われた2024年日本数学オリンピック予選の問題をo1-previewに解いてもらうことにしました。
なお、2024年予選の決勝進出基準は12点満点の6点で、最高得点は10点でした。(1問1点で部分点無し)
第1問
筆者のコメント:正解です。
解き方も問題ありません。
第2問
筆者のコメント:正解です。
素敵な数となるxを全部リストアップして力づくで計算しています。スマートに解くには、まずxの一の位に注目して、8を足した時に一の位が素数になる素数は5と7のみ。次に十の位に注目して、6を足した時に一の位が素数になる素数は7のみというように絞り込んでいきます。
第3問
筆者のコメント:不正解です。正解は$${5+\sqrt{10}}$$です。
BX=x, BD=yとおき、$${BD・BA=BX^2}$$、$${CE・CA=CX^2}$$の方べきの定理を使って、連立2次方程式の解を求めます。
【o1-miniによる回答】
筆者のコメント:正解です。
途中の面倒な計算を省略していますが、答えは合っています。
第4問
筆者のコメント:不正解です。正解は2883です。
全体の石の数$${5^5= 3125}$$個から最後に白石となる場合の最も少ない白石の数$${3^5=243}$$個を引いて1個足すと2883個になります。
なお、この問題は、o1-miniも解けませんでした。
第5問
筆者のコメント:不正解です。正解は2519です。
$${_nC_{10}=(n/1)\{(n-1)/2\}\{(n-2)/3\}・・・\{(n-9)/10\}}$$であり、これが[n/1][n/2]…[n/10]と等しくなるためには、n+1が2から10までの数で割り切れればよい。したがって、nの最小値は$${LCM(2,3,4,・・・10)-1=2^3・3^2・5・7-1=2520-1=2519}$$です。
なお、この問題は、o1-miniも解けませんでした。
第6問
筆者のコメント:不正解です。正解は$${\frac{14\sqrt{65}}{13}}$$です。
なお、この問題は、o1-miniも解けませんでした。
第7問
筆者のコメント:不正解です。正解は16個です。
第8問
筆者のコメント:不正解です。正解は$${2^{990}+1}$$個です。
f(0)=0の場合はf(n)=0の定数関数で1通りのみですが、f(2)=0の場合は、nが奇数かつ平方数でないときにf(n)=2の場合とf(n)=-2の場合があり、$${2^{990}}$$通りの組があるので、合計$${2^{990}+1}$$個となります。
第9問
筆者のコメント:不正解です。正解は17/3です。
第10問
筆者のコメント:不正解です。正解は$${_{198}C_{100}・3・2^{100}}$$です。
第11問
筆者のコメント:不正解です。正解は102050です。
第12問
筆者のコメント:不正解です。正解は$${\frac{2100^{210}}{2^{164}・3^{30}}}$$個です。
2024年日本数学オリンピック予選問題の解答解説のリンク
まとめ
(1) 問題のテキスト化
今回、問題の画像をChatGPTのGPT-4oにアップロードし、以下のプロンプトでテキスト化しました。
こうして問題をテキスト化したことにより、今後は簡単にLLMに数学オリンピックの問題をテストすることができます。興味のある方は利用してみてください。
(2) テスト結果
o1-previewの性能の高さを見せようと思ってテストしたのですが、結果は12点満点の2点(正解率16.7%)という低い成績に留まりました。OpenAIの公式サイトでは、アメリカ数学オリンピックの予選でo1-previewが56.7%の正解率(64サンプルの多数決)を達成したと書かれていたのですが、それよりもかなり低い数値となりました。
これは、日本の数学オリンピックの予選問題の方が難しいのでしょうか、それとも、思考時間の制約やモデルの調整などテストした条件に違いがあるのでしょうか。なお、日本数学オリンピックの予選問題は後の方になるほど難しくなり、最後の問題は、ほぼ誰も時間内には解けません。
o1-miniは、o1-previewの解けなかった第3問を解いたので、o1-previewよりも数学の性能が高い可能性があります。
図形問題を解く場合にすぐに座標計算に頼るなど、o1-previewは力づくで問題を解こうとする傾向があり、あまり数学のセンスはよくありません。数学オリンピックの問題を解くには、もう少しひらめきなどが必要です。
o1の正式版は、o1-prebiewよりも数学の性能がかなり高いようなので、それだと数学オリンピックでどのくらいの点数が取れるのか、リリースの発表が待ち遠しいところです。