o3はタダものではないことが判明!
前回はの記事では、o3がAGIに向けての途中成果のリリースか、と書いていたが色々と具体的なベンチマークを調べてみたら、タダものではないことが判明した。当然なことながら、oシリーズはAGIに向けたステップとして開発が続けられているが、以下のベンチマークを見てみましょう。
ARC(AGIベンチマーク:自動推論とコミュニケーション)の精度
普通の人間=85%
o1=38%
o3=62%
AGI=87.5%
競技数学での精度
トップクラスの人間=90%以上
o1 preview=56.7
01=83.3
o3=96.7
博士号レベルの科学的質問への回答の精度
人間=70%
o1 preview=78.3%
o1=78.0%
o3=87.7%
競技プログラミングベンチマーク(Codeforces)
エキスパートレベルのプログラマー=2400以上
o1 preview=1258
o1=1891
o3=2727
こうした数字は、o3があらゆるAIの中でトップであることを示しているという。既存のAIのLLMのボトルネックを解決し、とりわけ、科学的な問題解決能力と推論能力において、圧倒的な数字をたたき出している。数学の問題解決では人間を超え、博士号クラスでも人間を超え、プログラミングについては地球上の人間のトップクラスのコーディングが可能であることを示している。
また、特に他のAIでは達成できなかった適応性と一般化における真のブレークスルーを示し、自然言語プログラム検索を通じてLLMパラダイムの根本的な制約であった知識の再結合を実現ているという。圧倒的!もしかして革命的なリリースかもしれない。使ったこともなく、まだまだ全貌は見えてきていないが、少なくとも科学者など、アカデミックな世界ではo3は人間の超える知能を持ち得る可能性を十分に見せている。これでノーベル賞のレベルが一気に引きあがることに貢献したら、AIが受賞対象になってしまったりして(笑)とか思ったらまたワクワクしてきた。普通の人間にとってo3がどう使えるのか、クリエイティブな活動にどう利用できるのか、それも楽しみしかない!
★☆★☆★☆★☆★☆★☆★☆★
今日も最後までお読みいただき、ありがとうございました。
スキ、フォロー、コメントをいただければ、大変励みになります。
これからも思考シミューレーションの材料となるような内容を提供できればと思っていますので、よろしくお願いいたします。
★☆★☆★☆★☆★☆★☆★☆★