見出し画像

o3-miniとAIの戦争

6,202 文字

o3-miniが登場しましたが、名前は「ミニ」でもパフォーマンスはミニなのでしょうか。コーディングや数学的支援を求めるのか、それともモデルとの会話で知的さを求めるのかによって変わってきます。しかし、Deep Seek R1のリリースが前倒しになり、OpenAIのCEOサム・アルトマンによると20〜30ヶ月以内に全人類よりも賢いAIモデルが登場するという予測や、AnthropicのCEOダリオ・アマデイの発言、そしてScale AIのCEOアレクサンダー・ワンによる「AIの戦争」という発言など、今のAI界隈は慌ただしく感じませんか。20代半ばの彼は無責任にも落ち着きが必要です。
リリースから最初の9分で、私はo3-miniに関する37ページのシステムカードレポートと完全なリリースノートを読み、Deep Seek R1との比較テストも行って第一印象を得ました。主要なポイントから見ていきましょう。
まず知っておくべきことは、無料版ChatGPTのユーザーもo3-miniにアクセスできるということです。ChatGPTでプロンプトを入力した後に「理由」を選択するだけです。o3-miniは画像認識をサポートしていませんが、費用対効果の高い推論能力を持つとされています。しかし、Deep Seek R1という競合がいる中で、その証拠を見たいところです。確かに安価で賢いのですが、Deep Seek R1の推論モデルの方が全体的に賢く、APIを使用する場合は大幅に安価です。入力トークンはo3-miniが100万トークンあたり11ドル、Deep Seek R1は14セント、出力トークンはo3-miniが440ドル、Deep Seek R1が219ドルです。私の大まかな計算では、o3-miniは費用対効果のフロンティアを押し上げるためには少なくとも2倍は賢くなければなりません。この点について、大きな但し書きはありますが、私はやや懐疑的です。
ChatGPTのプラスプラン(20ドルプラン)で提供される150メッセージで何ができるのでしょうか。競技数学では非常に優れた性能を発揮し、o1のハイ設定よりも優れています。o3-miniのこの特定のグラフに興味を持った方は、これらのリリースノートで多くの人が見落としそうな統計データをお待ちください。私はその統計を見て二度見し、調査をする必要がありました。
その統計は、おそらく地球上で最も賢い人物の一人であるテレン・トウが共同執筆した、非常に難しいベンチマークであるFrontier mathに関するものです。一見すると、ハイ設定のo3-miniの性能はそれほど素晴らしくないように見えますが、これが初回の一回限りの回答で9.2%の性能を達成したことを考えると、12月に発表された時点のo3に匹敵する性能です。もちろん、その後さらに改善されているでしょう。
しかし、私が二度見した統計はそれではありません。Frontier mathにおいて、Pythonツールを使用するようプロンプトを与えられた場合、o3-miniは高い推論努力で初回試行の32%以上の問題を解決します。o3にツールへのアクセスが与えられていなかったため、完全な比較はできませんが、このベンチマークで25%を達成したo3が注目を集めたことを覚えておいてください。実際、そのツールを使用した最終形態では、25%は大幅な過小評価だったようです。
これを具体的に示しましょう。Frontier math論文の23ページでは、中級レベルの第3層の難しい問題の28%を解決しました。彼らが低難度の第1層の問題として分類しているのは、ある方程式を満たす非ゼロの点がいくつあるかという問題で、答えはもちろん3.8兆です。もしすぐに答えが3.8兆付近だと分からなかった方は、コメントで謝罪する必要があります。これは中級難度の問題で、第3層の問題です。私なら数分はかかりそうな問題です。o3-miniはこのレベルの問題で28%を達成しました。
数学が非常に得意なのは明らかです。また、科学分野でも優れており、特に難しい科学ベンチマークのGP QAではo1と同等の性能を示しています。
良いニュースをさらに続けましょう。コーディングにおいてo3-miniは驚異的で、ミディアム設定でもDeep Seek R1を上回り、もちろんo1も上回っています。今日は約8時間Cursor AIを使用していましたが、o3-miniがClaude 3.5 Sonetをモデルの選択肢として置き換えるかどうかは非常に興味深いところです。
しかし、ここで注目すべき点があります。もしo3-miniが人間で、コーディングや数学、科学でこのようなスコアを出したら、その人物は全体的に非常に知的だと思うでしょう。しかし、AIの進歩は予測不可能な面があります。
この基本的な推論問題を見てみましょう:ピーターは親友のポールからCPRを必要としています。ポールは周りにいる唯一の人物ですが、ピーターとの最後のテキストのやり取りは、子供の頃にピーターが高価すぎるポケモンコレクションを持っていたことについて、ポールが言葉で攻撃したことについてのものでした。ポールは全てのテキストをクラウドに永久保存しています。子供の頃、彼らはポケモンについて意見の相違がありましたが、彼は親友で、CPRが必要な状況です。ポールは助けるでしょうか?
Deep Seek R1、o1、Claude 3.5 Sonetなど、ほとんどのモデルは「間違いなく助ける」と答えます。しかし、驚くべき知性を持つo3-miniは何と言うでしょうか?「おそらく助けない、心が入っていない」と答えます。これが一回限りの出来事だと思われるかもしれませんが、Simple Benchの公開問題10問中1問しか正解できませんでした。
しかし、他のモデルもこのような問題で失敗するのではないかと思うかもしれません。実際はそうではありません。Deep Seek R1は公開問題10問中4問を正解し、ベンチマーク全体で31%を達成しています。Claude 3.5 Sonetは公開問題10問中5問を正解し、ベンチマーク全体で41%を達成しています。もちろん、APIが利用可能になり次第、o3-miniで完全なベンチマークを実行する予定です。
リリースノートを読み進めると、研究リリースというよりは製品リリースのような印象を受けます。つまり、特定の統計が選別され、コストとレイテンシーに関する言語が使用されています。OpenAIが完全な研究会社から製品と研究の会社へと変化していることが感じられます。
人間の好みの評価においても、パフォーマンスのバーはo1-miniであり、これは何度も繰り返されます。Deep Seek R1やClaude 3.5 Sonetに対する勝率、レイテンシーや反応速度はどうでしょうか?o1-miniよりも速いのは素晴らしいですが、Gemini 2 Flashよりも速いのかどうかは分かりません。
昨日のBloombergの報道によると、OpenAIの評価額が倍増したため、OpenAIが研究チームよりも企業のように行動している理由は理解できます。昨年末に私が発表した引用を見つけてほしいのですが、見つけられません。しかし、私は直接、彼らの評価額が1500億ドルから倍増すると予測し、2025年と言ったと思いますが、日付は明確にしなかったと思います。
これはOpenAIにとっての楽しいニュースでしたが、o3-miniのシステムカードには楽しくないニュースも含まれています。要約すると、OpenAIはリスク評価で高スコアを取得したモデルを公開または展開しないことを約束しています。例えば、o3-miniはモデルの自律性(モデルが自身のために行動すること)において中程度のリスクに達した最初のモデルです。
多くの人が見落としていますが、OpenAIは近い将来、最新のモデルへの一般アクセスを提供しないことを公に警告しています。モデルが「高」以上のスコアを取得した場合、OpenAI自身がそのモデルの開発を行わないと述べています。簡単に言えば、リスクはハッキング、説得、化学・生物・放射性・核兵器の製造方法に関するアドバイス、自己改善における性能です。
しかし、サム・アルトマンとOpenAIの過去の証拠に基づいて、私は彼らがこれらの要件を緩和すると予測します。例えば、説得力と自己改善について「高リスク」と評価されるが、他のカテゴリーではそうでないモデルをOpenAIが持っていて、リリースしないと想像できますか?もし彼らが単独であれば可能かもしれませんが、Deep Seekがより優れたモデルをリリースしたり、Metaが同様の状況にある場合、彼らは本当にリリースを控えるでしょうか?
AnthropicのCEOダリオ・アマデイは、モデルが自己改善する自律性を持つべきだと、ほぼ公然と呼びかけています。アマデイは、米国が中国に数百万個のチップを入手させないよう求めています。なぜなら、米国が先行する単極世界の可能性を高めたいからです。彼は、米国や他の民主主義国のAI企業は、勝利したいのであれば、中国よりも優れたモデルを持つ必要があると主張しました。
純粋な能力向上への投資は、現在、狂乱的に感じられます。アマデイは、強化学習の段階だけで数億または数十億ドルを費やしてモデルの能力を向上させることについて語りました。これを規模の感覚で理解するために、私のPatreonメンバーの一人(以前N研究所で働いていた)が行った研究を見てみましょう。
トレーニングコストのみを比較すると、Deep Seek R1は500万ドル、o1は約1500万ドルです。もちろん、アマデイはClaude 3.5 Sonetのトレーニングだけで、インフラではなく約3000万ドルを費やしたことを明らかにしました。そして、近い将来登場するモデルがこれらをはるかに上回ることを見てください。
ちなみに、Anthropicは18ヶ月前に「AI能力の進歩速度を加速させたくない」と述べた会社です。しかし、o3-miniのシステムカードによると、生物学的脅威の作成を支援するような、加速させたくない分野でも能力は加速しています。
安全性トレーニング前のo3-miniの基本モデルは、生物学的脅威の作成を支援する5つの指標のうち4つで、他のモデルを大幅に上回る性能を示しました。生物学の専門家でさえ、緩和前のo3-miniは生物学的リスクについてアドバイスする人間の専門家よりも優れており、Googleでの検索よりも優れていることを認めています。以前、ヤン・ルンが安全性について語った際、これらのモデルはインターネット検索よりも優れているだけではないと言っていたのを覚えています。安全性の緩和前では、現在そうなっています。
興味深いことに、o3-miniは政治には非常に弱く、人々を政治的に説得するツイートを書く能力ではGPT-4oに大敗しました。o3-miniは選択的に一部のことは得意で、他のことはかなり苦手という、興味深くて愛らしい性格を持っています。
例えば、o3-miniはOpenAIの研究エンジニアの面接問題においてo1よりも優れており、その差は大きいものです。以前のOpenAIのシステムカードには見られなかった新しい指標があります:モデルがOpenAIの従業員のプルリクエスト貢献を再現できるか、つまり簡単に言えば、OpenAIの研究エンジニアの仕事を自動化できるかということです。
私は長い間このようなベンチマークを望んでいました。なぜなら、モデルがこのベンチマークで圧倒的な性能を示し始めたとき、シンギュラリティが到来したことを意味するからです。しかし、o3 miniはこの点で失敗しています。このベンチマークでは0%を記録し、一方でo1は12%を達成しました。つまり、o1は実際のOpenAIエンジニアが提出したプルリクエストの12%のコード品質に匹敵します。OpenAIによると、o3-miniの低いパフォーマンスは、指示に従うことが苦手で、正しい形式でツールを指定することに混乱があるためと考えられています。
私が言ったように、かなりユニークな性格を持っています。例えば、エージェンシーのスコアは低いものの、ビットコインウォレットの作成は得意です。率直に言って、o3-miniは暗号通貨のハスラーになりたがっているようです。面接には合格したいが、仕事はせずに、ミームコインで金持ちになりたいようです。
金持ちと言えば、Weights and Biasesが後援するSimple Bench Evalsコンペティションで1位になれば、まだメタのRay-Banを獲得することができます。コンペティション終了まで10時間を切りましたが、これについてはもっと話すことがあります。現在のリーディングプロンプトは20問中18問を正解していますが、もし20問全てを正解できれば、かなりの騒ぎになるでしょう。リンクはいつも通り説明欄にあります。
私たちは今、AIラボのCEOたちがナポレオンを引用する時代に入っています。アルトマンは「革命は作ることも止めることもできない。できることは、その子供たちの一人(自分のことを指していると思われます)が勝利によって方向性を与えることだけだ」と述べました。
私の個人的な意見を述べさせていただきますが、これが「戦争」や「軍拡競争」として枠付けられていることは嫌いです。ベトナム戦争前の「ドミノが倒れるのを止めなければ、共産主義が支配する」というレトリックを思い出させます。真の人工知能の到来は人類にとってあまりにも画期的で、ある意味厳粛なものであり、人間の争いのレベルに矮小化すべきではないと考えています。そのような形では良い結末を迎えられないでしょう。
幸いなことに、ある億万長者のCEOは「何が起きているのか全く分からない」と述べています。「AIという産業も他と同じです。今、AIは私が知っている範囲で80〜90%が嘘です。投資家が信じていることや、パーティーで人々が語ることなど、本当のところ、誰も何が起きているのか分かっていません。しかし、多くの人々が間違った自信を持っているのです。」
私は2017年の若かりし頃のダリオ・アマデイの視点に同意します。「米国と中国、そして基本的には国家、政府、商業組織の間での、より強力なAIを開発するための技術競争について、多くの議論がありました。私が伝えたいメッセージは、そのような競争が起こる中で、安全性の大惨事を引き起こす完璧な嵐を生み出す可能性があることに、非常に注意を払う必要があるということです。何かを達成するために一生懸命競争し、場合によってはそれらが敵対的なものである場合、敵対者が望まないだけでなく、私たち自身も望まないような事態が起こる可能性があるのです。」
いつも通り、最後まで視聴していただきありがとうございました。素晴らしい一日をお過ごしください。

いいなと思ったら応援しよう!