![見出し画像](https://assets.st-note.com/production/uploads/images/172366066/rectangle_large_type_2_07aa063d707cfc534b71e9bd1fa75429.jpeg?width=1200)
1月30日: DeepSeekへの対抗としてのChatGPT o3-mini、そしてサム・アルトマンのDCでの極秘AI報告会
2,443 文字
ChatGPTがDeepSeekに反撃を開始しています。製品チームとして、これらのモデル構築は困難で、魔法のように新しいモデルを作ったり全てを一瞬で変更したりすることはできません。そこで、当初計画していたものを少し異なる形で位置づけて対応するのです。OpenAIは今月末にo3-miniをリリースする予定でしたが、今日リリースされるという噂が非常に強く出ています。彼らの通常のやり方に従えば、太平洋時間の午前10時、約4時間半後になるでしょう。
そうなれば、o3-miniはDeepSeekに対抗するものとして位置づけられることになります。発表の場でDeepSeekの名前は出さないでしょうが、無料ユーザーにとっても素晴らしい選択肢として提示されるはずです。当初はプラスユーザーに限定して提供する予定でしたが、DeepSeekが無料プランで価値の連鎖を覆したため、このモデルを下方に押し下げ、無料ユーザーにも提供することになりました。
このモデルはo1よりも優れているとされています。もしサム・アルトマンが文字通り言ったことが正しければ、無料ユーザーは1日100メッセージまで、より優れた高速モデルにアクセスできることになります。しかもo1にはアクセスできないままです。これは彼らがビジネスモデルと価格設定、パッケージングを整理する必要がある理由です。混乱していますが、要するにo3-miniの利用可能性を変更するほど彼らは焦っているということです。人々がそれを使用することでキャッシュを消費することは分かっていますが、DeepSeekに走る人々のマーケットシェアとマインドシェアを取り戻す必要があるのです。
同時に、サムは次に何が来るかについて非常に忙しい一日を送っています。彼はワシントンDCにいます。レーガン空港が閉鎖されているので、どうやってそこに行くのかは分かりませんが、これは本当に厄介です。彼はDCでブリーフィングを行っています。
o3-miniが今後数日中に出るという噂は、私が確信を持てるものですが、この件に関する噂は非常に怪しいものの、どこかに何らかの情報がありそうだという類のものです。噂では、彼が話し合うのはo3ではないとされています。それは製品化に近すぎます。上半期中のもっと先のことについてだとされています。o4という言葉が噂好きな人々の間で飛び交っています。それかもしれません。要するに、国家安全保障上の影響が大きいと感じているということです。つまり、本当に優れているということで、そのためにワシントンに行く価値があると考えているのです。
o3に関するもう一つの情報ですが、彼らは本当にモデルの命名が下手です。o3-miniとo3の違いを説明できますか?o3-miniの方が小さいモデルだと思われますが、それだけでは自動的により高速である理由は説明できません。とにかく、o3-miniは高速で、o1よりも賢いとされています。
o3は新しい国際AI安全性レポートの一部としてテストされ、その結果は驚くべきものでした。テスト結果が提出され、昨秋にo1がゲームを変えたことは分かっています。遠い昔のように感じられ、o1よりもR1の方が優れているという人もいます。ちなみに私は両方を使いましたが、そうは思いません。しかし、それはさておき、o3のテスト結果は驚異的に良好で、これはo3-miniではありません。彼らは別の名前を付けるべきですが、そうはしないでしょう。
私たちがそれを手にした時、世界のトップレベルの専門家数人を除いて、広範な分野で最高のモデルになることが予想されます。o1 Proでさえもそれほど良いテスト結果は出ていません。o3とo3 Proには本当に期待しています。これは将来的な話で、今日はo3とo3 Proはリリースされないと思います。今日はo3-miniだけだと思います。o3-miniは小さいモデルなので安全性トレーニングを完了させやすいからです。
これは消費者の視点からすると、あまり気にしてほしくないことの一つです。私たちは、モデルが想像上のスペースをどれだけ占めるかではなく、そのモデルの能力、つまり実際に何ができるのか、以前にはできなかった何ができるようになったのかを気にします。
私たちはそれがどのように機能するかを人々に説明することが非常に下手です。私はSubstackで無料の記事を書きました。評価やIME、GPQAなどの略語について、私たちがそれらを理解していないことについて書きました。「GPQAダイヤモンドテストでこれこれの結果が出た」と言われても、それが何を意味するのか分からないので、私はテストを調べ、スクリーンショットを撮り、それらについて書きました。
最近公開された「Humanity's Last Exam」も見てみました。人間として、これらをどのように測定しているのか、そしてどのように測定していないのかを理解する必要があると思います。数学、実世界のコーディング、文学などがありますが、Humanity's Last Examで最も成績が悪いのは文学の部分です。しかし、大まかに言えば、私たちが日常的にAIを使用している用途に対するテストはほとんどありません。
ここにギャップがあると思いますが、解決方法は分かりません。しかし、人々にとってより理解しやすいテストがあれば、AIに何ができるのか、AIのパフォーマンスの違いが何を意味するのかを理解するのに役立つかもしれません。これは考えるべき課題です。まだ解決はしていませんが、これが問題の一部だと思います。
人々がAIの機能を理解できない理由の一つであり、DeepSeekのような新しいモデルが登場した時に、「これは素晴らしい」とか「これはひどい」といった反応をする原因です。しかし、それはほとんどの場合、何ができるのかを厳密に考えるのではなく、彼らの先入観が形作っているのです。