見出し画像

OpenAI o3: 知っておくべき5つの画期的なイノベーション

8,771 文字

もし実際にモデルを出荷していないのであれば、12日間の出荷祭りで話していた多くのことを実現できていないということですね。これらは1月に来るとか、来年の初めに来るとか、そういった類のものでした。
私はVentureBeatの編集長のマット・マーシャルです。
この1年間でAIについて多くの話題がありましたが、先週リリースされたOpenAIのo3モデルは真の breakthrough(ブレイクスルー)のように感じます。なぜでしょうか?それは、AIが直面している最大の課題の1つである新規タスクへの対応を克服しているからです。
大規模言語モデルは、これまで訓練されたことだけをこなすと批判されてきましたが、ここではその場で物事を理解するモデルが登場しています。これはいわゆるAGI(人工汎用知能)に向けた本当の進歩を遂げる上で不可欠なものです。
考えてみてください。新しい状況に適応し、問題を解決する能力は、人間の知能を際立たせる特徴です。そして今、AIもその方向へ歩みを進めているのです。
フランソワ・シャレの最近の投稿を元に、o3モデルを分析していきましょう。LLMのAGIへの可能性について有名な懐疑論者であるシャレは、以前これらのモデルには大きな限界があると主張していました。わずか6か月前、彼はLLMをAGIへの「寄り道」と表現し、真の汎用知能に到達するために必要な新規タスクに対応できないと主張していました。
しかし、ここで転機が訪れました。o3モデルにおいて、シャレは大きな譲歩をせざるを得なくなったのです。このモデルは、彼自身がAGIレベルの適応性の重要な指標として設定した80%のベンチマークに到達、もしくは非常に近づいています。これは大きな変化であり、まさにこのブレイクスルーに注目すべき理由なのです。
確かに、シャレはAGIを達成したかどうかはまだ明確ではないと述べ、まだ実現していないとしています。やるべきことはまだありますが、このビデオではo3の特徴、そのアプローチが重要な理由、そしてAIの未来にとって何を意味するのかを解説していきます。
シャレの分析を参考に、このモデルの主要なイノベーションを紐解いていきましょう。

タスク適応のためのプログラム合成
従来のLLMは、その場での適応性を必要とする新規タスクに直面すると躓いていました。典型的には、記憶、取得、適用という方法で、事前に学習した機能の取得と実行は得意でしたが、訓練されていないことには苦戦していました。o3モデルは、シャレが長年提唱してきた「プログラム合成」と呼ばれるものを導入しています。これにより、モデルは既知の機能を組み合わせて、未知のタスクに合わせた全く新しいソリューションを生み出すことができます。これはシェフが馴染みのある材料を革新的な方法で組み合わせて、全く新しい料理を作るようなものです。
自然言語プログラム検索
o3が質問に答える時(業界ではテストタイムと呼ばれる)、思考の連鎖として表現される可能な解決策の空間を検索します。思考の連鎖とは、特定の問題を解決する方法を段階的に説明した自然言語での指示のことです。評価モデルに導かれ、o3は多数の潜在的な経路を探索し、最も有望な手順のシーケンスを選択します。このプロセスは、異なるルートを試しながら成功を評価して迷路を進むのに似ています。
評価モデルの役割
評価モデルは、生成された思考の連鎖の質と正確さを評価する審判として機能します。提案された解決策がタスクの要件に合致していることを確認します。このメカニズムはo3の検索を洗練させ、優れていない解決策を排除し、効果的な解決策に絞り込むのに役立ちます。これはチェスエンジンが最善の戦略を決定する前に潜在的な手を評価する方法に似ています。
独自のプログラムの実行
o3では、思考の連鎖は二重の目的を持ちます。それらはプログラムや問題を解決するための手順であるだけでなく、モデルが全く新しいタスクに取り組むために再結合するビルディングブロックでもあります。本質的に、思考の連鎖はツールキットのように機能し、モデルはこれらのツールを組み立てて、これまでに遭遇したことのない課題を解決します。

時間とともに、これらの思考の連鎖は、独自の問題に対処するために知識がどのように組み合わされたかの記録やアーティファクトとなり、モデルが知識を動的に統合する能力を示します。これらの思考の連鎖を生成し実行することで、モデルは本質的に新規の課題に対処するための独自の動的プログラムを作成します。
テストタイム・トレーニングや潜在空間検索などの他のアプローチも実行可能ですが、Oの自然言語プログラム実行の方法は現在の最先端を表しています。

ディープラーニングによるプログラム検索のガイド
実世界のデータと直接相互作用する記号的プログラムとは異なり、o3のプログラムは自然言語で表現され、間接的に評価されます。これにより制限が生まれ、これらの評価は既知のコンテキスト外では失敗する可能性があります。

さらに、o3は評価器を訓練するために専門家によるラベル付けデータに依存しており、これにより環境との相互作用を通じて自己学習するAlpha Zeroのようなシステムと比較して、自律的な学習と適応の能力が制限されています。
結論として、これらの進歩はLLMの能力の境界を再定義するだけでなく、その限界と適用可能性に関する継続的な疑問も示しています。
サム・アルトマンとの今後の議論では、o3の背後にある技術革新、より広範な影響、そしてこれが企業のAI戦略に何を意味するのかについてより深く掘り下げていきます。
おはようございます、サム。メリークリスマス。このブレイクスルーについてどう思われますか?
o3のリリースは非常に興味深いものでした。多くの人々は、GPT-4.5のようなものがリリースされると予想していたと思います。実際にはo3はまだリリースされていません。1月末頃に外部テスターに使用させ始めると発表しただけです。現時点では、これはモデルの非常に早期のバージョンです。
確かに、より良い性能を発揮しているように見えますが、それにはどのようなコストがかかっているのでしょうか。あなたが言及したAGIの競争などについて考えてみましょう。
その競争は以前からあり、データセットは5年以上前からありました。長い間、人々は本当に進展を見せていませんでした。今年、適切な賞金が設定されたことで、より多くの人々が挑戦するようになりました。
オープンエントリーには非常に厳密なルールがあったことに触れるべきですね。やり方を示す必要があり、使用できる計算量が制限され、オフラインで動作する必要がありました。つまり、これらの大規模モデルを呼び出すことはできませんでした。
多くの点で、OpenAIはこれらのルールの多くを破っていますが、ARCチャレンジを運営している人々の監督のもとでそうしており、2つのかなり驚くべき結果を達成しています。
最初の結果は、計算量を制限したo3ミニで約75%を達成しました。そして2番目の本当に印象的な結果は、87%という数字です。そして、その計算コストは低い方の172倍だと言われています。記憶では100問程度の質問に答えるのに、莫大な金額がかかっているということです。
あなたが言及したように、フランソワは基本的にこれらのモデルがこのようなことをできないはずだと主張していた人物です。そして今でも、彼らが達成したことは非常に印象的だと認めざるを得なくなっています。
彼はそのブログ投稿で、現在あるすべてのエントリーをアンサンブルすると約84%に達すると指摘しました。これは驚くべきことです。なぜなら、各人の好成績のエントリーは同じ質問で上手くいき、他の質問は全て間違えるだろうと思われていたからです。しかし、そうではないことが判明しました。あるアプローチは特定の質問で上手くいき、他のアプローチは別の質問で上手くいくようです。
では、OpenAIはこれら全てを行う方法を見出しただけなのでしょうか?
間違えた答えのいくつかを見ると、それらは明らかなことですよね。非常に複雑なことではありません。これが本当にAGIであれば、これらのことは理解できていたはずです。
これはただ一つのデータセット、一つの競争であることを覚えておいてください。私が好むAGIの定義の一つは、現在マイクロソフトの消費者AI部門のトップを務めるムスタファ・スレイマンのものです。彼は「インターネットにアクセスさせて、10万ドルを稼がせてみろ」と言っています。
もしそれができれば、それがAGIだと。私はこの定義が気に入っています。なぜなら、それには Upwork のようなフリーランスプラットフォームに行き、仕事に入札し、支払いを受ける仕事を完了し、その全てを行うことが必要になるからです。
それはAGIであるだけでなく、大きな経済的シフトとなるでしょう。もしそのようなことができるモデルがあれば、それは本当に大きな出来事となります。
もし ARCチャレンジのような紙の上での素晴らしい点を取得できるモデルがあったとしても、それは学術的には素晴らしいことかもしれませんが、まだビジネスにとっては大きな意味を持たないかもしれません。我々は本当に、o3モデルが他にどんな印象的なことができるのかを見たいのです。
そうですね、私もそのことを考えていました。o1は本当に高度な数学の分野や、答えることのできる洗練された科学的問題の分野に入っているように見えました。o3も同じように感じますが、多くのアプリケーションにおいて、あなたが指摘したように、eコマースやその他のアプリケーションを通じて実際にお金を稼ぐことができるエージェントをこれらのLLMで実行できるかどうかなど、これらの基本的な問題を解決できるのかと疑問に思っています。
OpenAIは何かをリリースしなければなりませんでした。なぜなら、これまでのところ、競合他社から大きな開発が行われているからです。GoogleはGemini 2.0で非常に重要なものを発表し、来年のGemini 2.0から何が出てくるかを予告しています。
年末までに何かを出す必要があり、12日間の出荷祭りがありました。これはOpenAIが出す必要があった重要なものだと思いますか?それとも、批評家たちが出てこないようにするために、十分なものだったのでしょうか?
確かにo3モデルは印象的に聞こえますが、実際にはモデルを出荷していません。12日間の出荷祭りで話していた多くのことを実現できていません。これらは1月に来るとか、来年の初めに来るとか、そういった類のものでした。
私にとって興味深かったのは、12日間の出荷祭りが開発者向けよりも消費者向けに多く焦点を当てていたことです。o3は先週の最後のドロップでした。主にARCチャレンジのためです。
o3がo1と比べてどれだけ良いのか、それは単に実行時間を長くしただけなのか、それは興味深いところです。o1モデルの本当の変更点は、推論時により多くの計算を使用していることです。実際に実行している時、つまり実際に行っている時は、考えるのに多くの時間がかかっています。
もしo3が単により多くの時間をかけているだけで、それによってより良くなっているのであれば、それは非常に興味深いことになります。なぜなら、他のプレイヤーも同じことをするでしょう。基本的にこの種のテストタイム計算、推論計算をより多く与えて、モデルをより良くすることができるからです。
Googleからでなく、Google以外からo1モデルのフォローアップが非常に早く見られたのは本当に驚くべきことです。Googleからは予想されることでしたし、Anthropicからも、まだ何もリリースしていませんが予想されることです。しかし、オープンソースコミュニティからは、人々がこれらのアイデアを出し始めているのを多く目にしています。
特に中国企業からですね。中国の多くの企業が現在、これらのモデルの独自バージョンを作成しているという事実は本当に驚くべきことであり、おそらく膨大な計算量なしでもこれらのことの一部を行うことができることを示しています。
このテストタイム検索、つまりプログラムの空間に対する検索について、多くの議論があるように感じました。この場合、自然言語プログラム、つまり手元のタスクを解決するための手順を説明する思考の連鎖の空間についてです。
OpenAIのエンジニアの一人はその後、o1は最初の大規模推論モデルだと述べました。それは単に強化学習で訓練されたLLMです。o3は強化学習をさらにスケールアップすることで強化されています。
技術に詳しくない人のために、これを文脈に置いていただけますか?強化学習、思考の連鎖について、少しリーダーシップの考えが発展しているのでしょうか?それとも、これは誰でも簡単に真似できることなのでしょうか?
まず、思考の連鎖というものがあります。これは基本的に、人々がこれらのモデルからより良い結果を得るために、その考えを説明させることができることに気づいたことから始まりました。
「このようなことをステップバイステップで教えてください」と頼むと、ステップバイステップで説明することで、最終的により良い答えを得られる正しい思考の道筋を保つことができました。
最終的に人々は、これらの思考の連鎖で訓練すれば、さらに良くなることに気づき始めました。それが昨年のこの時期の状況でした。
その後、誰もが注目し始めたのは、どうすればさらに良くなるかということです。多くの異なる思考の連鎖で答えを生成し、どの思考の連鎖が最後に正しい答えにたどり着いたかを見て、正しい答えにたどり着かなかったものは全て捨て、最良の思考の連鎖は何だったのかを理解しようとしました。
そして、最後に正しい答えを得ることだけでなく、途中で正しい思考の連鎖を得ることにも訓練し、それらの思考の連鎖を見て「あ、これは良い、これは悪い」と言える第二のモデルを訓練します。
そして強化学習を使って、最初のモデルが時間とともにこれらの良い思考の連鎖を展開することがより上手くなるように訓練します。それが全体的なアイデアです。
明らかに、これをスケールアップすればするほど良くなり、それを行う異なる方法があります。OpenAIが提案した、あるいはイリヤ・サツキーバーが去る前の論文で提案した興味深い方法の一つは、「ステップバイステップで検証しよう」というものでした。
思考の連鎖の各ステップを見て、「はい、これは良い」と検証し、より長い思考の連鎖を得ようとしながらも、途中で軌道を外れないように訓練することができます。
自分自身のことを考えてみても理由は分かります。難しい問題について考えるとき、問題についてより多く考え、異なる方法で考えれば考えるほど、正しい答えにたどり着くことがよくあります。これらのモデルも基本的に同じことをしているのです。
現在、これらのモデルの課題は、研究についてというよりも、推論時、つまりこれをスケールアップして突然推論時により多く計算を使用する場合に、それを効率的に行う方法です。$20,000もの料金を請求することなく、人々に請求できるようにする方法です。
これらのことは非常に速く動いています。昨夜、クリスマスディナーの席で、大手化学・製薬会社の方と会話をしました。彼らは基本的に、来年は待つことにしたそうです。モデルの微調整や独自のモデル構築を控えることにしたのです。
これはかなり規模の大きい、少なくともフォーチュン500に入る企業です。理由は、モデルの進化が非常に速いため、現在のモデルをベースに微調整版を開発すると、約6ヶ月で陳腐化してしまうと感じているからです。これらの新しい世代が登場するためです。
私たちの視聴者や企業でアプリケーションを構築している人々のために、実践的な教訓を結びつけたいと思います。これが結論なのでしょうか?つまり、彼らはRAG(検索拡張生成)を使用して、組織からのデータ、持っているものすべてを呼び出すということですか?
確かに、この人は限定的なアプリケーション、ナレッジベースのアプリケーションなどについて話していました。しかし、年末に向けて、ここにいる人々にとっての教訓は何でしょうか?
状況は変化しました。モデルは今や非常に良くなり、モデルのコンテキストもより大きくなったため、モデルに送信する実際のものに例を入れることができる「インコンテキスト学習」と呼ばれるものを使用できます。
ほとんどのプロバイダーは現在、それらをシステムにキャッシュすることを許可しているため、この種の多くの呼び出しを行っても、せいぜい数セントのコストで済みます。
もう一つ本当に興味深いのは、微調整が異なる形で復活する可能性があることです。これらの推論モデルにおいて、人々が気づき始めているのは、会社の特定のこと、例えば創薬のようなことについて本当に考えさせたい場合、自社のチームにそれらの思考の連鎖を理解させ、それらの思考の連鎖で訓練を行い、推論モデルに望む方法で考えさせることができるということです。
OpenAIの出荷祭りの中で興味深かったのは、これを来年の早い時期にロールアウトする予定で、わずか十数個の例でも良い結果が出ていると述べていたことです。
この種の微調整を行うには、数千の例が必要だった微調整から、おそらく100個未満に減少する可能性があり、これは微調整のコストがそれほどかからない可能性があることを意味します。
特定の種類の思考のために最新のo3モデルを微調整し、その他のすべてのことにはRAGなどを使用し、基本的に既製のモデルを使用するというのは、良いコストのトレードオフになるかもしれません。
驚くべきことは、現在利用可能な最も安価な低レベルのモデル、Geminiフラッシュモデル、Claude Haiku モデル、さらにはOpenAIのミニモデルなども、18ヶ月前に比べてはるかに優れているということです。
しかし今では、それらは単なる超安価なモデルとなり、人々は数百万のトークンを投入しても、本当にそれほどコストがかかりません。
私たちは、スタックの中での価値の所在が変化しているのを目にしています。これは、ビジネスユーザーなどについて話すことの多くに本当に重要だと思います。人々は今、利用可能な非常に安価なモデルで十分に良い仕事ができます。
そのため、ゲームはモデル層から上の層へとシフトしています。だからこそ、エージェントについてこれほど盛り上がっているのです。誰もがエージェントについて話し、これについて、あれについて話しています。
実際に彼らが言っているのは、この基盤層の上に本当にクールなアプリをどのように構築するかということです。この基盤層は今やかなり堅固で、良好で、得られる応答のたびに幻覚を見ることを心配する必要がありません。モデルはそれらのことについてはるかに良くなっています。完璧ではないかもしれませんが、はるかに良くなっています。
今や人々は「これでどうやってお金を稼ぐのか?」「これを使って人々に本当に役立つ製品をどのように構築するのか?」と考え始めています。
結局のところ、これらは十分に良いということですね。進歩がなかったとしても、研究所、OpenAIであれ、Anthropicであれ、その他であれ、Googleであれ、彼らがリードしていると言う必要があるのは明らかに位置取りのためであり、これらの投資を続けるためです。
あなたが基本的に言っているのは、今や十分に良く、モデルの上に構築する予定のこれらすべてのことがあり、LLM側のさらなる進歩がなくても、2025年には素晴らしいアプリケーションを作る素晴らしい年になると確信しているということですね?
はい、確かにそうです。そして重要なのは、LLMから得られる進歩は全体をさらに良くするということです。しかし、彼らがフラッグを立てているという事実は、これらがどこに向かうのかを示しています。
これからは開発者がこれらをどのように組み合わせるか、重要な決定ポイントをどのように見つけるか、その決定ポイントを実際に行うためにLLMをどのように洗練させるかを理解することになります。
そして今や、業界の各人がその業界でどのように行うか、市場をできるだけ早く獲得するためにどのようにするかを理解する必要があります。
そうですね、2025年は魅力的な年になるでしょう、サム。そして、あなたが言ったように、LLMプロバイダーが私たちに提供できるものはすべておまけのようなものですね。
最近、AnthropicのCEOであるダリオ・アモデイの会話を聞いていました。彼はAGIが来ることを前提に話していました。確か2026年か2027年頃だと言っていたと思います。もちろん、実現しない多くのリスクがあります。
遅延させる可能性のあるものもありますが、来年にでもすべてが止まったとしても、これだけの価値を生み出せるということは素晴らしいことです。そして、2026年、2027年にかけて潜在的に開かれ続ける可能性のある、これらの大きな機会があるのです。
来年に何が起こるのか、そして来年にどのように計画を立てるべきか、あなたと私で話し合うのを楽しみにしています。

いいなと思ったら応援しよう!