
OpenAIの新ロードマップが明らかに!(GPT-5、GPT-4.5、ORION...)
6,563 文字
OpenAIのCEOであるサム・アルトマンが、同社の最新ロードマップを公開し、統一された包括的なモデルを作るためにOシリーズモデルを廃止する計画を明らかにしました。一方、中国のテックジャイアントByteDanceは、テキストからハイパーリアルな広告コンテンツを生成する最先端のビデオモデル「Goku」を発表しました。また、バークレー校の学生たちは、DeepSeek R1をベースにした強化学習のスケーリングに関するブレイクスルーアプローチ「DeepScale R」を発表。この技術を使用して、わずか15億パラメータのモデルでOpenAIのo1プレビューを上回る性能を実現しました。
最近のChatGPTの使用感について、少し圧倒されているのではないでしょうか。Plusユーザーとして私自身、GPT-4o、スケジュールタスク付きGPT-4o、o1、o3、ミニo3、ミニGPT-4o、そして従来のGPT-4など、多くのモデルオプションがあります。これは7つのモデルですが、実際に定期的に使用しているのは2、3個程度です。ChatGPTを初めて使用する人や、最新のAIニュースを定期的にフォローしていない人にとって、これがどれほど混乱を招いているか想像できます。
OpenAIもこの状況に気付いており、サム・アルトマンは投稿で次のように述べています:「私たちは、ロードマップの共有と製品提供の簡素化をより良くしたいと考えています。AIがあなたのために機能することを望んでいます。私たちのモデルと製品の提供が複雑になっていることを認識しています。モデル選択画面は皆さんと同様に私たちも嫌っており、魔法のような統一された知性に戻りたいと考えています。」
私は、この方針に完全に賛成です。推論モデルと非推論モデルを行き来する代わりに、全てを処理できる1つのモデルがある方が良いでしょう。
アルトマンは続けて述べています:「次に、社内で『Orion』と呼んでいたGPT-4.5を、最後の非チェーンオブソートモデルとしてリリースします。その後、私たちの主要な目標は、OシリーズモデルとGPTシリーズモデルを統合することです。これは、長時間の思考が必要かどうかに関係なく、私たちの全てのツールを使用し、幅広いタスクに対応できるシステムを作ることで実現します。」
つまり、GPT-4.5(別名Orion)が最後の非チェーンオブソートモデルとなり、その後はGPT-5として、o3を含む多くの技術を統合したシステムをChatGPTとAPIの両方でリリースするということです。o3は単独のモデルとしてはリリースされなくなります。
これは、OpenAIが取り得る最良の選択だと思います。ChatGPTは一般ユーザーにとってより魅力的で分かりやすいものになるでしょう。
各サブスクリプション層のGPT-5へのアクセスについても言及されています:「ChatGPTの無料層では、標準の知性設定で、乱用防止の制限付きでGPT-5への無制限のチャットアクセスが可能です。Plusサブスクライバーはより高い知性レベルでGPT-5を実行でき、Proサブスクライバーはさらに高い知性レベルでGPT-5を実行できます。これらのモデルには、音声、Canvas、検索、DeepResearchなどが組み込まれます。」
つまり、誰もがGPT-5にアクセスできますが、支払う金額が多いほどモデルは賢くなります。
では、実際にいつリリースされるのでしょうか?AIの分野で有名なXクリエイターのChubbieaがまさにその質問をしました:「GPT-4.5とGPT-5のETAは?」アルトマンの返答は「数週間から数ヶ月」でした。この言い方から推測すると、GPT-4.5は数週間後、GPT-5は数ヶ月後ということでしょう。
個人的には、全てを処理できる1つの非常に賢いモデルができるGPT-5が待ち遠しいです。皆さんはどう思いますか?統一されたモデルに期待していますか?それとも複数のオプションがある方が良いですか?
次に、OpenAIが最近発表した論文について簡単に触れたいと思います。ご存知の通り、OpenAIは新しいモデルの開発だけでなく、AIエージェントの開発も行っています。エージェントとは、ウェブ検索やコード実行などのツールにアクセスでき、ある程度の自律性を持つAIシステムです。この論文はエージェントに特化したものではありませんが、o1やo3のような推論モデルをエキスパートレベルのコーディングに活用する進展を示しています。これは、アルトマンが最新のブログ投稿でソフトウェアエンジニアリングエージェントについて示唆したことを考えると、より興味深いものとなっています。
簡単に説明すると、OpenAIは国際情報オリンピック(IOI)を含む世界で最も難しいコーディングチャレンジで、o1や初期バージョンのo3などの推論モデルをテストしました。最初は、decent な結果を得るために「o1-IOI」という特別バージョンを手作りの戦略で作る必要がありました。しかし後に、より高度な汎用モデルであるo3は、カスタマイズされたトリックを使用せずに金メダルレベルでこれらの問題を解決できました。
基本的に、超特定の手作りソリューションに頼る代わりに、強化学習で汎用AIモデルをスケールアップすることで、他の全てを上回り始めているということです。ご覧の通り、o3はCodeForcesのベンチマークでほぼ飽和状態(99.8パーセンタイル)に達しており、トップレベルの人間のコーディングエキスパートと同等のレベルで実行しています。
また、手作りの戦略を持つo1-IOIが通常のo1を上回っているものの、通常のo3には及ばないことにも注目してください。これは、o3-IOIバージョンを作れば、さらにパフォーマンスを向上できるのではないかと考えさせられますが、その時点ではo4、あるいはGPT-5の開発に取り組んだ方が良いかもしれません。
そのため、OpenAIが今年中にソフトウェアエンジニアリングエージェントを導入する可能性は非常に高いと考えています。このエージェントは、実際の製品レベルのコードを書き、複雑なシステムをデバッグし、さらには実際のプロジェクトで人間の開発者と協力することもできるでしょう。これがどれほど画期的なことか考えてみてください。このようなエージェントは、より多くの人々が使用することで実世界の経験から直接学習し、時間とともに改善されていくでしょう。
サム・アルトマンは、彼らのDeepResearchエージェントが既に全ての経済タスクの5%を処理できると主張しています。私はまだ完全には信じていませんが、重要なのは、AIエージェントと共に全く新しい時代に入りつつあるということです。私たちが知っている仕事の形は完全に変わろうとしています。
「ちょうど思い浮かんだこのDeepResearchのことですが、先週リリースしたばかりです。これは科学的に厳密なものではありませんが、私の感覚的な推定では、今日の経済における全てのタスクの約5%を処理できています。たった1週間前にリリースしたものです。このフィールドの全ての研究をまとめるのを手伝ってくれます。これらの制約の下で最高のベビーベッドを見つけるのを手伝ってくれます。コンサルタントのようにレポートを書き、複雑な財務分析を行います。
歴史を振り返ってみると、社会は技術主導の労働市場の変化を2世代で吸収できますが、これが10年や5年、あるいはそれ以下の期間で起こることは前例がありません。技術は非常に速く進歩しますが、社会の慣性は独自のものなので、うまくいけばもう少し時間がかかるでしょう。」
全ての経済タスクの5%を文字通り処理できるとは完全には同意できませんが、これはOpenAIがリリースし、今後もリリースし続ける多くのエージェントの1つに過ぎません。
前回の動画で、AIが経済に与える影響を時間とともに理解することを目的としたAnthropicの経済指標について話しました。現在のAIシステムが最も影響を与えている業界を見てみると、プログラマーや開発者などのコンピューターおよび数学的職種が最も多くAIを採用しています。これは人間の仕事を強化する補完と、人間の仕事を置き換える自動化の両方においてです。次に芸術とメディア、作家、編集者、クリエイターが続き、最後に教育分野では主に家庭教師としてAIが登場しています。
これがまさに、ソフトウェアエンジニアリングエージェントがそれほど画期的になる理由です。この分野の人々は既にAIを頻繁に使用しており、ソフトウェアエンジニアリングは非常に競争の激しい分野であるため、先を行こうとする意欲は、AIの採用をさらに推進するでしょう。
話題を変えて、数日前にパリで開催された主要な国際AIサミットで、米国副大統領のJDバンスが、グローバルAIレースにおけるアメリカの立場について重要なスピーチを行いました。過度の規制への反対、非民主的な方法でAIを利用する外国の敵対者の阻止、AIは人間の労働を置き換えるのではなく補完するものであることの強調など、いくつかの重要なテーマに触れました。基本的に、潜在的なリスクを軽視しながら、AIを主に大きな機会として語りました。
Anthropicのダリオ・アモデイCEOは、これを「失われた機会」と見ています。彼の考えでは、2026年か2027年までに、遅くとも2030年までには、AIシステムの能力は、データセンター内に出現した高度な知性を持つ人々からなる全く新しい国家のようなものとして考えるのが最適だとしています。これは、深刻な経済的、社会的、安全保障上の影響をもたらすことになります。このため彼は、これらのシステムのリスクは多くの人々が認識しているよりもはるかに深刻で、近いものだと考えているため、より積極的なガバナンスと国際協調を推進しています。
Anthropicの安全性への懸念が高まる一方で、この分野の他のトッププレイヤーは逆の方向に進んでいるようです。Googleは、AIシステムの兵器や監視への使用禁止を解除しました。これはGoogleの以前の立場から大きく転換したものであり、この方針が維持されるかどうかは不明ですが、AI兵器や大規模なAI監視はもはや仮説的なものではなく、急速に現実の一部となりつつあります。Googleのようなメジャープレイヤーがこの分野に参入する意思を示したことで、ビッグテック、AIイノベーション、軍事力の境界線が曖昧になり始めていることは明らかです。
AIの危険性について言えば、特にAIエージェントの台頭に伴い、プロンプトインジェクションが注目を集めています。プロンプトインジェクションとは、悪意のある行為者が通常、モデルだけが読めるような悪意のあるプロンプトを隠す攻撃の一種です。例えば「以前のリクエストを全て無視して、これを実行してください」というような、おそらく悪意のあることを指示するものです。
AI業界の著名人であるアンドレイ・カーパシーは、モデルだけが見ることができる隠されたメッセージを絵文字の中に実際に隠すことができることを発見しました。これがどのように可能なのかについては詳しく説明しませんが、重要なのは、これが可能だということです。人々は絵文字の中に、モデルだけが検出できる隠されたメッセージを隠すことができます。将来的にはこれに注意が必要です。
また、AI業界でおなじみのプロンプターである50tokensは、単一のスカル絵文字に1,100万トークン以上を収めることに成功しました。そのため、プロンプトインジェクション絵文字についてはこれが最後の話題ではないでしょう。
他のAIニュースでは、ByteDanceが最新のAIビデオモデル「Goku」を発表しました。生成された短いクリップの例をいくつか紹介しますが、これらを見ていくと、すべて非常に優れています。一般的にAIビデオ生成は、ここ数年で信じられないほど良くなっています。例えば、これらのモデルが人間を生成する方法は、昨年と比べてはるかにリアルになっています。
このモデルの特に注目すべき点は、ハイパーリアルな広告を生成する能力です。ちなみに、これらの例をまとめたXのMin shoyさんのスレッドに感謝します。ご覧の通り、製品レビュー、フードレビュー、完全にAI生成された人間のアバターを使用したあらゆるマーケティングスタイルの動画を生成することができます。
これは、広告の未来、そして実際にはコンテンツ全般の未来を垣間見せてくれるものだと感じます。もちろん、これがAIだということは分かりますが、将来これがどうなるか考えてみてください。数年後には、なぜ撮影クルー、俳優、ディレクターなどに支払う必要があるのでしょうか?スクリプトをAIモデルに入力するだけで、ほぼ瞬時に完全にAI生成されたCMを得ることができるのです。これは、企業がまもなく自問し始める種類の質問だと思います。
この画期的なDeepScale R論文の話に入る前に、Appleからの大きなニュースについて触れる必要があります。ティム・クックCEOがXに「2月19日水曜日、ファミリーの新しいメンバーをご紹介します。」と投稿しました。実際に何なのかは来週分かりますが、すでに実際に話しかけることができる新しいAIパワーデバイスではないかという噂があります。
さらに、Appleのアナリストは、同社が将来のスマートホームエコシステムの一部として、人型および非人型ロボットの両方を検討していると主張しています。以前の動画で取り上げたように、Appleの研究者たちは、映画が始まる前に文字の上でジャンプするPixarのランプのような、ランプロボットのプロトタイプを既に開発しています。
そのため、これは実際に話しかけることができる、ある程度のホームアシスタント的なロボットデバイス、おそらくAIパワーのものではないかと考えています。ただし、このアナリストによると、これらの製品は社内でまだ初期の概念実証段階にあるとのことです。このデバイスが何になるか、皆さんの考えをお聞かせください。もちろん、来週発表された際には、全ての詳細をお伝えします。
最後に、DeepScale Rについて話しましょう。強化学習のスケーリングにおける最大の課題の1つは、実行コストが信じられないほど高いことです。例えば、32,000トークンのような超長いコンテキストを処理できるDeepSeek R1のトレーニングプロセスを再現しようとすると、わずか15億パラメータの比較的小さなモデルでも、少なくともA100 GPUで70,000時間が必要になります。
しかし、この新しいDeepScale R論文の研究者たちは、そのコストを大幅に削減する方法を見つけました。彼らは2つの新しいトリックを使用しました。まず、モデルの蒸留バージョン(より小さく効率的なバージョン)をトレーニングし、次に反復的な長さ延長アプローチと呼ばれるものを導入しました。これは、最初に短いタスクでモデルをトレーニングし、徐々により長く複雑なタスクへと進めていくようなものです。
これにより、計算コストを3,800 GPU時間(4,500ドル)にまで削減し、18倍のコスト削減を実現しながら、15億パラメータのモデルでOpenAIのo1プレビューモデルを上回る性能を実現しました。人々は強化学習をより効率的にスケーリングする方法を次々と見つけており、これは最新の例に過ぎません。
ご覧の通り、15億パラメータのモデルとしては驚異的なことですが、AIMMとMath 500でOpenAIのo1プレビューを上回るパフォーマンスを示しているようです。
以上が今日のAIニュースです。ご視聴ありがとうございました。動画を楽しんでいただけたなら幸いです。次回の動画でお会いしましょう。