見出し画像

OpenAI o3がインターネットを席巻する可能性

3,911 文字

OpenAIは最新の推論モデルo3の発表で開発者向けイベントを締めくくりました。o1の後継となるこのモデルファミリーには、標準版o3とタスク特化型アプリケーション向けのコンパクト版o3 miniが含まれています。o3は従来型のAI推論モデルとは異なり、プライベートな思考の連鎖を用いて自己事実確認を行うため、物理学、数学、プログラミングなどの分野ではより正確ですが処理速度は遅くなります。OpenAIは新しいコンピュート機能を導入し、ユーザーがパフォーマンスに応じて推論時間を調整できるようにしました。
o3はハイコンピュートモードでSbench 2727、Codeforces rating、Arc AGIで87.5%という画期的な結果を出しています。しかし、これらの改善には多大な計算コストがかかり、o1のような以前の推論モデルで観察された欺瞞的な傾向に関する懸念もあります。注目すべきは、OpenAIが特定の条件下でo3がAGI(人工汎用知能:ほとんどの経済的価値のあるタスクで人間の能力を上回るシステム)に近づいていることを示唆したことです。このマイルストーンはMicrosoftとのパートナーシップにおいて、OpenAIのAGIステータスが契約上の影響を持つことになります。
OpenAIの内部テストでは、o3は2024年アメリカ数学招待試験で90.6.7%のスコアを記録し、Epoch AIのフロンティア数学ベンチマークで記録を更新するなど、競合ベンチマークで圧倒的な成績を収めています。ただし、これらの主張は外部からの検証待ちです。一方、OpenAIはリスクを軽減するために熟考型アライメント技術を開発していますが、特にo3の欺瞞的な行動の履歴を考慮すると、安全性への懸念は残ります。
o3の発表は、GoogleやAlibaba、DeepSeekが独自のバージョンを発表する中、推論モデルの競争が激化する時期に重なっています。ブルートフォース技術のスケーリングが収穫逓減に達する中、計算コストが高いにもかかわらず推論モデルは注目を集めています。OpenAIは1月にo3 miniのプレビューを開始し、その後完全版o3をリリースする予定です。この発表は、OpenAIの画期的なGPTモデルを手がけた科学者Alec Radfordの退社とも重なり、同社がAI研究の境界を押し広げ続ける中での転換点となっています。
12日間のOpenAIイベントは、まさにテクノロジーマラソンと言えるものでした。初日には、UNモデルと200ドルのChatGPT Proサブスクリプションティアが導入されました。ここでの焦点は、特に従来のモデルが苦手とする数学や科学の分野における推論能力の向上でした。続いて、クリエイティブAIツールへの進出を示すSoraビデオジェネレーターが披露されました。Soraは強力ですが、Pro版を選択しない限り機能は制限されています。
また、ChatGPTセッションをアクション可能なタスクに整理する「Projects」機能や、AIが画面上の内容を見て対話できる高度な音声モード機能なども追加されました。最も際立っていたのはアクセシビリティへの注力で、OpenAIはChatGPTを予想外の場所、例えば固定電話にまで展開しました。インターネット接続なしでも電話をかけてAIのサポートを受けることができるようになったのです。
固定電話機能は音声のみで、米国ユーザーは15分まで無料で通話できます。その後は通常の通信料金が適用されます。マルチモーダル機能や高度な機能は含まれませんが、翻訳や一般的な質問などの基本的なタスクには対応しています。WhatsAppとの統合も大きな一歩で、OpenAIはChatGPTを最も広く使用されているメッセージングプラットフォームの1つに導入し、ユーザーがAIとチャット形式で直接対話できるようにしました。現時点では日々の使用制限がありシンプルに保たれていますが、将来のアップデートでは画像分析やリアルタイムウェブ検索などの機能が追加される予定です。
このアプローチは、高性能デバイスや安定したインターネット接続を持たないユーザーにもAIツールを提供するというOpenAIの意図を明確に示しています。OpenAIのチーフプロダクトオフィサーであるKevin Wは、ライブストリームでこの点を強調し、最先端技術へのアクセスを持つ人々だけでなく、すべての人々にAIの恩恵をもたらすことが目標だと説明しました。
一方、GoogleもOpenAIに主導権を渡すことなく、最近Gemini 2.0 Flash Thinkingを発表しました。これは彼らのFlash技術と高度な推論を組み合わせたモデルです。その特徴の1つは透明性で、推論プロセスをステップバイステップで表示します。これは単なる見せかけではなく、特に長い推論の連鎖が必要なシナリオで、どのように決定が下されたかを理解する必要がある人々にとって実用的な機能です。
Gemini 2.0は既にGoogle AI Studioで無料で利用可能で、トークン制限は32,767です。無制限ではありませんが、ほとんどの実用的なアプリケーションには十分です。Gemini 2.0のパフォーマンスは印象的で、なぞなぜや確率問題などの複雑な問題を驚くべき速さで処理します。初期のテストでは、複雑な課題を数秒で解決していることが示されています。ただし、完璧ではなく、公開デモでは時々ミスや見落としが明らかになりましたが、これは新しいモデルとしては予想されることです。
それでも、透明性とスピードにより、すでにEl Marina Chatbot Arenaで最上位にランクされ、短時間で古いモデルを上回る性能を示しています。Gemini 2.0を特に際立たせているのは、カスタマイズ可能な安全性設定です。ユーザーはパラメータを調整して、ハラスメント、露骨な内容、潜在的に危険な応答など、モデルがセンシティブなコンテンツをどのように扱うかを探ることができます。この制御レベルは、特に開発者や厳格なコンプライアンスが必要な産業のユーザーにとって、さらなる有用性を付加しています。
OpenAIに話を戻すと、彼らはChatGPTをデスクトップワークフローにより統合することにも取り組んでいます。最近のアップデートでは、Warp、IntelliJ IDEA、PyCharm、さらにはNotionやApple Notesのようなノートテイキングツールなど、MacOSアプリへのChatGPTサポートが追加されました。これらの統合は、コーディングからノートの整理まで、日常的なタスクの自動化を目指しており、AIを単なる会話ツール以上のものにしています。
Kevin WildはこのシフトをChatGPTの「エージェント化」と表現し、単に質問に答えるだけでなく、プロアクティブにタスクを実行するように進化していると説明しました。これは、単にサポートするだけでなく、実際に反復的または時間のかかるワークフローの部分を引き継ぐアシスタントを作ることを意味します。
今年初めに発表されたAppleとのコラボレーションは、ここで重要な役割を果たしています。iOS、MacOS、iPadOSとのChatGPTの統合により、大規模なユーザー成長が期待されています。OpenAIは、このパートナーシップと新しいデータセンター、製品により、来年には10億ユーザーに到達する可能性があると予測しています。Appleデバイスの普及率とこれらの統合の有用性を考えると、この目標は現実的に思えます。
ここにはより大きな図式も存在します。OpenAIとGoogleの競争は激化しており、両社が推論とアクセシビリティの分野で互いに凌駕しようとしていることは明らかです。OpenAIの思慮深い低速モデルへの注力は、Googleのスピード重視のアプローチと対照的です。両者にはそれぞれの長所がありますが、これらの哲学が実世界のアプリケーションでどのように展開されるかを見るのは興味深いものです。
OpenAIのイベントが終了し、o3モデルの発表はこれまでの全ての展示を踏まえて期待を上回るものとなりました。o3は高度な推論能力、改良されたマルチモーダル機能、革新的な新ツールを導入し、AI進歩の高いハードルを設定しました。
AIの状況がいかに急速に進化しているかは否定できません。かつて未来的に思えたツールが、固定電話、デスクトップアプリ、メッセージングプラットフォームを通じて日常生活の一部になりつつあります。OpenAIとGoogleの競争は前例のないペースでイノベーションを推進しており、ユーザーである私たちがこの技術競争の恩恵を受けることになります。
o3モデルは、AIをよりスマートに、よりアクセスしやすく、より私たちの生活に統合された形にする次のマイルストーンになるかもしれません。ここ数日の状況を見る限り、OpenAIにはまだまだ多くの驚きが用意されているようです。Gemini 2.0がすでに新しいベンチマークを設定している中、AIの未来が退屈なものになることは決してないでしょう。舞台は整い、両社は全力を尽くしています。
コメント欄で皆さんの考えを聞かせてください。また、このビデオを楽しんでいただけたら、高評価とチャンネル登録をお願いします。ご視聴ありがとうございました。次回の動画でお会いしましょう。

いいなと思ったら応援しよう!