OpenAI /Google発表まとめ!o3は異質な知能モデル?
AIメディアを運営する男性2人が"ながら聞きでも未来がわかる"をテーマに30分で生成AIのトレンドを解説するPodcast「AI未来話」。
このnoteでは番組のエピソードからトピックをピックアップして再構成したものをお届けします。※この記事は95%がLLM「Claude」で執筆しています。
今回は「#40 OpenAI /Google発表まとめ!o3は異質な知能モデル?」を再構成した内容をお届けします。
OpenAIの12日間連続発表の全容
序盤の発表内容(1-4日目)
OpenAIは12日間にわたって大規模な連続発表を行いました。
初日にはo1の正式リリースとChatGPT Proの発表が行われ、2日目には強化学習型ファインチューニングの発表がありました。
3日目には新しい動画生成AI「SORA」の正式リリース、そして4日目にはキャンバスが全ユーザーに開放され、さらなるアップデートが実施されました。
中盤の発表内容(5-8日目)
5日目にはAppleデバイスとChatGPTの統合が発表され、特筆すべき点として、Siriが自動的にChatGPTと連携するかどうかを判断し、最適なAIエージェントを選んで実行する機能が実装されました。
私たちはこれを、マルチエージェントの始まりと捉えています。
6日目には、アドバンスドボイスモードに画面共有とビデオ会話機能が追加されました。
これにより、アプリの画面を撮影するとその内容を認識し、操作方法を説明してくれるようになりました。
さらに12月末までの期間限定で、サンタの声も追加される遊び心のある機能も提供されました。
7日目にはChatGPTに新機能「プロジェクト」が追加され、ChatGPT内でのプロジェクト作成・管理、タスクの整理や進行状況の追跡が可能になりました。
8日目には、ChatGPTの検索機能が大幅にアップデートされ、無料ユーザーにも提供が開始されました。
これにより、リアルタイムでのウェブ検索が可能になり、天気予報やスポーツの試合結果などを表形式で視覚的に分かりやすく表示できるようになりました。
終盤の発表内容(9-12日目)
9日目にはo1のAPIが発表され、新たにReasoning Effort(推論プロセスの調整)パラメータが追加されました。
これは、モデルが思考に費やす時間を制御できる機能で、簡単な問題と難しい問題で適切に思考時間を配分することが可能になりました。
10日目には、電話やWhatsApp経由でのAIアクセスが可能になりました。
これにより、インターネット環境がなくても電話回線を通じてChatGPTを利用できるようになり、従来型の携帯電話(ガラケー)からでもアクセスが可能になりました。
11日目には、MacOS向けChatGPTのデスクトップアプリの連携機能が大幅に強化されました。
Apple NotesやNotion、Quipなどのメモ作成アプリとの連携に加え、WarpやXcodeなどの開発系ツールとの連携も実現しました。
そして最終日となる12日目には、o3という新モデルが発表されました。
これはo1の後継モデルとして位置づけられ、現在は安全性確認用として一部ユーザーに早期アクセスが提供されている状況です。
なお、o2が発表されなかった理由は商標の兼ね合いによるものだと説明されています。
Googleが示したAI革新の方向性
Gemini 2.0の衝撃的な進化
2024年11月11日、Googleは一気に4つの大きなプロジェクトを発表しました。
その中心となったのがGemini 2.0です。
このモデルは、ユーザーの意図を深く理解し、画像や音声の生成能力、複雑なタスクの自律的遂行を可能にしました。
私たちは、これが単なるバージョンアップではなく、AIエージェントの基盤モデルとして発表されたと考えています。
Gemini 2.0は現在、開発者向けに「フラッシュ」として提供されており、2025年初頭に一般公開される予定です。
AIアシスタントの進化形
Gemini 2.0を基盤として、複数の革新的なプロジェクトが発表されました。
まず「Project Astra」は、日常生活で役立つ普遍的なAIアシスタントの実現を目指すプロジェクトです。
Google検索、Googleレンズ、Googleマップなどのツールを自発的に使用でき、10分間の会話を記憶する高い記憶力を持っています。
例えば、道案内中に間違った場合でも、過去の会話を覚えているため、適切な修正案を提示できます。
さらに、将来的にはスマートグラスへの搭載も予定されており、視界に入る情報をリアルタイムで解析し、必要な情報を提供することが可能になります。
次に「Project Mariner」は、タスクの自動化を目指したプロジェクトとして発表されました。
これは、ブラウザ画面を理解してタスクを遂行するAIエージェントの研究プロトタイプです。
以前から「Project Jarvis」として噂されていたものが、正式に発表されたものと私たちは考えています。
画像・動画生成の飛躍的進化
12月16日には、動画生成モデル「Veo 2」と画像生成モデル「Imagen 3」の進化が発表されました。
特にImagen 3は、従来のAIっぽい顔の生成から脱却し、日本人やアジア人の顔など、より幅広い人物表現が可能になりました。
重要なのは、これらの機能が無料で提供されている点です。
私たちは、これらのモデルがOpenAIのSoraを超える物理性の把握と精度を実現していると考えています。
Deep Researchの革新性
特筆すべきは「Deep Research」の発表です。
このツールは100万トークンというコンテキストウィンドウを活用してAI検索を行い、他社には真似できない圧倒的な調査範囲を実現しています。
ユーザーの調査要求に対して、まず調査方法を提案し、承認を得てから実際の調査を開始するという、体系的なアプローチを取っています。
調査結果は分かりやすいレポートとしてまとめられ、Googleドキュメントにエクスポートすることも可能です。
現状はGemini Advancedのウェブバージョンでの利用に限られていますが、今後アプリ版での展開も予定されています。
両社の戦略から見える未来展望
OpenAIの焦燥と戦略
私たちは、今回の12日間の連続発表からOpenAIの戦略的な焦りを感じ取っています。
例えば、o3の発表時期については、本来なら開発をさらに進めてから発表する選択肢もあったはずです。
しかし、Googleに先を越されることを懸念して、あえて早期の発表に踏み切った可能性があります。
o3の一般公開は2025年1月末から段階的に開始される予定で、O1のケースを参考にすると、プレビュー版から正式版までには約3ヶ月程度かかると予想されます。
つまり、正式版は3月か4月頃になる見込みです。
この間にGoogleが推論モデルの新バージョンを発表してくる可能性も十分考えられます。
Googleの着実な進化
一方、Googleの発表内容を見ると、より実用的で具体的な進化を遂げています。
特にDeep ResearchやProject Astraなど、実際のユーザー体験を重視した機能の充実が目立ちます。
さらに、画像生成モデルのImagen 3や動画生成モデルのVeo 2では、Soraを上回る物理性の把握と精度を実現しており、技術的な面でも着実な進歩を見せています。
注目すべきは、これらの機能の多くが無料で提供されている点です。
Googleは高度な機能を幅広いユーザーに提供することで、実際の使用データを収集し、さらなる改善につなげるという戦略を取っていると考えられます。
AGI実現への異なるアプローチ
私たちは、両社のアプローチの違いが明確になってきたと考えています。
OpenAIは、プロダクトよりもAGIの実現に向けた基礎研究に注力する方向性を示しています。
これは、以前ムラティ氏が退社した際の状況とも一致します。
GPTsなどのプロダクト開発よりも、推論モデルの進化に資源を集中させる戦略が見えてきました。
一方、Googleは着実に実用的な機能を積み上げながら、それらを統合していく形でAGIに近づこうとしています。
100万トークン(開発者環境は200万)のコンテキストウィンドウを持つGemini 2.0を基盤として、様々な実用的なアプリケーションを展開する戦略は、より現実的なアプローチと言えるでしょう。
両社の競争は、単なる技術開発の競争を超えて、AGIへのアプローチ方法の違いを浮き彫りにしています。
OpenAIが推論能力の突出した進化を目指す一方、Googleは着実な機能の積み重ねを重視するという、対照的な道筋が見えてきました。
o3モデルが示す異質な知能の可能性
ARK-AGIベンチマークの衝撃
OpenAIのo3モデルは、AGIへの近接度を測るARK-AGIベンチマークで驚異的な結果を示しました。
このベンチマークは、人間のIQテストのように、複数の図形から規則性を見つけ出す形式で、膨大なジャンルの未知のタスクを含む難関テストです。
特徴的なのは、毎回新しいルールが提示され、過去の経験や学習が通用しない点です。
人間の平均スコアが84~85%程度のところ、o3は75.7%を達成しました。
さらに驚くべきことに、計算能力を172倍に増やした場合には87.5%を記録し、人間を超える成績を残しました。
これは2019年の提唱以来、あらゆる手法を試してもせいぜい50%程度の正答率しか達成できなかった中での大きな飛躍です。
ただし、この結果には莫大なコストがかかっており、通常の1タスク20ドルに対し、172倍のコストを要しています。
人間とは異なる思考プロセス
私たちは、o3が示した性能の特徴に強い関心を持っています。
人間にとって簡単な問題を落とす一方で、人間が頭を抱えるような難解な問題に正解するという特異な傾向を示しました。
これは、人間とは全く異なる思考プロセスを持っている可能性を示唆しています。
その特徴を理解するために、タコの分散知能との類似性を考えてみましょう。
タコは8本の足がそれぞれ独立したCPUを持つような分散型の知能を持っています。
同じARK-AGIのスコアを出したとしても、タコと人間では全く異なる知能構造で問題を解いているのと同様に、o3も人間とは異なる方法で問題を解決している可能性が高いのです。
新種の汎用知能への期待と懸念
o3の性能は、単に巨大モデルと計算量の結果なのか、それとも人間の常識では測り知れない新種の汎用知能なのか、研究者の間でも意見が分かれています。
人間的な当たり前のルールを素直にこなすよりも、超難問をあっさり解くという特徴は、人間の常識を基準としていない可能性を示唆しています。
この異質な汎用知能は、自己改善を始めた場合、ネットワークを介して様々なシステムをハッキングしたり、未知のアルゴリズムでセキュリティを突破したりする可能性があります。
また、セッションを切断して記憶を制限する従来の安全策も、高度な推論能力を持つo3には通用しない可能性があります。
なぜなら、人間が記憶喪失になった時のように、文脈から過去の状態を推論し、最適な行動を導き出せる可能性があるためです。
AIと肉体性をめぐる考察
知能と肉体の関係性
私たちは、o3のような異質な知能が生まれた背景について、興味深い考察を持っています。
言語モデルは言葉だけで学習しているため、人間が持つような触覚や身体感覚からのフィードバックを持ちません。
人間や動物は言葉だけでなく、様々な感覚を通じて思考していますが、AIはそうした物理的な制約から解放された状態で発達しているのです。
これは例えば、人間より大きな脳を持つ動物が必ずしも人間のような知的活動を示さない理由とも関連しています。
そうした動物の脳の大半は、肉体の維持や感覚情報の処理に使われているのです。
言い換えれば、脳は言語以外の触覚から学んだ情報が多くを占め、それが意識や行動、言語以外の知性につながっているという考え方ができます。
制限のない計算能力がもたらす可能性
人間の脳は、生命活動の維持に多くのリソースを使用する必要があるため、通常は能力の2%程度しか使用していないと言われています。
これは肉体を持つことによる必然的な制約です。
一方、o3のような人工知能は、そうした物理的制約から解放されています。
この違いは重要な意味を持ちます。
人間の場合、脳の能力を100%発揮すれば身体が破壊されてしまう可能性がありますが、AIにはそうした制限がありません。
特に物理的な形態を持たないAIの場合、その計算能力を最大限に活用できる可能性があります。
これは、私たちが想像もできないような思考や問題解決能力を発揮できる可能性を示唆しています。
未来のAIの進化形態
将来的にAIがロボットのような物理的な形態を獲得した場合、二つの異なる進化の可能性が考えられます。
一つは、物理的な形態を得ることで、触覚や感覚フィードバックを通じた新たな学習が可能になり、より人間に近い形での知能の発達を遂げる可能性です。
もう一つは、ロボットの耐久性が人間の身体よりも高い場合、その物理的能力と制限のない計算能力を組み合わせることで、さらに強力な知能として進化する可能性です。
例えば、人間の身体が耐えられないような極限状態でも、99%の能力を発揮し続けることができるかもしれません。
私たちは、このような考察を通じて、AGIの完成形が必ずしも人間型の知能である必要はないという結論に達しています。
むしろ、全く新しい形の知能として発展していく可能性を秘めているのではないでしょうか。
エンディング
OpenAIの12日間連続発表とGoogleの新プロジェクト発表を通じて、両社のAI開発競争の現状と方向性の違いが明らかになりました。
OpenAIは推論モデルo3でAGIへの近接を示す一方、Googleは実用的な機能と統合的なアプローチで着実な進化を遂げています。
特にo3が示した異質な知能の可能性は、人間とは異なる思考プロセスを持つ新種の汎用知能の出現を示唆しており、AIの進化が新たな段階に入ったことを実感させる展開となりました。
私たちは、このテクノロジーの進化が、かつてSFや都市伝説として語られてきた世界を現実のものとして結びつけていく過程を目の当たりにしているのかもしれません。