SORA & EVO-2: AIエージェントによる3D世界モデルの構築
6,452 文字
コミュニティの皆さん、ビデオAI生成における最新技術について話しましょう。AIで3次元世界を構築する際、私たちには大きな問題があります。ベクトル空間が死んだ空間なのです。アクティブ空間が静的で、速度のような動的な性質を持たないため、何も動きません。つまり、AIシステムにおけるベクトル空間のベクトルは、単なる静的なポインタであり、動的または移動する実体ではありません。これは数学と物理的定義の違いによって説明できます。
まずは変更点として、360度の画像を使用することにしました。3次元世界を2次元表面にマッピングするのです。これは素晴らしいことです。そして次に、AIで3次元世界を生成し、エージェントを送り込んでこの3次元世界を探索させるというアイデアが生まれました。動画に移行すると、AIシステムに時間的推論が加わり、そのためAIシステムにダイナミクスが生まれます。複数のエージェントが行動を調整して特定の仕事をこなす必要がある場合、時間的推論が必要になり、生成動画が必要になります。
これは技術的に実現可能なのかと疑問に思うかもしれません。はい、これが必要なものすべてです。そして少しのAIも必要です。具体的にはどのようなAIかというと、まず最初のステップは明確で、テキストから360度画像への変換を行う視覚言語モデルを訓練します。これは既知のテキストと画像のペアです。そして、Googleのv2のような素晴らしいツールを使用して、AI動画シーケンスを生成します。何もない死んだ空間、全く動かない死んだ画像だけの空間から、突然、物体や環境の動きを統合し、動画シーケンスを持つようになったのです。
そして、動画内でエージェントを有効にし、エージェントが仮想3D環境(実世界の完璧なコピーかもしれない)を探索し、推論を行うようになると、部分的に観測可能な実世界空間と仮想空間という問題に遭遇します。しかし、AIがあれば問題ありません。欠けている空間を再構築すればいいのです。
現在の課題は、最小限の入力から動的に探索可能な3D環境を構築することです。例えば、先ほど示したように、都市の単一の静的な360度画像だけを持っているとします。そこにエージェントを送り込み、世界を航行する際に環境の見えない部分を想像できるようにする必要があります。画像には見えていない角があるからです。私たちの生成環境を走り回るエージェントは、実質的に世界の見えない部分を生成する必要があります。角の向こう側を見る必要があるのです。
ただし、動画なので制限があります。長時間のアクション シーケンスでも、探索中の空間的一貫性と特別な結束性を確保する必要があります。突然ファサードが変わったり、建物のスタイルが変わったりすることはできません。すべてが一貫した流れの中にある必要があります。そして、2つの異なるエージェントが突然出会い、それぞれの世界を構築した場合を想像してください。マルチエージェント推論があれば、エージェントはお互いの視点を予測しシミュレーションします。もちろんです。なぜなら、2つのエージェントが構築した世界で出会う場合、少なくとも似通っている必要があるからです。そうすれば、それらを一緒にして視点を再計算することができます。
これは興味深いですね。では、やってみましょう。まず簡単なタスクでトランスフォーマーを事前訓練します。テキストから画像へ、しかし今は360度画像へと変換します。ここにあるものを正確に記述するか、示されているように単一の平面画像を取り、3D世界の360度2次元画像を構築できるようにトランスフォーマーアーキテクチャを訓練します。これは私たちが知っている標準的な手順です。数学的な公式は持っていますが、まだ適用していないのが興味深いところです。
ジョンズホプキンス大学のこの研究を読んだとき、私は魅了されましたが、すべては事前訓練データ、データの品質にあるのです。いつも同じところに戻ってきます。例えば、ある特定の場所、例えば都市の公園の144枚の360度画像があるとします。そして始めます。「パリの公園」と言うと、AIは正確に理解します。これがパリの公園の画像であり、訓練データを持っているからです。言語的な記述もあります。
続いて「子供たちが遊ぶ」と言うと、訓練例のすべてがここにあり、生成可能な動画の例がすべてわかります。そして「午後遅く」と言うと、正確に選択します。これが訓練データセットの中から、午後遅くに子供たちが遊ぶパリの公園であり、これが入力データとなって動画を生成できます。利用可能な訓練データに基づいて、どのように動画ジェネレータを構築するかは本当に興味深いですね。
異なる動画要素の融合を使用する場合、これをリアルタイムでやってみましょう。360度の静止画像の中にいて、AIシステムを作り、「前に進んで、通りを歩いて」と言います。突然、動的な要素が生まれます。これまで動的要素はありませんでしたが、AIは今、画像の中に、動画シーケンスの中に構築しなければならないものの中に、ベクトル速度を持って動いています。
同時に別のエージェントがいて、そのエージェントがこの通りを下っていき、どこかの建物の向こうで出会う可能性があると想像してください。どちらも建物の向こう側が正確にはわかりません。前進するこのエージェントは、生成AIによって環境を構築する必要があります。似ていなければならず、一貫性があり、スタイルも同じでなければなりません。このエージェントは特定の推進力で前進し、このエージェントも前進し、どこかの向こうで出会います。そして、彼らの世界、構築された世界はほぼ同一でなければなりません。これがAI動画生成における新しい課題ですが、興味深いものです。
しかし、簡単にしましょう。例えば、あなたの街のGoogleストリートビューを完全にコピーするというアイデアがあります。小さな街で、Googleで数千枚の画像があれば、エージェントが自由に移動・探索できる完全な視覚セットを持つことができます。これは素晴らしいことですが、これは課題ではありません。街の視覚情報の20%しかなく、完全な通りが欠けている状況を想像してください。しかし、自由に移動したり、何か課題をこなしたりするAIエージェントは、一貫性のある視覚的な続きを生成する必要があります。
AIエージェントは今や速度を持ち、私たちの仮想3次元世界で動的になっているので、移動しながら環境を生成する必要があります。OpenAIのSORAを使うか、4K動画を生成できるGoogleのv2を使うか、Googleを選んでみましょう。Google DeepMindのv2、最新の動画生成モデルをご覧ください。これはすべて人工的に生成されたもので、実際のものではありません。これは単に信じられないものです。4K動画で生成できます。私は感動しています。
ここには常にプロンプトがあり、この動画生成に何が必要かを絶対的に定義する必要があります。しかし、タイヤが地面と接触する様子をよく見ると、物理学がまだ欠けていることがわかります。訓練データはあり、車がドリフトする様子を生成する方法を正確に知っており、背景も完璧です。4K解像度を実現できますが、この美しいプロンプトがあるにもかかわらず、まだ欠けているのは純粋な物理学です。人間として、これはドリフト時の車の実際の挙動ではないことがわかります。物理学が欠けていますが、それ以外は現実にかなり近づいています。
この例を見てください。鏡を見てください。信じられないことに、そこには本物の人々がいて、その人々には動きがあります。細部を見てください。鏡での光の反射を計算した結果だと思うでしょうが、そうではありません。まだ物理学は含まれていませんが、この訓練データセットでは、AIはこの特定のシーンの生成に本当に優れています。いつものように、ここに完全なプロンプトがあり、何を見たいかを定義します。この場合、Google v2がこの画像シーケンスを生成します。これは今まで私が見た中で最高のものですが、まだ物理エンジンが欠けています。
理論を続けましょう。これらすべての背後にある物理学は単純です。正距円筒図法の全天周画像があり、元のパノラマ画像があっても、回転させるだけで済みます。単純な数学的公式があり、すぐに380度回転を計算できます。格子座標系と球面極座標系には問題がなく、単にお互いを変換する関数があるだけです。他のシステムに移行しても、球面極座標系での回転変換を計算することには全く問題ありません。単純な変換です。
AIモデル自体はさらに興味深くなる可能性があります。ジョンズホプキンス大学の論文を読むと、彼らは正確にこのアイデアを持っていました。合理的自己符号化器と古典的な拡散モデルを持つ拡散バックボーンを構築しましたが、特殊性があります。複数の座標系で作業し、同じシーンの複数のビューを生成する場合、球面一貫性のある学習方法論を確保する必要があるからです。3つのエージェントがいて、彼らが一か所、ある場所で出会う場合、構築されたビューはすべて同一でなければなりません。他のエージェントを動画で見るときはいつでもそうです。
したがって、この球面変換が本当に素晴らしく、すべての訓練データがここで集まり、球面一貫性のある学習アルゴリズムを持つことを確実にします。彼らはさらに進んで言いました。1つのエージェントがいる場合、これは単純です。1つのエージェントは特定の視野を持ち、これは1つのエージェントから生成できるものすべてです。しかし、マルチエージェントシナリオの場合、これは面白くありません。
ここに歩行者が通りを横断し、その歩行者が特定の速度で移動しているとします。ここにはバスがあり、このバスがこの接近する車の視界を遮っています。この車をエージェント2、歩行者をエージェント3、そしてこのバスをOpenAI LLMによって計算されたLLMエージェント1とします。AIと車は、ここに歩行者が歩いているのを確認できるかもしれません。素晴らしいですが、残念ながら現在のシステムでは問題に遭遇します。
なぜなら、車が近づき、視界が遮られたときに、AIシステムが物理的世界を理解できないからです。特定の速度を持つ物体が通りを横断し、視界が遮られている場合、衝突の潜在的な危険があることを理解できません。現在のAIの知性は、このシーンの物理学を理解するには十分ではありません。単にベクトル空間を分析しているだけです。これを変える必要があります。
線形運動と物理学の方程式は知られています。しかし、訓練データに物理学に関するものが全く含まれていないため、AIは失敗するでしょう。これはAIにとって受け入れられません。パノラマ画像を入力として持っている場合、深度マップを計算できます。単一の平面画像から画像の3次元深度距離を持つことができます。これについては複数の動画で説明しており、簡単です。
したがって、単一の画像から完全な3次元情報を持つことができ、これを計算できます。なぜ、生成AI世界に物理学を含め始めないのでしょうか。私たちができることは驚くべきことです。ここに示すように、実際の入力ビューがあり、生成AI動画シーケンスでこれを計算しようとすると、これはほぼ同じです。
あるいはここのストリートビューを見てください。これが実際のストリートビューで、特定のベクトル、速度で移動を続け、この方向に歩くとこのコーナーが今度はこのコーナーになるのがわかります。問題なくこれらの動画を生成できます。さらに、360度画像を持ち、単純な変換があり、各視点について平面的な2次元画像を生成できます。ここにある教会や木の真横に立っているとき、この特定の画像から計算された多くの平面2次元視点があります。
つまり、私たちの空間に関する情報はそこにあります。次のステップは、それを本当に動的にすることです。これがジョンズホプキンス大学による素晴らしい論文です。私が参照しているのは2024年11月中旬のバージョンで、「生成的世界探索者」です。彼らは素晴らしいホームページも持っています。ジョンズホプキンス大学をご覧ください。そして、彼らは2024年12月12日に新しい論文「GenX:探索可能な世界の生成」を発表しました。これは私たちの動画システムが公開される前でした。彼らは独自のシステムを構築しましたが、この世界探索にOpenAIやGoogleのパワーを使用できれば、4K解像度で構築できれば、これは単に驚くべきものになると思います。
彼らが既に言っているように、特定の経路に沿って移動し、既にベクトルを配置していることがわかります。場所の変化を示しているだけかもしれません。この時空の点で周囲を示す画像があり、少し先に進むと、それらの画像のすべてがあり、さらに進むと、それらの画像のすべてがあります。特定の速度で移動する動画を生成するのがとても簡単です。
そして今、生成AI世界を構築する際、すべてのデータを持っていますが、多くのコンピュータインフラが必要です。これは疑問の余地がありませんが、この技術は持っています。私が気に入っているのは、「幾何学的3Dビジョンを簡単に」というものです。2024年12月のものです。これは正確にどのように行われるかを示しています。DUSTは、任意の画像コレクションの密で無制約のステレオ3D再構築を意味します。平面2D画像から、驚くべき精度で3D世界を構築できます。
AIのための動画ジェネレータがあり、運動、物理学、回転を記述するすべての数学的公式があり、単一の平面画像から3次元世界を計算するすべての方法があります。次のステップに進み、物理学を統合することを妨げるものは何もありません。
単一の画像があり、いくつかの建物があり、開いた通りがあると想像してください。そして、今、2つの異なるタスクがあります。1つは、このドローンが道路を飛んでいくと言います。このドローンが飛んでいき、ここに3Dポイントクラウドがあり、画像を撮影しているので、実世界を実際に記録し、仮想AI計算の中でリアルタイムで実際の世界を構築しています。そのため、歩行者が通りかかったとき、完璧な同一の一貫した生成AI環境があります。
あるいは、仮想ドローンをここで道路を飛ばすことを想像し、計算すると言います。そしてシステムは、持っている訓練データに基づいて計算を開始します。訓練データが同様の都市、同様の建築、同様の日光または夜間の記録、または何であれ示していることを願います。そうすれば、システムから生成AI世界を構築する仮想ドローンのダイナミクスを構築でき、そこに行けば、比較して最適化できます。可能性は単に驚くべきものです。
単一の画像から能動的な3次元マッピングを持つことができ、AI動画とARに動きとダイナミクスを含めれば、ジョンズホプキンス大学が最後に述べているように、これは実世界のナビゲーションや、なぜ自分の街や地域でゲームをしないのか、具現化されたAIでの人間のような知能の達成に向けた進歩を示しています。
ロボットが動き回り、動きや環境での行動による変化を正確に理解できることを想像してください。まず、3次元仮想世界で計算し、結果を分析し、具現化されたAIを持つロボットシステムの実世界でのインタラクションを最適化できます。必要なのは、次のステップ、AIの次の進化で物理学を統合することだけです。
少し楽しんでいただけたなら嬉しいです。購読者になっていただけると素晴らしいですね。次の動画でお会いしましょう。