
Googleのジーニー2がAI業界に衝撃を与える(AIで生成されたビデオゲーム)
5,602 文字
Googleは、たった1枚の画像プロンプトからAIで生成されたビデオゲームを作り出せる大規模AIモデル「G2」で、完全に全てを変えてしまいました。今画面で見えているのは、最初にプロンプトがあり、その後ユーザーがAIで生成されたゲーム内でキャラクターを操作している様子です。ゲームは私たちが想像もできないレベルで変わろうとしています。これは無限の種類のアクション、操作可能な3D環境を実現し、AIエージェントのトレーニングと評価を可能にするものです。
これはたった1つのプロンプトから生成され、キーボードとマウス入力を使って人間やAIエージェントがプレイできます。これは、Google の ジーニー1とは実際かなり異なっています。ジーニー1も確かにAIで生成されたゲームでしたが、残念ながら2Dの世界に限定されていました。しかしジーニー2では、豊かな3D世界を幅広く生成できるという大きな進歩を遂げています。
Googleによると、ジーニーはワールドモデルであり、ジャンプや水泳などのあらゆるアクションの結果を含む仮想世界をシミュレートできます。大規模な映像データセットで学習され、他の生成モデルと同様に、オブジェクトの相互作用、複雑なキャラクターアニメーション、物理法則、ゲーム内の他のAIエージェントの行動予測能力など、様々な能力がスケールに応じて現れてきます。
ジーニー2で人々が対話している例をもっと見てみましょう。たった1枚の画像を使って、どんなゲームをプレイしたいかを表現できます。Googleが実際に話しているのは、ジーニー2がキーボードを押すアクションに対して知的に反応し、キャラクターを特定して正しく動かすということです。例えば、モデルは矢印キーが木や雲ではなくロボットを動かすべきだということを理解しなければなりません。
これは非常に重要です。なぜなら、モデルはどんな種類のオブジェクトを制御するのか、そしてそのオブジェクトをどこに移動させるのかを理解する必要があるからです。ここでは、可愛らしい人型ロボットが森の中にいて、ユーザーが様々な方向に操作できるのが見えます。
また、古代エジプトにいる人型ロボットも見ることができ、このキャラクターは制御され、特定の環境を見回すことができます。紫の惑星にいるロボットの一人称視点も見ることができ、前後左右の異なる制御も確認できます。そしてもちろん、大都市のロフトアパートメントにいるロボットの一人称視点も見ることができ、このロボットはジャンプや前後の移動などの制御が可能です。
これは「反事実の生成」と呼ばれるものです。同じ開始フレームから多様な軌跡を生成できると彼らは述べています。つまり、全て同じフレームから始まっても、多くの異なる結果と異なるシナリオを生成できるということです。これは非常に興味深いです。なぜなら、ゲーム内のAIエージェントが同じ出発点から異なる世界や異なる現実を探索できることを意味するからです。
これは誰もが異なる現実を体験できるだけでなく、AIがより良い世界モデルを得ることができるという点で、私は本当に魅力的だと感じています。
次に議論することは、おそらく最も驚くべきことです。これは「長期記憶」と呼ばれるものです。AIで生成されたゲームにとってこれが重要な理由は、ゲームがその場で生成されるため、物事が起こる度に本質的に生成する必要があり、実際のゲームエンジンではないからです。
これは生成AIにおける厄介な問題ですが、Googleはこれを解決することに成功しました。ある方向を見て、同じ方向を振り返っても、同じ要素やオブジェクトが残っているのです。これはかなり驚くべきことです。なぜなら、多くの人がAIで生成されたゲームをプレイしたことがあるからです。私は皆さんに具体的に何が問題なのか、そしてGoogleがどれほど驚くべきことを成し遂げたのかをお見せしたいと思います。
このAIで生成されたマインクラフトのゲームプレイを見てください。AIで生成されたこのゲームをプレイすると何が変化するのか、お見せしたいと思います。このゲームプレイは段階的に生成されていますが、下を向いて異なる環境を見て、また上を見ると、エリアが変化していることが分かります。この山が突然出現し、また下を向いてから上を見ると、環境が再び完全に変化しているのが分かります。
その山は消え、これを何度も繰り返して、完全に奇妙で素晴らしくランダムな環境を生成できます。だからこそ長期記憶が必要なのです。次に非常に興味深いのは、このジーン2モデルが、その場で妥当なコンテンツを生成し、最大1分間一貫した世界を維持できるという事実です。
このデモでは、ゲームの種類に応じてキャラクターが異なる能力や異なる呪文を持つだけでなく、このキャラクターが1分間も走り回り、ジャンプし、探索できるのを文字通り見ることができます。AI分野にいない人々にとってはそれほど印象的に見えないかもしれませんが、この分野に長くいる人々にとって、これほど長時間一貫したシーンを生成できることは驚くべき印象的なことなのです。
この環境を走り回れることは本当に信じられないことで、AIコミュニティの多くの人々が現在常に考えていることは、AIで生成されたゲームに関してこれが最悪の見た目だとすれば、将来的にはAIで生成された世界で何時間も何時間もプレイできることを想像できるということです。
これは創造的な分野を探索したい人々にとって間違いなく可能性を開くものです。創造的な人々のために、Googleは多様な環境についても言及しています。ジーニー2は以前見たような一人称視点など、異なる視点を作成できると述べています。これはもちろん本当にクールですが、最もクールなことの1つは、ドライビングビデオゲームのような三人称視点も生成できることです。
そのようなゲームに慣れている人々は、車の上、車の後ろに座って、車を運転するかのようなPOVが得られることを知っています。非常にスリリングで本当に良いカメラPOVですが、探索ゲームに最適なアイソメトリックビューも得られることも分かります。
また、ジーニー2が複雑な3Dビジュアルシーンを作成することを学んだことについても言及しています。このゲームでは、ユーザーが走り回るわけではありませんが、歩き回ってこのメカロボットを見て、その3D構造を調べるためにロボットの真下を歩いているのが見えます。
この環境について最もクールなことの1つは、多くの人々が尋ねるであろう、実際にこの環境と対話できるかどうかということです。できることの1つはもちろん対話することです。ここでは、このキャラクターがジャンプして実際に環境内の風船を割っているのが見えます。これは本当にクールで、押されているボタンは実際にキャラクターがジャンプや攻撃をしていることを示しています。
また、別のキャラクターが樽を撃って実際に爆発するのも見ることができます。ゲーマーなら、赤い樽を撃つとまさにこうなることを知っているでしょう。また、このユーザーがドアを開けて新しい環境に入ることができる場所に行けるのも見ることができ、これは本当に本当に素晴らしいことです。
ゲームの未来にとってこれが何を意味するのかを考えると、次に彼らが実際に話すのはキャラクターアニメーションについてです。ここでジーニーがこのキャラクターのジャンプをアニメーション化できるのが分かります。また、何らかのメカや、異なる歩行アニメーションを本質的に持つであろうロボットキャラクターが歩いているのも見ることができます。
また、このキャラクターがはしごを登ろうとすると、はしごを登るこのアニメーションも本当によくできているのが分かります。これは非常に非常に魅力的です。なぜなら、モデルが膨大な数の異なるキャラクターを生成でき、異なるキャラクターが異なる方法で動くことを理解できることを示しているからです。
次に、NPCがあります。ゲーム内の他のエージェントと対話でき、彼らと複雑な相互作用もできると実際に述べています。私のお気に入りは、このユーザーがこのピンクのふわふわしたキャラクターと対話し、このキャラクターを撃ったり、切ったり、そのような何かをして、キャラクターが残念ながら消えてしまうというものです。
別の例では、ユーザーが洞窟に入り、そこにいる別のキャラクターと一緒に歩き回ることができます。これは本当に興味深いです。そして最後に、アサシンクリードやレッドデッドリデンプションのようなゲームがあり、冒険についてくる別のキャラクターと一緒に走り回っています。これはかなり興味深いです。なぜなら、これらは本当に興味深いAIで生成されたゲームだからです。
次に実際に見るのは、ジーニー2がこれらのゲームの物理法則をどのようにモデル化しているかです。ここでは、ボートが曲がり、ドリフトしているのが見え、ゲーム内の水の物理法則がこんなに短いクリップにもかかわらず驚くほど正確なのが分かります。
これは本当に興味深いことです。なぜなら、多くの場合、これらの生成AIエンジンにとって最も難しい問題の1つは、物理法則を正しく管理することだからです。このような物理ゲームにとって、これはもちろん本当に重要なことになります。キャラクターは世界のオブジェクトと相互作用しなければならず、木や岩、例えば水などと相互作用する際には、その物理法則を適切な方法でモデル化しなければならないからです。
物理法則に関して見る別のものは、煙のシミュレーションです。ゲームをプレイする人々は、素晴らしいゲーム体験を確保するために雰囲気が本当に重要だということを知っているでしょう。ここでは、煙の物理法則が画像の背景にあるにもかかわらず、かなり正確に表現されているのが分かります。
また、重力もあります。これはゲームがどのように機能するかを決定する上で重要な要素です。重力がなければ物事は正しく機能しないからです。この断崖絶壁の端を走る車が見えますが、崖から落ちると即座に死に向かって落下し始め、そこに留まり、その後もちろん運転を続けることができます。
また、照明も驚くべきもの、本当に驚くべきものです。これは現在のレンダリングエンジンでも、ビデオゲームの基準でさえ実現が難しいものですが、これらのAIで生成されたゲームでも現在機能しているのが見えます。どのように実現しているのか私には本当に分かりませんが、機能しているように見えます。
これら全てについて驚くべきことは、実際に反射が機能しているということです。あの驚くべきRTXグラフィックスの動画のようには見えないかもしれませんが、鏡や路上の水たまりに反射があるという事実は本当に信じられないことです。いくつかのゲームエンジンでさえ、このような正確な反射のモデル化に苦労しています。
このAIで生成されたゲームエンジンG2が、正確な反射を上手く実現することがいかに難しいかを考えると、私たちが当初考えていたよりもやや進んでいるという事実は驚くべきことです。
ジーン2で彼らが実際に見せてくれる別のことは、これが新しい生成体験を急速にプロトタイプ化できるということです。GoogleのAI画像モデルで生成された異なる画像でジーニー2にプロンプトを与え、ジーニーがこれらの異なるアバターをどのようにナビゲートできるかを見ることができます。私たちは遊ぶものを見ましたが、羽ばたく翼を持つ正しいドラゴンを実際に得られるこのドラゴンの例も見ることができます。
他の例でも、例えば鷲についてのゲームを作りたい場合、ジーニー2を使って多くの異なるアイデアやプロトタイプを急速に開発できる可能性があります。本質的に彼らが述べているのは、将来的にジーニー4やジーニー5を手に入れた時には、単純に画像を使用し、その画像からビデオゲームやあなたが探索したいと思うものとして、その体験が価値のあるものかどうかをテストできるようになるということです。
コンセプトアートのような画像を使用し、それらをリアルタイムのゲームとして実際に体験することもできます。これは本当に信じられないことです。なぜなら、このモデルが分布外汎化能力を持っているということを意味するからです。ほとんどのモデルはこれを持っていません。これは基本的に、このモデルが特別にトレーニングされていないタスクでもうまく実行できるということを述べる fancy な方法です。
また興味深いのは、ゲームのためにこれらのエージェントを使用することについて彼らが話していることです。この画像があり、青いドアを通って何が見つかるかを見るようにプロンプトを与え、その後すぐに彼らのAIエージェントSEMAにコントロールを使用して赤いドアを通るように促したのは本当にクールでした。
そして、いくつかのNGシーンもありました。このキャラクターがスノーボードよりもパルクールを好むというのは、キャラクターが時々望むことをしないため、かなり面白いです。また、アクションを取らない間に、庭にランダムな幽霊が現れたというNGシーンもありました。これは信じるものによって面白かったり、怖かったりします。
全体として、これは非常に魅力的で、ビデオゲームの未来に関して本当に興味深いものだと思います。多くの人々が、将来的に完全にAIで生成された世界を探索することになるのかどうかを推測してきましたが、ジーニー2は、そのレベルの探索への実際の道筋があることを示してくれていると思います。私は、Googleが次に何を生み出すのかを本当に楽しみにしています。