見出し画像

AIがあらゆるビデオゲームを作成、新しいオープンソースビデオ、ChatGPT Pro、Googleの AIが全てを凌駕

15,532 文字

今週もAIの進化は止まることを知らず、とてつもない1週間となりました。プロンプトや画像だけで任意のビデゲームを生成でき、実際にプレイして操作できる新しいAIが登場しました。また、画像と音声を入力するだけで、その顔を音声に合わせて動かせる新しいAIモデルが登場し、これまでで最高の出来栄えとなっています。さらに、キャラクターの複数のアングルを生成できる別のAIも登場し、3Dモデルやテクスチャの作成に非常に役立ちます。新しいオープンソースの動画ジェネレーターも登場し、これはSoraやCingなどの商用モデルを凌駕しています。1枚の画像から3D世界を作り出し、その中を探索できるAIも登場しましたが、これも今までで最高の品質です。GoogleはAIを使って気象や極端な気象現象を極めて高い精度で予測できるようになり、他にもたくさんの進展がありました。
では早速詳しく見ていきましょう。まず最初に紹介するのは、すでにかなり凄まじいツールです。Google DeepMindが開発したGenie2と呼ばれるもので、プロンプトや入力画像だけを基にして、任意のプレイ可能な3Dビデオゲームをリアルタイムで生成することができます。3Dインタラクティブな環境を生成し、この例で見られるように、ユーザーのアクションに応じてキャラクターを3D環境内で動かすことができます。
以前にも同様のツールをいくつか紹介しましたが、例えばGoogleのゲームエンジンはDoomのプレイ可能バージョンをシミュレートし、MicrosoftのDiamondはCounter-Strikeをシミュレートします。最近では「The Matrix」と呼ばれる別のツールも登場し、これもリアルタイムで任意のプレイ可能なビデオゲームを生成できます。しかし、この新しいGenie2は品質がはるかに優れており、より一貫性があり、仮想世界とのインタラクションもより豊かです。
これは間違いなくビデオゲームの未来を示していると思います。ゲームがあらかじめプログラムされたり設計されたりするのではなく、ユーザーが単にプロンプトを入力するだけで、AIがその場でゲームを生成するようになるかもしれません。
Genie2には、私が言及した以前のツールよりも優れた機能がいくつかあります。まず、「Long Horizon memory」と呼ばれる機能があり、視界から消えた世界の部分を記憶しています。例えば、この動画の始めにある左側の壁に注目してください。キャラクターがこの大きな部屋に入ると壁は消えますが、再び左を向くとその壁が再び現れます。これは、この3D世界内のすべてのオブジェクトについて空間的な記憶を持っていることを証明しています。
別の例として、スタートフレームとしてピラミッドの景色から始まり、カメラを上空からの視点に移動させ、その後通常の視点に戻しても、背景にピラミッドがあったことを覚えていて、それを動画内で再生成します。
現時点では最長1分程度の一貫性のある動画を生成できるとされています。以前紹介した「The Matrix」というツールは、実際には無限に長い動画を生成し続けることができますが、Genie2の場合、現時点での最大制限は1分のようです。
このツールでは、一人称視点からアイソメトリック視点、あるいはサードパーソン視点の運転動画まで、さまざまな視点でビデオゲームを生成することができます。これらの例で見られるように、これは多くのクリエイティブな可能性を開きます。
最も印象的なのは、インタラクティブなオブジェクトを作成できることです。例えば、ユーザーが風船に飛び込むと、風船が割れる効果を作り出すことを知っています。あるいは、ユーザーがドアに向かって歩くと、ドアを開けることを知っています。また、この例では、ユーザーが爆発物の入った樽を撃つと、爆発させることを知っています。これは、これまで見てきた他のビデオゲームシミュレーターよりもはるかにインタラクティブです。
さらに、他のキャラクターを生成して、それらとインタラクトすることもできます。左の動画では左側に追加のキャラクターが生成されており、中央の生成では人物が画面を横切って歩いているのが見えます。最後の生成では、ボスのようなキャラクターが生成され、それを倒すことが目標となっています。
もちろん、このモデルは現実世界の効果も生成できます。例えば、これらの2つの例で見られるように、水しぶきや波紋、煙の効果を生成することができます。また、重力も生成できます。馬が飛び跳ねると地面に戻り、車が崖から落ちると実際に地面に落下するのが分かります。
また、照明をとてもよく理解しています。これらの例で見られるように、キャラクターが松明を持っていれば、松明のライトダイナミクスもシミュレートします。懐中電灯を持っている場合は、光が森の木々を照らすのが分かります。
反射の理解を示す例もあります。左の動画では、街灯が水たまりに非常に正確に反射しているのが分かります。シーンを動き回っても反射は正確です。右の動画では、右側の壁の鏡も部屋を正確に反射しているのが分かります。
たった1枚のコンセプト画像だけで、自分のビデオゲームをプロトタイプ化して作成することがとても簡単になりました。例えば、この画像を作成したとしたら、簡単にAIに入力するだけで、この画像に基づいてインタラクティブなビデオゲームを作成してくれます。
アーキテクチャの背後にある説明は非常にシンプルです。プロンプトか画像を入力できます。プロンプトを入力する場合、実際にはGoogleのイメージジェネレーターであるImagine3を使用して初期画像を生成し、その画像をエンコーダーに通してこの拡散モデルに入力します。ユーザーがどのようなアクションを取るか、どのキーを押すかによって、そのフレームを少し変更し、デコードすると、これが生成で見る次のフレームとなります。このプロセスは、キーボードで異なるキーを押すたびに続き、それに応じて生成された動画が変化します。
注意すべき点として、私が紹介した動画は、非蒸留のベースモデルによって生成されたものです。これはより大きなモデルで、リアルタイムではありません。より小さな蒸留版を使用すれば、AIとリアルタイムでインタラクトすることは可能ですが、出力の品質は低くなることに注意してください。
いずれにせよ、これは以前紹介した他のツールと比べると大きな飛躍です。他のツールは主に1つのゲームしか生成できませんでしたが、これはプロンプトや画像だけで何でも生成できます。現時点での品質はまだ良くありませんが、これが最悪の状態です。1、2年以内には、AIによってその場で生成されるAAAクオリティのビデオゲームが登場すると思います。
次に紹介するのは、これも非常に便利な無料のオープンソースAIです。プロンプトや画像を入力して、キャラクターの複数のアングルを生成することができます。Multi-view adapter、略してMV adapterと呼ばれています。Stable DiffusionやFlux.UIを使っていれば、ControlNetや他のプラグインを使ってある程度一貫したキャラクターを生成することはできましたが、まだ本当の意味での一貫性はありませんでした。特に、キャラクターに多くの詳細がある場合、複数のアングルを一貫して生成することは非常に困難でした。
しかし、このツールでは、すべての画像が実際にとても一貫していることが分かります。素晴らしいことに、これは別のベースモデルではなくプラグインなので、アニメでも3Dでも水彩画でも、どのようなスタイルのStable Diffusionモデルにも実際にプラグインとして組み込むことができ、依然として一貫してキャラクターの複数のアングルを生成できます。
例えば、ここでアニメに特化したAnimagXLモデルを使用すると、このようなアニメキャラクターを生成できます。あるいは、この3DレンダリングスタイルのLoraを使用すると、このような3D風のキャラクターを生成できます。このLego Brickheadモデルを使用すると、このようなキャラクターの複数のアングルを生成できます。
これは非常に汎用性の高いプラグインで、プロンプトを入力するだけでなく、画像を入力するだけでも、その画像のキャラクターの複数のアングルを生成できます。これは非常に難しいことです。特にキャラクターの後ろ姿を生成する必要がある場合、1枚の画像だけからそれがどのように見えるかを推測するのは非常に困難です。しかし、ほとんどの場合、特にキャラクターの後ろ姿の生成において、このAIはすべてを非常に正確に捉えることができています。
完全な画像をアップロードする代わりに、作成したいキャラクターの大まかなアウトラインをスケッチするだけでも、ControlNetとMV adapterを使用して、シンプルなスケッチに基づいてキャラクターの複数のアングルを作成することもできます。これは非常に強力なツールです。
もちろん、キャラクターの複数のアングルのこれらの画像を、このようにモデリングツールに簡単に組み込んで3Dモデルを作成することができます。ここに追加の例がありますが、3Dモデルがアップロードした元の画像のすべての詳細を保持していることに注目してください。これは非常に汎用性が高く、強力なツールです。
プレイできる追加の3Dモデルのデモがあり、これらの生成がどれほど詳細かを見てください。これは非常に印象的です。このトランスフォーマーの詳細を見てください。これは超印象的です。
素晴らしいことに、モデルはすでに公開されています。GitHubレポに行けば、中程にこれをインストールして、コンピューター上でローカルに使用する方法についての説明が全て記載されています。このようなgradioインターフェースがあり、非常にわかりやすく、プロンプトを入力して実行をクリックするだけでキャラクターの複数のアングルを生成します。ここにアニメキャラクターの別の例があり、さらに別の例もあります。ComfyUIとの統合もあるので、既存のワークフローに簡単に追加することができます。
GitHubと論文へのリンクは全てここにありますので、詳しくはこのメインページへのリンクを説明欄に記載しておきます。
他のニュースとしては、新しいオープンソースの動画モデルが登場し、これまでで最高のものとなっています。SoraやCingなどの商用モデルよりも優れていると思います。これはTencentによるHunYan Videoと呼ばれるもので、品質は単純に素晴らしいものです。他のすべてのオープンソースの動画ジェネレーター、さらには非公開のモデルも簡単に凌駕しています。すべてがどれほど一貫していて、シーン全体がどれほど詳細でシャープかに注目してください。これは本当に高品質です。
複雑なシーケンスも理解します。例えば、「猫が階段を降りてハンバーガーを食べる」とプロンプトを入力すると、これが結果です。ご覧のように、すべてが超リアルに見えます。この例で見られるように、あるシーンから次のシーンへの切り替えもできます。これは1つの生成ですが、動画の途中で別のシーンにカットするようにプロンプトで指定することができます。
これはトレーニングデータで見たことのないような、より高いアクションのシーンやシナリオでも機能します。例えば、街中で自転車に乗るパンダのように、すべてが非常に詳細で、動きはとてもスムーズで、すべてが非常に一貫しています。背景で多くの動きがあり、多くのキャラクターや人々が歩き回っているにもかかわらず、これを非常に一貫して生成することができます。これは間違いなく、これまでに見た最高の動画ジェネレーターと同等かそれ以上です。
もちろん、このような映画からの一場面のような、信じられないほど映画的な動画も生成できます。これがAIによって生成されたとは見分けるのが本当に難しいです。
ここにシーン転換の別の例があります。プロンプトでは、最初に黄金の砂丘の中でラクダの隊列の広角ショットを生成し、次にクローズアップショットにカットしています。このAIモデルはこれをかなりシームレスに処理できます。
そしてここがクレイジーな部分です。テキストから動画を生成するだけでなく、音声をアップロードすることもでき、入力画像を使ってその人の顔を音声に合わせてリップシンクさせることができます。これらのデモで見られるように、入力画像は上にあり、音声を追加するとこのような結果が得られます。これはどれほど凄いことでしょうか。彼の顔を動かすだけでなく、体全体も非常に滑らかに動かします。さらに背景も動かします。例えばここで再生すると、誰かが背景のシーンを横切って歩いているのが分かります。
別の例もあります。再び超流暢な動画です。彼女がビーチにいるので、保護されているのが分かります。風を加えているのだと思いますが、髪が風に揺れています。波も動いています。彼女は歌っており、それに応じて体も動いています。これは非常に流暢でリアルです。
別の例もあります。これまでに紹介したAIツールの中で、人々を動かして話させるものとしては、間違いなくこれが最もリアルなものだと言わなければなりません。最近のビデオでEcho Mimicというこれと同じようなことをする別のツールを紹介しましたが、Echo Mimicのことは忘れてください。このHunYan Videoは本当にすべてを凌駕しています。
まだ終わっていません。音声に合わせたリップシンクだけでなく、動画から動画への変換もできます。ここに入力画像と入力動画の例があり、この入力動画の動きを画像にマッピングする方法を知っています。別の例では、入力画像は男性で、入力動画は女性です。女性の動きに基づいて男性をアニメーション化する方法に注目してください。
ちなみに、これは4ヶ月前に紹介したLive Portraitという別のツールのまさに同じ機能です。Live Portraitはすでにかなり印象的でしたが、Tencentのこの新しいものの方がさらに優れているかもしれません。
動画から動画への変換の別の例があります。実際に動いている人の実写動画をアップロードする必要はなく、このようなポーズスケルトン動画をアップロードするだけでも、入力画像と組み合わせることで、ポーズ動画の動きに基づいてその画像をアニメーション化します。ポーズ動画を駆動動画として使用する別の例もあります。Mimic Motionのような他のツールもこれと同じことができますが、この新しいHunYanモデルは、これまでで最高の品質と一貫性を持っています。
アニメでも機能するのかと疑問に思われるかもしれませんが、答えはイエスです。ここに例があり、すべてがどれほど一貫しているかに注目してください。顔や手足にほとんど歪みがなく、彼女の動きはポーズ動画に完璧にマッチしています。これは本当にスムーズで一貫性のある動画です。
先ほど言及したように、これは完全にオープンソースで、これは少し信じられないことです。これを無料で私たちに提供し、ローカルで実行できるようにしているなんて信じられません。これを非公開にして多くのお金を得ることも簡単にできたはずですが、いずれにせよ、ここにGitHubページがあり、すでにモデルの重みへのすべてのリンクが含まれています。試せるプレイグラウンドやReplicateスペースもあります。
To-doリストには、gradioインターフェースとComfyUIの統合をリリースする予定だと書かれていて、これは素晴らしいことです。ただし、あまり興奮しすぎる前に、要件を見てみましょう。720x1280の動画を生成するには、少なくとも60GBのVRAMが必要です。これはおそらくほとんどの人が持っていないと思います。544x960というより低い解像度でも、45GBのVRAMが必要です。実際、より良い生成品質のために80GBのVRAMを推奨しています。
残念ながら、ほとんどすべての消費者向けGPUでこれを実行することはできません。ただし、これはオープンソースなので、オープンソースコミュニティが最終的に低スペックのGPUでもうまく動作する量子化バージョンを微調整してくれることを期待しています。もし奇跡的にこれだけのVRAMが余っているなら、これをローカルでダウンロードして実行する方法についてのすべての説明がここにあります。ない場合は、今のところReplicateスペースでこれをテストすることができます。各生成には約70ドルかかりますが、Runwayなどの商用モデルと比べるとまだはるかに安価です。
オープンソースが最終的に商用モデルに追いついたか、さらには凌駕したことは本当に印象的です。これは、最高の非公開モデルの一部と同等かそれ以上です。この動画ジェネレーターの完全なレビュー動画を作成し、他のトップの動画モデルと生成を比較する予定なので、お楽しみに。
このビデオはNvido AIの提供でお送りします。Nvido AIは、AIを使用してあなたのアイデアを形にする強力な動画作成ツールです。ビデオ編集のスキルレベルに関係なく、最もシームレスで直感的な方法で、素晴らしい動画の形であなたのアイデアを表現することができます。短編映画を作りたい、YouTubeビデオを作りたい、TikTokショートを作りたいと思っても、Nvido AIは究極のクリエイティブパートナーです。
単にプロンプトを入力するか、ワークフローを選択するだけで、AIは数分であなたのビデオを生成します。「私の声を追加して」のような単純なプロンプトを使って、好きなものを編集することもできます。従来の動画ツールは学習曲線が急で、動画制作プロセスの一部しか実行できませんが、Nvido AIはすべての摩擦を取り除くクリエイティブパートナーです。プロセスを直感的で流暢にし、ユーザーが完全にビジョンとアイデアに集中できるようにします。
マーケター、ソーシャルメディアインフルエンサー、ストーリーテラーであっても、Nvido AIは動画を作成してカスタマイズするのに最適なツールです。Nvido AIは無料で試すことができますが、生成機能を使用したい場合、生成プランは月額96ドルからで、これが最も費用対効果が高いものです。編集、アニメーション、その他の制作コストにかかる数百ドルを節約できます。すでにNvido AIユーザーの場合は、アドオンセクションに行って生成用のセカンドを購入することもできます。
他のニュースとして、入力画像と任意の音声を取り込んで、その音声に合わせて画像の口を動かすことができる別のAIがあります。このツールはFloatと呼ばれています。いくつかのデモをお見せしましょう。
Hello等の同様のツールは以前にも紹介しましたが、画像と音声を入力すると音声に合わせて顔を動かすことができます。しかし、この新しいFloatの方が品質が若干良いと思います。そして素晴らしいことに、人の感情を指定することもできます。例えば、人を幸せにしたり、悲しくしたり、驚かせたりするように指定すると、このような結果が得られます。
感情の強度も調整できます。例えば、ここでは感情のスケールが0であることが分かります。表現力を少し上げてスケールを1に設定したり、さらに表現力を高めてスケールを2に設定したりすることができます。
入力音声を取り込むだけでなく、話している人の駆動動画をアップロードすることもでき、その動きを入力画像にマッピングします。ここにその例があり、メッシの画像をアップロードし、誰かが話している別の動画をアップロードすると、その動きをメッシにマッピングします。これは、Live Portraitと呼ばれる別のツールが行うこととまったく同じです。実際、Live Portraitはすでにかなり優れています。Live Portraitを知らない方は、Live Portraitのチュートリアルを行っているこのビデオを見ることを強くお勧めします。いずれにせよ、Floatは顔の画像をアニメーション化するために使用できる別のツールです。
私たちが生きている時代は本当に信じられないほどです。動画を作成したり、操作したり、人々を動かしたり、踊らせたり、話させたりするツールが次々とリリースされています。まさにクレイジーな時代を生きています。
サイトの一番上までスクロールすると、近日中にコードをリリースすると書かれているので、それを楽しみにしていてください。今のところ、このページへのリンクを説明欄に記載しておきます。
次に紹介するのは、非常に便利なAIです。Google DeepMindによるGenCastと呼ばれるもので、極端な気象を非常に高い精度で予測するAIモデルです。通常、1つの最良の推定値のみを提供する決定論的な他の気象予測システムとは対照的に、この新しいGenCast AIモデルは実際に50以上の予測の組み合わせを提供し、それぞれが可能な気象の軌道を表しています。
例えば、台風の7日間予報を行う場合、これは7日先の未来になるので、より多くの不確実性があります。そのため、GenCastは実際に、これらの7日間で台風がどのように移動するかについて、多くの異なる可能性のあるシナリオを提供します。しかし、予報が近づくにつれて、これらの可能性は狭まり、より正確になっていきます。
GenCastの背後にあるバックボーンは拡散モデルで、私のチャンネルをフォローしていれば馴染みのある用語です。これは画像、動画、音声の生成に使用されるのと同じタイプのモデルです。GenCastの場合、この拡散モデルは基本的にRA5アーカイブからの4十年分の過去の気象データで訓練されました。このデータには、様々な高度での気温、風速、気圧などが含まれています。
4十年分のこのデータで拡散モデルを訓練した後、気象や極端な条件をかなり正確に予測する方法を知っています。GenCastは、日常的な気象予報と極端な事象の両方について、より良い予報を予測することに注目してください。青い線のGenCastと、現在のトップの運用システムであるENSを示す灰色の線を比較すると、GenCastはすべての場合において極端な事象の予測が優れています。言い換えれば、青い線の方が値が高く、したがって灰色の線よりも優れています。
これはより正確なだけでなく、計算量も少なくて済みます。ここでは、1台のGoogle Cloud TPUで15日間の予報を生成するのに数分しかかからないのに対し、現在のトップの手法では数万個のプロセッサを持つスーパーコンピュータで数時間かかると述べられています。これは間違いなく気象予測にとってゲームチェンジャーです。災害対応や食料安全保障などの様々な分野での意思決定を改善するのに役立ちます。
そして何より、これはオープンソースにされているので、実際にコードと重みをここからダウンロードできます。このリンクをクリックするとGitHubレポに移動し、これをローカルでダウンロードして使用する方法についてのすべての説明が含まれています。いずれにせよ、詳しくはこのメインページへのリンクを説明欄に記載しておきます。
他のニュースとして、AIの生みの親とも呼ばれるFei-Fei Liが設立したWorlded Labsが、今週、最初の主要プロジェクトを公開しました。これは、あらゆるオブジェクトを探索可能なインタラクティブな3D環境に変換できるAIです。リアルタイムでナビゲートすることができ、これまで見た中で最も詳細で高品質な3D世界の1つだと言わなければなりません。
1枚の画像から3Dシーンを生成できる他のツールもたくさんありますが、それらは一般的により不整合で多くの欠陥がありますが、これは驚くほどスムーズで詳細です。これらの例からお分かりいただけると思います。ここに別の例があり、1枚の画像を入力するだけで、ユーザーが環境とリアルタイムでインタラクトし、これらのコントロールを使ってこの環境内をナビゲートできる3D世界を作成します。
すべてがいかにスムーズであるかに再び注目してください。実際、説明欄にリンクを記載するこのページでは、いくつかの3D世界を実際に探索することができます。例えば、今私はシーンをスワイプしていて、ほとんどの部分でこれは非常に一貫していることに注目してください。これは明らかにメインの画像ですが、後ろの方まで引っ張ると、バックの方のシーンがどのように見えるかを推測し、このようなものを生成します。非常に印象的です。
別の例があります。これは多くの要素を持つかなり複雑なシーンで、かなり抽象的なシーンですが、すべてを非常にスムーズかつ一貫して生成できます。そして再び、これを後ろの方まで引っ張ると、1枚の入力画像からはこのデータを持っていないにもかかわらず、シーンの後ろ側がどのように見えるかを推測することができます。これは非常に非常に印象的です。クリックしてホールドすると、実際にズームインすることができます。全体的に非常にスムーズで印象的です。
別のシーンがあります。これはより現実的な写真で、動き回ると再びすべてが非常にスムーズで一貫しています。これを180度回転させると、空白を埋めて、部屋の後ろ側はこのように見えるかもしれないと予測します。ハイキングからの素敵なシーンの別の例があり、再び、1枚の画像からは利用できなかったこのデータを埋めることができることを知っています。
このAIは、動き回れる3D世界を作成するだけでなく、被写界深度のようなリアルタイムのカメラ効果も備えています。例えば、ここには被写界深度スライダーがあり、これが入力画像の場合、実際にスライダーをスライドさせてレンズのフォーカスを近くや遠くに移動させることができます。この例で見られるように、別の例では、動き回れるだけでなく、レンズのフォーカスもシフトできます。これは近いフォーカスで、最も近いボールにフォーカスが合っており、これをさらにシフトすると、次の列のボールにフォーカスが合うようになり、このように続きます。これは写真撮影や画像編集にとって実際に非常に強力な効果です。
ドリーズーム効果もシミュレートできます。これが何をするのか見せましょう。これが1枚の入力画像だとして、これをワイドからスライドさせてみましょう。これは基本的に、写真撮影でドリーズームと呼ばれる効果をシミュレートしています。これはどれほど素晴らしいことでしょうか。別の例があります。入力画像がこれだとして、このドリー効果スライダーをスライドさせてみると、何をするか分かります。これは動画、特にB-rollシーンに適用できる本当にクールな効果です。
これは3D世界なので、ここで見られるように、またはここに別の例があるように、この世界から深度マップを作成することもできます。もしこれが3D世界なら、深度マップはこのように見えるでしょう。さらに、いくつかのインタラクティブな照明効果を使ってこれらの3D世界とインタラクトすることもできます。例えば、ソナー効果の場合、世界のどこかを押すと、シーン全体にこのようなソナーのようなパルスを発します。非常に印象的です。スポットライトは何をするか見てみましょう。スポットライトは、シーンの特定の領域を照らす懐中電灯のようなものです。非常に印象的です。では、リップルは何をするのか見てみましょう。基本的にシーンにリップルを作り出します。
これらの例は、このツールができることの初期プレビューに過ぎません。彼らはまだこのAIモデルを構築中で、これや将来のリリースへのアクセスを希望する場合は、彼らのウェイトリストに参加できます。残念ながら、今のところこれは直ちに使用できるものではありません。これは、動画の最初に紹介したGoogle's Genie 2に似ています。Genie 2は、プロンプトだけから3D世界を作成し、ビデオゲームのようにそれとインタラクトできます。このWorld LabsのAIは実際に非常に非常に似ています。これはゲームや映画、バーチャルリアリティなどの分野で非常に有用です。将来的には、AIにプロンプトを入力するか画像を与えるだけで、その場で生成された完全な3D世界に没入できるようになると思います。いずれにせよ、詳しくはこのメインページへのリンクを説明欄に記載しておきます。
次に、アニメの動画を生成したい人のために、これはゲームチェンジャーです。様々なAI動画ジェネレーターでアニメを試してきましたが、ほとんどのものはアニメや2Dシーンを本当にうまく生成できませんでした。キャラクターを3Dに変えてしまうか、最終的に実在の人物に変形させてしまうか、あるいはアニメキャラクターに話をさせたり動かしたりしようとすると、非常に不気味に見えてしまいます。ついにMiniMaxが新しい画像から動画へのモデルをリリースしました。I2V1 Liveと呼ばれ、2D動画の生成に特化しています。
ここにこのLiveモデルの動作例がありますが、ご覧のように、2Dやディズニーピクサースタイルのアニメーションにも非常にうまく機能します。これは使用が非常に簡単です。HIWまたはMiniMaxにまだログインしていない場合はログインし、この画像から動画タブで、単にスタートフレームとして画像をアップロードするだけです。私はこの画像をスタートフレームとして使用し、最後のステップはここで、2Dや非現実的な画像に特化したこのI2V1 Liveを選択する必要があります。ここにプロンプトを入力してさらに指導することもできますが、私は空白のままにして生成をクリックし、何が得られるか見てみましょう。
これが得られた結果です。これは本当に素晴らしいと言わなければなりません。まだいくつかの小さな欠点がありますが、これは間違いなく、私が出会った中で最高の2Dまたは非現実的な動画ジェネレーターです。非常に印象的です。そして比較のために、ここに同じ入力画像を使用したLiveモデルと元のImag-to-Video modelの比較があり、ほとんどの場合、この新しいLiveモデルはアニメーションや非現実的な画像に対してはるかに優れていることが分かります。
また今週、Sam Altmanはこのようにツイートしました。「太平洋時間午前10時からtoorを開始し、12日間のOpenAIを行います。各平日にローンチまたはデモのライブストリームを行います。大きなものもあれば、ストッキングスタッファー(小さな贈り物)もあります。共有する素晴らしいものがたくさんあります。お楽しみください。メリークリスマス」
なんと興奮することでしょう。次の12平日間、毎日ローンチまたはデモが行われるようです。そして確かに、このツイートの翌日、OpenAIは1つでも2つでもなく、3つのバンガー(大ヒット)をリリースしました。ChatGPT Pro、o1、そしてo1 Proです。これはすでに盛りだくさんなので、それぞれについて見ていきましょう。
まず第一に、ChatGPT Proは月額200ドルの新しいサブスクリプションプランで、これは既存のChatGPT Plusプランの10倍です。ただし、GPT4o、高度な音声モード、そしてこれから話すo1とo1 Proを含む、最もスマートなモデルへの無制限アクセスが含まれます。
9月にOpenAIはo1プレビューモデルをリリースしましたが、これは彼らの最もスマートなモデルで、深い思考ができ、PhD レベルの質問を解くことができます。9月には o1 プレビューバージョンしかリリースされておらず、実際の o1 バージョンにはアクセスできませんでしたが、ついに今週、フルバージョンの o1 がリリースされました。そしてそれだけでなく、o1 Pro というさらにスマートなバージョンもリリースされました。これらのグラフから分かるように、o1 と o1 Pro の両方は、数学、科学、コーディングなどの困難なベンチマークでさらに優れたパフォーマンスを示しているようです。
o1 と o1 Pro モデルの両方にアクセスするには、有料サブスクリプションが必要ですが、正直なところ、私たちのほとんどにとって o1 モデルは必要ないと思います。これは超技術的で超複雑な PhD レベルの質問のためのものであることを覚えておいてください。日常的な Q&A には実際に o1 モデルを使用する必要はありませんが、数学者や弁護士、開発者、科学者などのより技術的な人々にとっては、これはゲームチェンジャーになるかもしれません。
いずれにせよ、これらのベンチマークは印象的ですが、Google も今週静かに新しいモデルをリリースし、これは他のすべてを凌駕しているようです。この LM Arena に行くと、これはユーザーが異なるチャットボットのブラインドテストを行える場所です。
簡単に説明すると、このように機能します。2つのモデルが与えられ、どちらがどちらかは分かりません。そして任意のプロンプトを入力でき、両方のモデルがそのプロンプトに基づいて応答を提供し、どちらのモデルが好ましいかを投票する必要があります。そして数万票の後、ここでどのモデルが最も好まれたかのランキングを見ることができます。
この録画時点の12月6日に、Google は静かにこの新しいモデル Gemini experimental 126 をリリースしました。数週間の間に他の2つのモデルもすでにリリースしています。11月14日と21日にリリースし、そして今この新しいモデルをリリースしました。これは全体的なアリーナスコアが1379で、OpenAI の最高モデルである ChatGPT 4o を凌駕しています。これで Google は明らかにこのチャットボットアリーナで1位にランクされています。
この新しい Gemini モデルを今すぐ試すことができます。説明欄にリンクを記載する Google の AI Studio に行くだけでよく、ここにプロンプトを入力し、ここでモデルを選択できます。一番下までスクロールすると、ここに新しい Gemini experimental 1206 モデルがあることに注目してください。
競争は激化しています。OpenAI が今後12日間に新しいものをリリースするにつれて、Google や anthropic などの他の競合他社も、OpenAI に対抗するために新しいものをリリースすると思われます。
他のニュースとして、Amazon は最近、Nova と呼ばれる新しい AI モデルシリーズを発表しました。Amazon は AI の分野ではかなり控えめでした。彼らは明らかに最高のモデルの1つである Claude を作成した anthropic の主要な投資家ですが、Amazon 自身は今日私たちが知る「最先端」のモデルを実際には構築していませんでした。ついに彼らは Nova ファミリーをリリースし、これは実際に GPT や Claude の品質にかなり近いものです。
このファミリーは4つの主要なモデルで構成されています。速度とコストに最適化されたテキストのみのモデルである Nova micro があり、次に画像や動画だけでなくテキストも処理できるマルチモーダルモデルのNova lightがあります。そして、より高価ですがパフォーマンスの高いNova proモデルがあり、これもテキスト、画像、動画を取り込むマルチモーダルです。さらに、まもなくリリース予定のNova Premierモデルもあります。これはおそらくより複雑な推論タスク向けだと推測します。
彼らは今週Novaをリリースしたばかりなので、これが実際にどれほど優れているのか確認しようとしています。LM Arenaのようなサードパーティのリーダーボードを調べても、ここにはまだNovaが一覧に載っていません。しかし、artificial analysisと呼ばれる別の独立した評価者のLLMリーダーボードには、Nova Proがここに載っています。あまり良くありません。Claude、Quin、Gemini、そしてもちろんo1モデルには負けていますが、まだトップ10に入っていると言えます。
画像生成に使用されるNova Canvasモデルと、動画生成に使用されるNova Realモデルもあることに注目してください。ただし、作成できる画像や動画の品質は良くありません。まだ最高の画像や動画モデルと比べて明らかに劣っているので、現時点では共有する価値はあまりありません。
以上が今週のAIのハイライトです。これらすべてについてどう思うか、そしてどのツールを最も試してみたいと思うか教えてください。いつものように、私はトップAIニュースとツールを探して皆さんと共有し続けますので、このビデオを楽しんでいただけたら、いいね、シェア、購読をお忘れなく、そして今後のコンテンツもお楽しみに。また、AIの世界では毎週とても多くのことが起こっているので、私のYouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっているすべてのことを本当に最新の状態に保つために、私の無料の週刊ニュースレターを購読することをお勧めします。そのリンクは説明欄にあります。視聴いただきありがとうございます。また次回お会いしましょう。

いいなと思ったら応援しよう!