映像生成

2024年12月7日 15:24

28,161 文字

今日は映像生成について話していきましょう。ジャックZ、NLPプロンプター、ナラジ、スワティ、サガルさん、こんにちは。
サガルから質問がありました - OpenAI、別名Closed AIは今日Soraへのアクセスを提供するのでしょうか。今日かどうかはわかりませんが、OpenAIのYouTubeアカウントを開いているので、OpenAIの2日目に何か発表があれば、ライブで確認できます。
Soraはかなり大きな発表になると思われるので、2日目の発表ではないかもしれません。1日目に01を発表したので、2日目はもう少し地味な内容になるのではないでしょうか。おそらく開発者向けの何かとか。
今日は中国の大手テック企業テンセントがリリースしたオープンソースの映像生成モデルについての論文を見ていきます。「HunYuan Video:大規模映像生成モデルのための体系的フレームワーク」というものです。基本的にはMetaのMovie Genの論文版といえます。28ページにわたり、データ以外のすべての要素について説明されています。
Movie Genと同様に、プロセスの各部分、モデルアーキテクチャ、データのフィルタリング、ダウンストリームアプリケーション、ファインチューニングなどすべてのプロセスについて説明していますが、データについては説明していません。「GDPRに従って多くの動画をスクレイピングした」という程度の記述しかありません。
重みをダウンロードして実行できるという意味でオープンソースです。Hugging Faceにもすでにあります。Hugging Faceのスペース(基本的にはGradio.ioアプリ)は見つけられませんでしたが、Replicateで見つけました。
Replicateは、ある意味でHugging Faceの代替といえますが、いくつかの理由で私はReplicateの方が好きです。ローカルでの実行が非常に簡単で、Dockerを使うだけで依存関係の設定などは必要ありません。APIを使った実行も簡単です。
まずは各プレイヤーの現状を比較してみましょう。これは非常に高品質な映像です。他にも例がありますね。猫やトラックの映像がとても良く見えます。
このモデルで人々が興奮しているのは、このようなダイナミックなシーンです。夕暮れの中のラクダから始まり、男性にパンするシーンがあります。これは非常に難しいショットです。なぜなら、実質的に2つの異なるショットが1つになっているからです。通常、動画の両端が大きく異なることを防ぐような正則化が働きますが、これらは非常に良い例です。
これをGoogleの最近発表したImage Gen 3と比較できます。品質はほぼ同等で、どれも互角といった感じです。Flux AIも最新バージョンをリリースしており、同等の品質が確認できます。
私はウィル・スミスがスパゲッティを食べるというベンチマークを試してみました。明らかにウィル・スミスではないという点で少し奇妙な出力ですが、なかなか良いできです。スパゲッティが口に入る瞬間のダイナミクスはあまり見られません。これはウィル・スミス・スパゲッティ・ベンチマークの最も難しい部分だと思いますが、進歩は見られます。
マゲッティ、ルイス、マークBさん、こんにちは。
では中身に入っていきましょう。主要な映像生成モデルはクローズドソースのままです。オープンソースの映像基盤モデルが必要です。何が起きているのかわからないクローズドソースのラボに全てを任せておくわけにはいきません。
彼らは、データのキュレーション、先進的なアーキテクチャ設計、段階的なモデルのスケーリングとトレーニング、効率的なインフラを使用しました。パラメータ数は130億で、これは非常に小さいです。
これは印象的です。なぜなら、GoogleのモデルやOpenAIのSoraモデルについて私たちが持っている直感や印象は、それらが大規模だということです。実行するのが高コストなため、一般公開を躊躇しているのです。安全性を理由にしていますが、実際にはSoraを一般公開したくない本当の理由は、実行コストが非常に高いからだと思います。
130億パラメータのオープンソースモデルは非常に強力です。なぜなら、人々は非常に低コストで大量の動画を生成できるからです。特にこれはH100で実行できます。このモデルのコストは動画1本あたり約69セントです。OpenAIのSoraはそれよりもはるかにコストがかかっていると思います。
この点でオープンソースが勝利しています。彼らはRunway Gen 3、Luma 1.6、そして3つの中国のトップパフォーマンスの映像生成モデルと比較しています。論文全体を通して、実際には言及していませんが、それらを「Chinese Top A」「Chinese Top B」「Chinese Top C」と呼んでいます。
なぜ名前を出さないのかわかりません。おそらくClingなどについて話しているのだと思いますが、なぜ名前を出さないのか。何か法的な理由があるのかもしれません。
ではこの論文の興味深い部分を見ていきましょう。まず、データのフィルタリングから始めます。これはMeta Movie Gen論文でも同様でした。論文の多くがこのフィルタリングについて説明していて、これは深層学習分野の多くの人々がすでに理解していることを示しています。つまり、データが最も重要な部分だということです。
モデルアーキテクチャについて多くの時間を費やすこともできますが、モデルアーキテクチャの重要性は徐々に低下しているように感じます。これらのモデルを構築する方法は無数にあり、それは一種の洗い流しのようなものです。パフォーマンスを大幅に向上させることはありません。品質の大部分は、データのフィルタリングにどれだけ努力を注いだかによって決まります。
実際に、この論文の最後の貢献者リストを見てみましょう。論文の冒頭では、大規模組織の論文なので名前を入れる必要もないほど、50人ほどの名前が載っています。
実際のチームはこちらです。データと推奨キャプション、VAモデル、蒸留アルゴリズム、モデルアーキテクチャ、事前学習、ダウンストリームタスクがあります。これが全員とは思えません。データフィルタリングを行う人々の多くはここに載っていない可能性があります。実際には、データセットのフィルタリングにより多くの人時を費やしているのではないでしょうか。
オラス、こんにちは。では、どのようなデータセットフィルタリングについて話しているのでしょうか。生の動画を単一ショットのビデオクリップに分割します。2時間の映画があれば、それを5秒(約129フレーム)のビデオクリップに分割する必要があります。各ビデオクリップの開始フレームとして明確なフレームを特定する必要があります。
埋め込みのコサイン距離に基づいて、類似したクリップを重複排除します。つまり、すべてのビデオクリップを埋め込み、その埋め込み空間の一部での密度が高くなりすぎないようにしています。ビデオ埋め込み空間全体から均等にサンプリングしたいのです。
密度の高い領域と疎な領域が混在するのを避け、より良い補間ができるようにします。K-meansを使用して10,000の概念中心を取得し、概念のリサンプリングとバランシングを行います。他の深層学習モデルと同様に、データ分布の一部を過度にサンプリングしたくありません。均等にサンプリングしたいのです。
K-meansは基本的に、データセット埋め込み空間で繰り返し出現する領域、つまり概念中心を特定し、バッチをサンプリングして学習する際にそれらから選択してサンプリングします。
トレーニングデータセットを構築するための階層的データフィルタリングパイプラインを実装しています。大量の動画から始めて、これが階層的な部分です。フィルタリングの層があります。まず重複排除、モーションフィルタリングから始まり、これらのフィルターは自動化されています。
最終的には手動フィルタリングに至ります。手動フィルタリングは最も高コストなフィルタリングです。人間が実際に動画を見てフィルタリングする必要があるからです。そのため、多くの自動フィルタリングで事前フィルタリングを行いたいのです。
ここで使用している異なるモデルを見ることができます。例えば、YOLOXを使用して透かし、ボーダー、ロゴなどの不要な情報や機密情報を検出して削除します。OCRモデルを使用して過度のテキストを含むビデオクリップを削除します。
これはモデルではありませんが、Pi Scene Detectを使用して静的なスローモーション動画をフィルタリングし、視覚的なぼかしを削除します。他の事前学習済みモデルと標準的なヒューリスティクスを使用して自動フィルタリングを行いますが、最後には実際に人間によるアノテーションで綿密にキュレーションされます。
この最後のデータセットは教師あり微調整に使用されます。事前学習は恐らくこれらの初期のデータセットで行われ、微調整は最後のデータセットで行われます。
5段階のトレーニングに対応する5つのトレーニングデータセットがあり、外観フィルターのしきい値を段階的に改善していきます。最も整理されていないデータで事前学習を開始し、事前学習が進むにつれて、使用するデータの品質を向上させていきます。
画像用の厳密なデータフィルタリングパイプラインも用意されています。テキスト画像の事前学習には数十億のサンプル、第2段階のテキスト画像事前学習には数億のサンプルを使用します。
バイクラウド、こんにちは。バイクラウドはYouTubeチャンネルを持っていて、非常に面白く、かつ有益な内容なのでお勧めです。
構造化キャプショニングについては、非常に興味深い発見がありました。構造化キャプショニングとは何を意味するのでしょうか。画像や動画用の構造化キャプションを生成するように設計された独自のビジョン言語モデルを開発・実装しています。
基本的に、この映像生成モデルの学習に使用するデータセットは、標準的な動画キャプションや、さらに改良された動画の密なキャプションだけではありません。
これらの密なキャプションは、キャプションの品質を向上させる方法として何度も見てきましたが、今回はさらに一歩進んで、構造化キャプションを使い始めています。
独自のドメイン特有言語(DSL)を開発しました。これは基本的に特定のフィールドを持つJSONです。最終的には、合成データを作成することが目的だと思います。データセットが構造化されればされるほど、合成データの作成が容易になります。
各ビデオクリップには、これらの異なるフィールドがあります。短い説明、詳細な説明、背景の説明、スタイルの説明、ショットタイプの説明、照明の説明、雰囲気の説明があります。
これを行うと、キャプションにこの種の構造を持たせることで、合成キャプションの生成が容易になります。これにより合成動画を生成し、それを学習に使用することができます。合成データの生成が容易になるだけでなく、他のことも可能になります。
例えば、ドロップアウトメカニズムを置換と組み合わせ戦略と組み合わせることで、各画像と動画に対してこれらの多次元的な説明を組み立てることで、長さとパターンが異なる合成キャプションを作成できます。
例えばカメラの動きのタイプには、ズームイン、ズームアウト、パンアップ、パンダウン、パンレフト、パンライト、チルトアップ、チルトダウン、チルトレフト、チルトライト、ラウンドレフト、アラウンドライト、静的ショット、ハンドヘルドショットという14の異なるタイプがあります。
なぜこれが興味深いのかというと、彼らがこれをHugging Faceでリリースした際、映像モデルだけでなく、HunYuan Video Prompt Rewriteモデルもリリースしているからです。このプロンプト書き換えモデルは何なのでしょうか。今は少し飛ばして、後で戻ってきましょう。
テキストエンコーダー、ここではプロンプト書き換え、テキストガイド付き蒸留があります。映像生成モデルの課題の1つは、このプロンプトに大きく依存することです。「ウィル・スミスがスパゲッティを食べている」というプロンプトを入れた時、それは良いプロンプトではありません。特にモデルがこのような構造化されたキャプションで学習されている場合はそうです。
プロンプトが学習時に見てきたキャプションの構造に効果的に一致するようにしたいのです。そこで、プロンプトを受け取って、このキャプショニングに従うように書き換える言語モデルを作成する必要があります。
これが非常に強力だと感じる理由は、これまでの映像生成モデルでプロンプトを作成する際、例えば映画制作の経験があれば、チルトアップ、チルトダウンや異なるタイプの照明、異なるタイプのショットなどを知っているかもしれません。
ミディアムショットズームアウトが何かを知っているかもしれませんが、一般の人々はロングショットパンダウンなどの用語を知りません。そのような専門用語を知らないでしょう。
そのため、高品質な動画を作成するには、映像制作や撮影技術の専門知識を持っている必要がありました。しかし、一般の人々が高品質な動画を作成できるようにするには、基本的に彼らのプロンプトを書き換える必要があります。
これは非常に興味深い概念だと思います。プロンプトを書き換えるLLMを持つということです。これは恐らく、他のすべての映像生成モデルでも同じケースになるでしょう。
すでにFluxにはこれがあります。「プロンプトの最適化」ボタンがありますが、これも同じ概念です。基本的にはプロンプトを書き換えるLLMです。GPTに画像生成を依頼する際も、おそらく同様のことが起こっています。
Soraでも同様のことが起こるでしょう。入力したプロンプトは、実際に動画を生成するために使用されるプロンプトではありません。LLMと対話して、プロンプトを書き換えているのです。
これにより、実際の撮影技術の知識がなくても高品質な動画を生成できるようになります。一般の人々が本当に高品質なコンテンツを生成できるようにするには、これは非常に重要だと思います。
「データセットで似たようなクリップを見つけるためにフィルターを使用できますか？」という質問については、これらのフィルターは基本的にバイナリ分類器です。OCRフィルターがあり、テキストが多すぎる場合にはしきい値があります。
人間がそのOCRフィルターのしきい値を決定し、それをパスすれば次のバケットに進み、パスしなければ学習には使用されません。
バイクラウドが私をGOATと呼んでくれましたが、ありがとうございます。でも私は確実にGOATではなく、ただのランダムな人間です。ありがとうございます。
さて、データセットについて話していました。構造化キャプショニングについて見てきました。これは非常に重要だと思います。モデルアーキテクチャに進む前に、この論文について触れたいと思います。
これは非常に興味深い論文で、「Video Gen of Thought: マルチショット映像生成のための協調的フレームワーク」というものです。この論文では、少し過剰に設計されています。異なるモジュールと、長期的には残らないであろう構造化されたプロセスがたくさんありますが、重要なアイデアは、ユーザーが非常に高レベルなプロンプトを入力するということです。
そのプロンプトは、ショットごとの説明に分割され、それぞれに対して画像を生成します。例えば、アイデンティティを保持する埋め込みで条件付けされたテキストから画像への拡散モデルを使用します。
実際に動画を生成する、あるいは個々のショットを生成する拡散モデルは、元の説明から生成されるシーン説明のテキストだけでなく、最初のショットの人物と最後のショットで同じ人物を使用したいという追加の小さな埋め込みベクトルでも条件付けられています。
このアイデアとこのアイデアを組み合わせると、専門家だけが高品質な動画を生成できる世界にはならないと思います。なぜなら、プロンプトを改善し、追加し、照明をシネマティックにするなど、様々なことを処理するモデルのカスケードのようなものが存在するからです。
何をしているのかを知る必要すらなく、非常に高レベルなプロンプトを与えるだけで、バックグラウンドで必要な説明の種類を生成し、必要なショットの数と種類、このショットはパンニングするのか、これはオーバーヘッドショットになるのかなど、すべてが処理されます。
これは興味深い展開だと思います。3Dの変分オートエンコーダーの設計について見ていきましょう。この3D VAE（変分オートエンコーダー）は、データを圧縮し、その後解凍して、解凍したものと元のものを一致させようとします。
この再構成損失により、圧縮が元のものについてできるだけ多くの情報を符号化することを強制します。これらの3D VAEを使用する全体的な目的は、ピクセル空間の動画を小さな潜在空間に圧縮することです。
Tフレーム、画像の高さと幅のH、W、RGBの3チャンネルを持つものを、人間には理解できないが、はるかに小さな潜在変数に圧縮します。CS、CT、CSで割ることでデータ量を効果的に圧縮または削減していることがわかります。
そして、その圧縮された潜在空間でデータを生成します。生のピクセル空間で生成するのではなく、圧縮された潜在空間で生成するのです。これは標準的な手法です。
彼らはモデルをゼロから学習させています。これは興味深いところです。異なる損失関数があります。再構成損失は基本的にここのものがここのものと一致すべきというものです。KLダイバージェンスは基本的に分布を一致させるものです。知覚損失L_PIPSがあり、GAN敵対的損失があります。
実際にここで、それぞれの強さを見ることができます。敵対的損失は実際にはとても小さなハイパーパラメータを持っています。KLダイバージェンス損失のハイパーパラメータはさらに小さいです。
つまり、ここでの支配的な損失は、このL1再構成損失です。推論の空間時間タイリング戦略では、入力動画を重複するタイルに分割します。各タイルは別々にエンコードおよびデコードされ、単一のGPUで任意の解像度の動画をエンコードおよびデコードします。
では、130億パラメータモデルでこのような動画を生成できるのはなぜでしょうか？130Bパラメータモデルは絶対的に小さいです。すべてを出力できるのはなぜでしょうか？
それは、動画全体を生成しているのではなく、タイルを生成しているからです。動画全体が小さなタイルに分割され、モデル自体は1つのタイルだけを生成しています。
これにより、非常に小さなGPUで実行できます。ただし時間がかかります。例えば、「ウィル・スミスがスパゲッティを食べている」というプロンプトを改善してみましょう。実行すると、どれくらい時間がかかるかがわかります。
Replicate、良いことを言っていたのに...はい、動画を一度に生成するわけではなく、タイルを順次生成していることがわかります。そのため、この動画を生成するには実際に時間がかかります。
しかし、これは良い設計だと思います。動画全体を一度に生成する巨大なモデルを持つよりも、単一のGPUで実行できる非常に小さなモデルを持ち、動画の生成に時間がかかるが、非常に小さなものでも実行できる方が良いと思います。
小さなタイルだけを生成し、それらのタイルをすべて組み合わせる小さなモデルの方が、動画全体を生成する非常に大きなモデルよりも良いのです。
では、続けていきましょう。画像を単一フレームの動画として扱います。潜在変数は1次元のトークン列にパッチ化されます。カーネルサイズ、デュアルストリームからシングルストリームへのハイブリッドモデル設計があります。
デュアルストリームフェーズでは、動画とテキストのトークンは独立して処理されます。シングルストリームフェーズでは、動画とテキストのトークンを連結します。これは以前に見たことがあります。
自己注意と交差注意をどこで行うか、という同様の概念です。動画トークンとテキストトークンがどの程度混ざり合うかということです。
トランスフォーマーの各ブロックで交差注意を持つ場合、基本的に動画トークンとテキストトークンが互いに対話し、ブロックを上がっていくにつれて意味を調整する機会が多くなります。
これがデュアルストリームフェーズ、あるいは連結してシングルストリームにする場合です。自己注意を行うとき、連結しているので互いに干渉します。
しかし、問題は、これが独立して処理するよりも計算コストが高くなることです。しかし、彼らが「効果的なマルチモーダル情報の融合、視覚情報と意味情報の間の複雑な相互作用の捕捉」と呼ぶものを得ることができます。
標準的な回転位置埋め込み(RoPE)がここにあります。実際に、SimoさんことSimo Ryuさんが、RoPEの本当にクールな可視化をリリースしました。
これがRoPEの見た目です。高さ、幅、次元があり、RoPE埋め込みが実際には空間の人工設計されたエンコーディングであることがわかります。
これらは実際には学習されておらず、基本的にハードコードされています。これによりモデルは、動画内のどの時点でこの小さなタイルを実際に生成しているのかを知ることができます。
これらのタイルを1つずつ生成していて、これが動画の最初の左上隅のタイルなのか、それとも動画の最後の右下隅のタイルなのかを知る必要があります。これらのRoPE埋め込みがそれを実現しています。
動画の最後では、これになり、動画の最初では、これになるかもしれません。OpenAIの2日目の発表を待つために、ここに何度もalt+tabで戻ってきて更新するつもりです。22時間前...あと2時間待つ必要があるかもしれません。
CLIPラージテキスト特徴量の最後の非パディングトークンをグローバルガイダンスとして採用しています。これは興味深いところです。
実際のプロンプト、あるいはこの場合は改善されたプロンプトをエンコードするテキストエンコーダーがあります。プロンプトはこのプロンプト書き換えに入力され、そのプロンプト書き換え出力がテキストとなり、それが実際の拡散モデル内でここで使用されます。
ピクセル空間出力を実際に作成するために使用されるトークンを作成するために使用されます。しかし、それらのテキストトークンをすべて使用する必要はありません。
特にCLIPラージのような場合、それらをすべて使用する必要はなく、前のすべての情報をある程度持っている最後のトークンだけを使用できます。
先週見た論文でも、1つのトークンだけを使用する人々がいました。画像を画像エンベッダーや画像エンコーディングモデルに入力し、そのモデルが500トークンを作成し、それらのトークンのうち最初か最後の1つだけを使用するとどうなるかという実験でした。
これらは通常、クラストークンと呼ばれます。テキストエンコーダーでも同様のことができることがわかり、これは興味深いと思いました。
標準的な事前学習済みCLIPとT5 XLがあります。これらは非常に人気があります。Stable Video Diffusionも基本的に同じものを使用していると思います。T5 XXLと大規模マルチモーダル言語モデルがあります。
ここにスケーリング法則があります。このセクションのモデルスケーリングを見てみましょう。トークン数はD、計算量はC、モデルパラメータ数はNです。
これらは異なるサイズのDit t2xです。サイズが大きくなるにつれて学習損失が減少しますが、数値損失曲線とCとNのべき乗則になります。
モデルパラメータ数を増やすとペタフロップスが増加します。これは理にかなっています。より多くの計算が必要になります。トークン数を増やすとフロップスが増加します。これも理にかなっています。
より多くのトークン、より長い動画、より高い画像解像度、より多くのタイルは、より多くの計算を必要とします。これらの傾向はすべて理にかなっています。
これらは異なるDitです。ここでは、CとD、CとNのべき乗則が見られます。より多くのモデルパラメータ、より多くの計算が必要です。
これらがすべてここでフラット化しているという事実は興味深いです。これは、ある時点でモデルがデータセットに過適合していることを示唆しています。
これが、データセットのキュレーションが非常に重要である理由です。モデルが最終的にデータセット全体を学習するのに十分な能力を持っている場合、本当に重要なのはデータセットの品質です。
これは非常にフラストレーションがたまります。なぜなら、これらの人々は実際にはデータセットをリリースしていないからです。しかし、ある意味でモデルをリリースすることは、データセットをリリースすることと同じです。
モデルをデータセットの圧縮形式として扱うことができます。そのモデルを使用して、学習に使用したデータセットを代表する合成データセットを生成できます。
このウィル・スミスの例が完了したかどうか見てみましょう。どうやらウィル・スミスを本当には知らないようです。しかし、ダイナミクスはかなり良いです。
少し奇妙なのは、彼がスパゲッティを口に入れて、そのまま取り出すことです。実際には食べていません。スパゲッティも少し奇妙な形に変形しますが、手と口と目の周りの一貫性は、背景に入ってくるこのランダムな人物も含めて、かなり印象的に見えます。
かなり良い出来栄えです。これが13Bモデルであることを忘れないでください。
これらのスケーリング法則を見てみましょう。拡散モデルでは現在標準的なフローマッチングがあります。ノイズ分布から初期化し、ノイズから開始して、基本的に移動方法を予測します。
軌道は、この開始ガウシアンノイズの各小さなピクセルが最終的に何らかの最終ピクセル値に移動するとイメージできます。
ある種の速度があり、ある方向に移動しています。この小さなRGBピクセルから始まり、異なるRGBピクセルに移動するという感じです。
ただし、ピクセル空間ではなく潜在空間で行われているため、そのような感じではありません。しかし、その直感は正しいです。
モデルが最終的に行っているのは、この点からデータ分布内の点への移動、つまりノイズ分布から実際の画像への移動を予測しようとしています。
ここには新しいものはありません。2段階の段階的画像事前学習戦略があります。低解像度から始めて、より高解像度に移行します。これも新しいものではなく、標準的な手法です。
動画と画像の共同学習では、期間とアスペクト比に基づいてトレーニングデータをバケットに分類します。各バケットに最大バッチサイズを割り当てて、OOMエラーを防ぎ、GPU資源の利用を最適化します。
異なる動画の長さと異なるアスペクト比は、異なる数のトークンをもたらします。つまり、このデータのバッチをモデルに入力する際、1つの長さまたは1つの解像度を持つと、潜在的にはるかに多くのトークンまたははるかに少ないトークンを持つことになります。
異なる数のトークンを持つデータバッチは避けたいのです。各バッチで同じ数のトークンを持ちたいのです。GPU資源またはGPUメモリの使用を最適化したいからです。
GPUメモリの40%だけで勾配を計算したくありません。そのGPUメモリ全体をデータとモデルで埋めたいのです。
そのため、異なる長さとアスペクト比を持つバケットを作成して、異なる長さとアスペクト比に対して堅牢であり、かつ毎回最適にフィットするようにしています。
ここでの考え方は、概念のリサンプリングとバランシングのための概念中心を作成することと同様です。各トレーニングバッチで概念の多様性が欲しいのと同じように、各トレーニングバッチでアスペクト比と動画の長さの多様性も欲しいのです。
ここでも段階的な階層的なものがあります。あ、ここにプロンプト書き換えがあります。オリジナルのユーザープロンプトをモデルが好むプロンプトに適応させるプロンプト書き換えモデルを作成します。
これにも実際に3つの段階があります。多言語入力の適応、プロンプトの言い換え、そして複雑なユーザーの表現をよりわかりやすい表現に単純化する簡略化があります。
これはさらに凄いことになると思います。ある時点で、これらのモデルは英語を使用することをやめるでしょう。
現在、このプロンプト書き換えは、プロンプトを受け取り、それを多くの英語テキストに書き換え、そのテキストがモデルの条件付けに使用されます。
これと同様に、テキストを入力すると、それはすべて英語で、より多くの英語を生成し、それがプロンプトとして使用される英語トークンになります。
しかし、将来的にはそうではなくなると思います。最終的に、この部分は英語ではなくなり、LLMに最適な何らかの奇妙な潜在言語になるでしょう。
プロンプトを受け取り、それを解釈し直して、基本的にAI言語、つまりLLMに最適な言語で書き直すモデルを想像してください。
ある意味で、この圧縮された潜在空間はAI言語のようなものと考えることができます。このエンコーダーとデコーダーが相互に通信するために使用しているAI言語です。
これはこの種のプロンプト書き換えにも当てはまると思います。最終的には、ユーザープロンプトを書き換えて、人間には理解できないが、映像生成モデルにとってはるかに意味的に豊かで圧縮された何らかの潜在言語に置き換えることになるでしょう。
高性能なモデル微調整では、完全なデータセットの特定のサブセットを微調整に使用します。これらのサブセットは、最初にスクリーニングを行い、その後手動でレビューされました。これは標準的な手法です。
ここでモデルの高速化について見てみましょう。これは興味深い小さなことでした。彼らはこれをシフティングと呼んでいます。
拡散モデルの画像を開いてみましょう。これは説明が簡単です。この画像は以前にも示しましたが、これが基本的に拡散モデルが行っていることです。
純粋なノイズから始まり、反復的なステップを通じて最終的な画像を作成します。しかし、人々はこれらの拡散モデルで、ここのステップが最初の数ステップほど重要ではないことに気付きました。
純粋なノイズから画像の始まりに移行する最初の数ステップは非常に重要です。このシリーズで計算をどのように配分するかを考える際、これは時間と考えることができます。
これが時間=1で、これが時間=0です。推論と学習で反転していますが、始めにより多くのステップを費やしたいのです。なぜなら、この軌道を動き出すと、モデルがこの動きを予測しているからです。
ここでモデルがこの潜在空間での速度のようなものを予測しています。その方向が確立されると、すでにその方向に移動し始めます。
ここで彼らが行った小さなトリックが、大きな効果をもたらしているようです。最初の時間ステップが生成プロセス中の大部分の変化に寄与しているので、推論ステップが少ない場合に対処するための時間シフトを行います。
基本的に、最後の方よりも最初の方により多くの推論ステップを費やしています。ここで多くの推論ステップを費やし、これらの最後の部分はさっと通過します。
実際に、数週間前に読んだMetaのMovie Genの論文では、線形二次シューラーを使用しており、このシフト関数でずっと良い結果を得たと述べています。
ステップを選択する時、モデルがフローを予測し、それを適用する際、ここで見られるように、ステップに基づいて始めの部分をオーバーサンプリングすることがわかります。
これが最もクールに見える理由だと思います。線形二次（MetaのMovie Genが使用している）とシフティングの違いを見てください。
品質の差は歴然としているようです。このクマの顔は完全にガラクタに見えます。この鳥も完全にガラクタに見えます。しかし、これの品質を見てください。これははるかに良く見えます。
この論文のほとんどは、他の人々がすでに行ったことです。基本的には全てのベストプラクティスですが、このシフティング戦略は新しいものです。これは興味深いと思いました。
テキストガイド付き蒸留では、クラスフリーガイダンス（CFG）がサンプル品質とモーション安定性を向上させますが、テキスト条件付きとテキスト無条件の動画を同時に生成する必要があるため、推論の負担が非常に高くなります。
このCFGが行うこと、これはここのメトリクスですが、動画の長さ、埋め込みガイダンススケールがあります。これにより、このテキストがどれだけ重要かを修正できます。
しかし、そのためには基本的に推論を2回実行する必要があります。テキストで条件付けられた推論とテキストで条件付けられていない推論を行い、それらの間でどの程度の比率にしたいかを調整できます。
しかし、これで2倍の推論を行うことになります。そこで、無条件入力と条件付き入力の組み合わせ出力を単一の生徒モデルに蒸留します。
これにより、推論を2回行う必要がなくなるため、2倍の高速化が実現します。しかし、ここから重要なことは、蒸留がこれらの種類のモデルの非常に重要な部分だということです。
特に、1つのプロンプトからより複雑なパイプラインを持つ世界に入っていく中で、これは重要です。プロンプトを変更する言語モデルを通過し、異なるシーンを作成する別の言語モデルに入り、異なる拡散モデルが生成するというような場合です。
10個や12個の異なるモデルを持つこのようなパイプラインがある場合、それらの各部分に完全なモデルを使用することはできません。
そのため、このパイプライン全体の異なる部分に対して、基本的に蒸留された、超特殊化されたモデルを持つというこのアイデアは、推論を減らすために続くトレンドになると思います。
もはや誰もこれらのモデルを生の形で使用していません。モデルと対話する時はいつでも、それは蒸留の蒸留の蒸留のような何かです。
「他人のサーバーで実行しなければならないのにうんざりしています」という意見について、ルイス、それは悪化すると思います。現実には、NVIDIAは消費者向けGPUの製造を停止するでしょう。
NVIDIAの収益を見てください。2020年または2021年には、家庭で持っているGPUは基本的にデータセンターで持っているGPUと同じでした。
しかし今、NVIDIAの収益の大部分は、データセンターでしか実行できない巨大なGPU、B200sなどから来ています。家庭では決して実行できません。
そのため、GPUを家庭のコンピュータで実際に使用する消費者向けのチームは、より少ない予算、より少ない努力、より少ない注目しか得られなくなります。
時間とともに、家庭で持っているGPUはクラウドで利用可能なGPUに全く及ばなくなるでしょう。すべてを家庭で実行できる世界にとって、これは良い兆候ではありません。
家庭用GPUとクラウドGPUの品質差は途方もなく大きくなると思います。しかし、逆方向に働く多くのトレンドもあるので、わかりません。
蒸留され、スパース化された非常に小さなモデルが十分に機能する状況を繰り返し目にしています。2つの異なる力が互いに戦っているのです。
クラウドに巨大なGPUを作るインセンティブがあり、それはすべてがクラウドで実行され、何も所有しない未来につながります。しかし、技術そのものは非常にうまく機能します。
蒸留は非常に効果的です。そのため、それは重要ではないかもしれず、2018年に設計されたGPUでこれらの映像生成モデルを実行できるようになるかもしれません。これは以前も話したことです。
「$200のサブスクリプションについてどう思いますか？」というトワンの質問について。OpenAIは01 Proをリリースし、月額$200を請求する予定です。
しかし、これは01だけのためではないでしょう。月額$200はSoraにも適用されると思います。Soraは今日ではないかもしれませんが、おそらく来週、確実にOpenAIの12日間の中でリリースされると思います。
01のためだけに月額$200は高すぎると感じます。なぜならそうだからです。少し良い01に月額$200は高すぎます。しかし、彼らはより多くのものを追加するでしょう。
月額$200で100回のSora生成が可能になり、月額$20では1日1回のSora生成しかできないというような形になると思います。OpenAIの12日間で追加される他の製品と組み合わせると、月額$200の意味が理解できるようになると思います。
現時点では高すぎると感じますが、12日間の最後には理にかなってくると思います。しかし、わかりません。
先ほど述べたように、Replicateでこれにカーソルを合わせると、H100で69セントのコストであることが正確にわかります。さらにDockerもあります。
より安価なH100を見つけることができれば、そしてそれを与えるだけの多くのランダムなスタートアップがあります。Xで見たPrime Intellectは、H100を1ドルほどで提供していました。
これを手に入れ、オープンソースで、1ドルで支払うH100で実行できるなら、1ドルで8分ほど、おそらくそれ以下で実行できます。これはどのくらいかかったでしょうか？1、2分程度でしょう。
そうなると非常に安価になります。月額$200で100回のSora生成が可能な場合、H100をレンタルしてオープンソースの映像モデルを実行する方が価値があるでしょうか？
また、Googleも考慮に入れる必要があります。彼らはおそらくこれを無料で提供するでしょう。Googleは利用者を切実に必要としているため、基本的に製品を無料で提供します。
Geminiは、支払いが必要になる前に数百万のトークンが無料です。彼らは画像や映像生成モデルでも同じことをするでしょう。製品を使用する人々を切実に必要としているため、基本的に無料で提供します。
OpenAIのSoraに月額$200を支払う価値はあるでしょうか？これらよりもほとんど良くない場合、実際にどれだけ良いのでしょうか？同じくらいかもしれません。
ここで起きていることは、サム・アルトマンがバイデン大統領を期待していたが、代わりにトランプ大統領になったということだと感じています。
今やイーロンは絶好調です。トランプと友好的なため、王の耳を持っています。NVIDIAと秘密の...いや、秘密ではありませんが、次世代のGPUを他の誰よりも先に手に入れる取引を結んだばかりです。
OpenAIは一種のダメージコントロールモードにあります。なぜなら、中国のスタートアップが基本的にSoraと同じくらい良い130億パラメータの映像生成モデルをオープンソース化しているからです。
この12日間のOpenAIの一部は、サム・アルトマンが資金調達のためにすべてのカードを机の上に並べているのだと思います。
これらのモデルの次のバージョンを学習させる次のGPUクラスターを手に入れるために資金が必要だからです。おそらく何百万ドルも支払っているGoogleから人々を雇い続けています。彼らは切実に資金を必要としています。
12日間の一部は、トランプが当選した瞬間に彼が気付いたことです。大量の資金を調達する必要があります。そこで、OpenAIが持つすべてのカードを机の上に並べ、最大限のハイプを生み出し、そのハイプで資金を調達し、それがすべての問題を解決することを期待しています。
これが12日間のOpenAIで起きていることだと思います。サム・アルトマンが最大限のハイプを生み出すためにすべてのカードを机の上に並べ、大量の資金を調達しようとしているのです。
「フル版01はバイブチェックに失敗し、01プレビューと比較して期待外れだ」という意見があります。私もそんな感じを受けています。人々はそれほど感銘を受けていないようです。
それはただの...それはSカーブです。01はここにいて、以前のものよりも大幅には良くありません。言語モデルのこの曲線の上部に近づいていて、映像生成モデルでもそうかもしれません。
これをどれだけ良くする必要があるのでしょうか？すでに十分良くないでしょうか。実際に、私はClaudeとGPTでこれについて話し合っていました。
iPhoneのディスプレイがあまりにも良くなり、ピクセル密度を上げる価値がなくなった時点があります。人間が知覚できる最大の視聴覚入力は何でしょうか？
映像をさらにHDにする必要がないほどHDな映像を生成している時点はいつでしょうか？我々が到達した数値は、目あたり4K、120Hzのリフレッシュレート、音声は48kHz、2チャンネル(左右)です。
i1も同様の状況に至りました。これは少し多めで、目あたり8K解像度、120FPS、96kHz 2チャンネル音声です。
そこに到達すれば、これらをさらにHDにする必要はありません。その時点で、8K映像を生成するモデルをどのように安価にできるか、VRヘッドセットでも実行できるまで蒸留を重ねることができるかを考え始めることができます。
10を10倍、10倍、10倍と掛け続けていくと、ここで10倍の改善、ここで10倍の改善、ここで10倍の改善、ここで10倍の改善と、非常に早くこれに到達すると感じます。
3年以内、最大でも5年以内に、平均的なオープンソースの映像生成モデルは基本的にこの解像度で出力を生成していると思います。
そして、これらの異なるプロバイダー間の違いも同じです。これをさらにどれだけ良くできるでしょうか？あまり良くはできないと思います。すでに非常にHDです。
このピクセル解像度を2倍にしても、それほど大きな違いは生まれないでしょう。
「01 Proは役立ちますか？」「01は01プレビューよりも制限が少ないです。アライメントを下げたことで性能が向上しました」
最近このブロガーの記事を読みました。この人は興味深いことを書いていて、彼のブログはどこでしょうか？
アレックス・エラン「01についての考え」はい、ここです。この人が指摘した興味深い点の1つは、これらの推論モデルをLHFすると、さらに悪くなるということです。
彼は、システムが主にRL(強化学習)ベースの場合、報酬関数の堅牢性に多くの信頼を置くことになると述べています。
アンドレ・カーパシーの「RHFはかろうじてRLだ」という意見に広く同意します。これは基本的に、悪い応答と良い応答を示すようなものだと述べています。
これは、事前学習から出てくる未調整のモデルを取り、政治的に物議を醸す内容を言わないように一種のロボトミーを施すようなものです。
しかし、誰もが直感的にわかっていたのは、これを行うとモデルを少し愚かにしてしまうということです。そして、これらの推論モデルではさらにそうだと思います。
なぜなら、01のような非常に長い思考の連鎖を生成するモデルをどのようにRHFするのか考えてみてください。「これが正しい答え、これが間違った答え」というようなRHFを行うのが難しくなります。
10万トークンの推論チェーンに対して、正しい答えと間違った答えを提供することはできないからです。
これらの推論モデルのパラダイムに移行するにつれて、この内部推論チェーンに多くのトークンを費やすことになります。特に非人間言語に移行し始めると。
この人は別の点も指摘しています。2017年の古い論文で、エージェントに互いに話をさせると、エージェントはすぐに英語の使用を止めてしまったという研究です。
彼らは独自の奇妙な擬似言語を作り始めました。まだ英語のトークンを使用していますが、彼らが行き来している意味は、我々には理解できない隠れた意味があります。
01のような推論チェーンタイプのモデルを持つと、これはさらに顕著になります。内部推論は、英語であっても、我々が理解できない奇妙なものが多くなります。
01タイプのモデルをRHFしようとすると、モデルはさらに愚かになってしまいます。そのため、モデルをできるだけ知的に保つために、このような調整作業は減少するでしょう。
つまり、01は恐らくどのGPT-4やGPT-3よりもアライメントが少ないということです。これが質問への回答になれば幸いです。
「解像度は改善が必要な唯一のものではありません。映像モデルが改善できる方法は他にもたくさんあります」そうですね。動画の実際のコンテンツがあります。
これは非常にHDですが、動きの一貫性など、多くの奇妙な点があります。HDですが、彼は文字通りスパゲッティを口から引き出しています。
「映像モデルをワールドモデルへのゲートウェイとして使用することについてどう思いますか？」
これについて話したかったのですが、本当の論文がないんです。これはGoogleのGenie 2の大規模基盤ワールドモデルについてのブログ記事だけです。
基本的には、アクションで条件付けられた生成モデルです。前のフレームだけでなく、何らかのアクション空間でも条件付けられています。
ここでは基本的に、WSADキーとジャンプボタンなどの標準的なビデオゲームのアクション空間です。しかし、これは以前の論文の2Dプラットフォーマーよりもすでに大幅に改善されています。
これは今や3D世界で、さらに多様性も増しています。そう、これら2つの組み合わせが来ています。基本的に、これはテキストまたはエンコードされたテキストで条件付けられた映像生成モデルに過ぎません。
最終的に、これらのトークンを実際のフレームにデコードし、それらを映像にまとめる拡散モデルがありますが、条件付けは前のフレームとテキストからだけ来ています。
入力アクションで条件付けるのはそれほど大きな飛躍ではありません。さらに高度なバージョンを想像することもできます。ビデオゲームのアクションではなく、神経活動で条件付けられます。
世界に座っていて、頭にNeuralinkが接続されていて、Neuralinkから出てくる信号がVRヘッドセットの各目に8K解像度を出力する拡散モデルの条件付けに使用されているところを想像してください。
それが我々の向かう先です。これらのすべてにおいて、私が説明した状況に欠けている技術はありません。すべての技術要素を持っています。ただ、それらがすべて一緒にまとまり、それぞれのパフォーマンスが向上するのを待つ必要があるだけです。
基本的にはそこにいます。すべての要素を持っています。それらがきれいな実装で組み合わさるのを待つだけです。あなたの脳の出力に基づいて生成される生成的な世界です。
あなたが何を生成したいかさえわかりません。モデルがあなたの脳活動の出力に基づいて、生成したいものを知っているのです。
「Google DeepMindはYouTube動画のデータについて非常に支配的な立場を持っています。Genieには多くのゲームプレイ映像を使用しているはずです」というのも興味深い点でした。
YouTubeの動画を使用して学習させた場合、誰かがスタークラフトをプレイするYouTube動画を作成し、GoogleがそのYouTube動画を使用してモデルを学習させた場合、GoogleはBlizzardに支払いをする必要があるのでしょうか？それともYouTubeが動画の学習権を持っているのでしょうか？
つまり、これらの映像生成モデルの学習に使用されるIPに対して、誰に支払いをすることになるのでしょうか？それは本当にややこしい問題で、誰に支払うべきなのでしょうか？
その答えは、誰にも支払うべきではないということだと思います。個人や企業が概念空間を所有するという考えが好きではありません。
「ライトセーバーの概念は私のものであり、ライトセーバーを使って何かをする場合は、基本的にDisneyにお金を支払わなければならない」というのは馬鹿げていると思います。
ライトセーバーを持つビデオゲームを生成したり、動画を生成したりする際に、Disneyに支払いをする必要はないと思います。しかし、Disneyはたくさんのお金を持っており、たくさんの弁護士を持っています。結局どうなるのでしょうか？わかりません。
「一部のモデルがこのような奇妙なスローモーション動画を生成する理由について、何か理論はありますか？」
これらの動画が一種のスローモーション感を持っていることについて話していますね。ここでも、動画は少しスローになっているのがわかります。
これは究極的にはデータに起因します。これらの動画のアーティファクトについて、なぜそれが存在するのかを考える最良の方法は、データセットを見ることです。
ここで明確に述べているように、静的なものを削除し、視覚的なブラーを排除しています。つまり、ブラーのある動画、動きのある動画をすべて除去すると、このデータフィルタリングプロセスを通過する動画は、モーションフィルター、鮮明度フィルターを通過しています。
結果として、人々が素早く動き、多くのモーションブラーがある全てのアクションシーンをフィルタリングしてしまいます。フォーミュラ1レースの撮影で、車が高速で通過してブラーになるような動画をすべてフィルタリングしてしまいます。
モデルを実際に学習させる際、速い動きの動画をあまり見ていないため、プロンプトを与えると、出力される動画はすべてこのようなスローモーション的なものになります。基本的に、見てきた動画のほとんどがこのようなゆっくりとした動きだからです。
より速い動きの動画を出力できるようにしたい場合、データセットにより速いものを含める必要があります。そしてそこに近づきつつあります。
これには多くの動きがあることがわかります。映像生成における奇妙なアーティファクトはすべて消えていくでしょう。それは「2年で幻覚は消える」というのと似ています。
映像生成でも同じだと思います。ある時点で、現在見られる奇妙なアーティファクトは見られなくなるでしょう。それらはすべて非常に早く消えていくでしょう。このビジネスには多くのお金が関わっています。
そうです、すべてはデータが最も重要です。深層学習での私の経験から学んだことを全て取り上げるとすれば、99%はデータで、残りは小さなトリックに過ぎません。
ここにシフティング戦略という小さなトリックがあります。より低いところでより多くのサンプリングを行います。
ここで時間ステップT、時間ステップτ=1、時間ステップt=0を見てください。線形サンプリングを行う場合、基本的にこの時間に沿って均等にサンプリングします。
時間ステップ=1から時間ステップ=0まで均等にサンプリングしていきます。しかし、Metaで行った線形二次またはシフティングの方が良いのです。これはさらに強力なバージョンです。
最初の部分でより多くのサンプリングを行い、下の方ではほとんどサンプリングしないことがわかります。推論のほとんどが最初の部分に集中しています。
なぜなら、ここからここへの動き、つまりノイズ分布から画像分布へのデータセット空間での移動があり、その最初の速度が基本的に残りを定義するからです。
そこにサンプリング時間を費やすことで、最適な速度またはフローを得ることができます。この速度ベクトルdx_t/dtは、x_tの時間tに関する導関数です。
「データのバランスを取るだけです」そして、構造化キャプショニングによってデータのバランスを取ることが非常に簡単になります。欠けているデータの部分を合成的に生成できます。
例えば、この少女が雪の背景で火をつけているたくさんの例があるとします。同じものを作成し、背景を木々や海に変更するのは簡単です。
これで5つの異なるバージョンを生成し、それらの5つの異なるバージョンで学習し、さらに良いバージョンを得ることができます。
これらの合成データループは、ここに戻りましょう。Metaは彼らの論文で分散トレーニングクラスターについて多く語り、ここでも簡単に触れています。
彼らはすべての異なる種類の並列処理、テンソル並列処理、パイプライン並列処理、コンテキスト並列処理、データ並列処理を使用しています。
並列処理は基本的に、GPU使用メモリを削減し、計算を加速するために、テンソルを異なるGPUに分割することです。
たくさんの異なるGPUで並列にトレーニングを行う場合、各GPUが全モデルと全データバッチを保持し、勾配を計算して更新するのではなく、モデル自体を複数のGPUに分割し、データ自体を複数のGPUに分割し、シーケンス（動画自体は時系列のフレーム）を分割します。
各GPUは本当に動画の1フレームの小さなタイルとモデルの特定の層だけを処理しています。ここではすべての種類の並列処理を使用していますが、彼らはこれを「テンセントシンマイAIネットワーク」と呼んでいます。
それを調べてみましょう。テンセントシンマイネットワーク...どんなGPUを使用しているのでしょうか？10万個のGPU...でもどんなGPUでしょう？NVIDIAのH100です。
10万個のNVIDIA H100...おっと...戻りましょう。バケット、並列処理、自動障害許容があります。これは大規模モデルトレーニングの論文で繰り返しテーマとなっています。
10万個のGPUを持ち始めると、基本的に必ず故障が発生します。これらの巨大なトレーニングクラスターで最も重要なことの1つは、個々のGPUやネットワークチップの故障に対処する能力です。
彼らもその問題に対処しています。例を見る必要はないと思います。これは興味深いです。彼らは人間を使用して...基本的に、人間が異なる動画を見て、お気に入りの動画を選ぶ人間評価を行っています。
これが最高のようですが、これらに少し嘘があるように感じ始めています。以前は人間評価が金字塔だと思っていました。特に画質や動画品質のような主観的なものについては。
しかし、人々がこれらを操作し始めているように感じます。なぜなら、読むすべての論文で、人間評価は常にその論文のものを好むからです。
人間の選び方や人間評価に何か裏があるように感じます。すべての論文が最先端だと主張しますが、それはあり得ないはずです。わかりません。
「動画に基づく音声生成」これもMetaのMovie Genと同じです。映像にフォーリー音声を追加したいという要望です。ここでも標準的です。
2Dメルスペクトログラムなので、音声は画像として生成されています。音声波形を画像に変換し、実際には画像を生成しているのです。
もう1つ注目すべき点は、このモデルでテキストから画像やテキストから動画だけをリリースしたわけではないということです。
ここにタイリングがあります。異なるタイルに分割し、それらのタイルを生成する方法を示しています。しかし、このリリースの一部として、チームの人々は上半身の話すアバター生成などの他の機能も作成しました。
表情や口の形を同期させたり、体を何らかの制御信号にリズミカルに動かしたりできます。ポーズテンプレートを使用してデジタルキャラクターの体の動きを明示的に制御できます。
自分の動画を撮影し、MediaPipeのようなものでポーズを抽出し、そのポーズの骨格を使って動画を駆動できます。HunYuan動画のギャラリーで例を見つけられるでしょうか...テラコッタ...見つかりません。
しかし、動画を駆動できます。なぜそれが重要なのでしょうか？Soraはこれらの機能を持つのだろうか、というのが疑問になり始めているからです。
ここに戻りましょう。テキストから動画は十分でしょうか？これらの製品はテキストから動画だけです。Soraもテキストから動画だけかもしれませんが、中国から出てくるオープンソースモデルには、他にも多くの機能があります。
例えば、座って顔を動かすとアバターの顔が動く機能や、ダンスをすると任意の画像の人物が同じダンスを踊る機能などです。
上半身のアニメーション、ダイナミクス、生き生きとしたアバターの動きなど、テキストから画像・動画モデルの自然な拡張機能がたくさんあります。
Soraがこれらの機能を最初から持っていなければ、実際に何人の人が使用するでしょうか？
Soraもこれらの機能を持つと思います。OpenAIの12日間の1つがSoraになると思いますが、テキストを入力すると動画が出力されるというテキストから動画の機能だけでなく、このようなアバター駆動も必要な機能になると思います。
映像生成モデルをリリースする際に必要な機能になりそうです。なぜなら、これらの方がテキストから動画よりもはるかに人気が出そうだからです。
テキストから動画は可能な限り最もシンプルな製品で、このような形で誰かがぼんやりと動く5秒のクリップよりも使用価値が低いように感じます。
「中国へのH100の輸出は禁止されているのに、どうやって手に入れたのでしょうか？」それを回避する方法はたくさんあります。
1つの方法は、タイなどに会社を作り、その会社がH100をすべて購入し、中国の会社がタイの会社から購入するというものです。
Appleがアイルランドに企業を作り、オランダベースの企業を通じてIPを販売するような巨大な租税回避の抜け道と同じように、「中国にH100を販売できない」というような地政学的な制限にも、多くの抜け道があります。
実際には効果がなく、ポーズを取っているだけです。「なぜ一部のモデルが...」これはすでに答えました。「彼ら自身が人間評価者を割り当てています」そう感じます。
これらのプロの評価者をゲーム化し始めているように感じます。プロの評価者は支払いを受けており、支払いを受けているということは、あなたのモデルのモデルを選ぶインセンティブがあるということではないでしょうか。「結果の選別を避けるが、評価者を選別する」
では更新してみましょう。OpenAIの12日間の2日目はいつになるのでしょうか？Soraは今日登場するでしょうか？おそらくないでしょう。他に興味深い内容はありますか？
このXプロンプトの論文は興味深いものでした。「文脈内画像生成に向けた自己回帰型ビジョン言語基盤モデルにおけるユニバーサルなアプローチ」です。
彼らは文脈内の例を使用して画像生成を行うモデルを作成しています。要点はこちらです。画像でプロンプトを行います。「これが画像1です、これが画像2です、この画像でも同じことをしてください」というように。
文脈内の例を与えることで、何をしたいのかを伝えやすくなります。英語で映像の説明を行い、LLMがより複雑な説明を生成し、それをテキストから映像生成モデルの条件付けに使用するという世界に住むのではなく、マルチモーダル入力を可能にする映像生成モデルを作れないでしょうか。
「これが私の画像です。こちらはバイクに乗る人の映像です。私がバイクに乗る同じような映像を生成してください」というように。これは非常に強力なアイデアだと思います。
映像生成モデルをマルチモーダル入力でプロンプトするのです。これは始まりに過ぎず、まだ映像生成モデルではありません。画像を出力するだけです。しかし、これは必要な機能になると思います。
「Sunoの成功とYuDoの後を受けて、OpenAIが同様のモデルをドロップするのが見えます」それは非常に良い推測です。骨格的な幽霊の音声生成、それも非常に良い推測です。
基本的にOpenAIの音楽生成器ですね。「DeepMindのGenie 2について話しましたか？」はい、取り上げました。非常にクールだと思いますが、ストリームを作るには十分な内容がありませんでした。
ただのブログ記事で論文はありませんでした。しかし、これがエンターテインメントの未来です。ニューラル入力信号に基づくリアルタイム映像生成です。
これはまだ初期バージョンです。QWEASDというアクション空間だけです。これらのワールドモデルを考える際は、アクション空間について考えてください。
ここでのアクション空間は、アタリのように約10の離散的なアクションを持つ離散的なアクション空間です。しかし、我々が本当に欲しいのは、このアクション空間が連続的でより曖昧なものになることです。
アクション空間が10個の離散的なアクションではなく、脳内の1000個の小さな電極のセンサーアレイで、各電極が0から1までの連続的な値を持つことを考えてください。
1つの1000次元の連続的なアクション空間です。ここにあるような1、2、3、4、5、6、4、11の離散的なオンオフのアクション空間ではありません。
まだ少し待つ必要があります。「映像生成されたOSとワードプロセッサが欲しいです」それはクールですね。基本的にUIをすべて幻覚させるのです。
「Dalle 4もリリース予定でしょう」私は、それらを組み合わせると思います。別々の映像生成器と画像生成器を持つことは意味がありません。
ここでも、映像は1フレームの画像に過ぎません。別々の画像生成と映像生成を持つ意味はありません。同じモデルになるでしょう。
この学習に多くの計算を費やすのですから、なぜ異なるバージョンを持つ必要があるでしょうか？1つのバージョンで、推論を単純化し、研究を単純化し、チームを単純化し、すべてを単純化します。
そのため、映像生成と画像生成は同じモデルになると思います。Dalle 4は存在せず、すべてがSoraになるか、Soraを使用して画像を生成することになるでしょう。
「40のネイティブ画像生成」つまり、ある種のマルチモーダル出力、40の3Dアセット生成について話していますね。それは可能ですが、3Dアセット生成にはそれほど大きな市場がないと思います。
3Dアセット生成についていくつかのストリームを行いましたが、もしかしたら3Dアセットさえ必要なくなるかもしれません。この3Dアセットを持ち、それで3D世界を作るという考え方全体が消えるかもしれません。
ピクセル空間で明示的に生成する世界に移行するなら、3Dアセットは必要ありません。このボートの3次元バージョンを生成し、ボートの位置を持つコードがあり、水との物理的な相互作用があり、木と衝突した時の衝突メッシュがあるという、そのような複雑なゲームロジックは必要ありません。
それはすべて暗黙的にニューラルネットの重みの中にあります。これが砂に当たる時の衝突メッシュはありません。すべて暗黙的で、ニューラルネットの中に隠れています。
将来的には、3Dアセットを生成し、そのアセットをゲームエンジンで使用するモデルは持たないかもしれません。代わりに、ゲームエンジンとすべてのアセット、そのすべてが基本的にニューラルネットの重みの中にあり、すべて暗黙的に行われます。
これはUnreal EngineやUnityのような企業にとって恐ろしい考えです。これらの企業は、仮想世界の作成に関するこのような明示的な構造に依存しているからです。
「ここに木があり、ここに木を置き、ここに木を置きます。この木はこの3Dアセットで、この木はこの3Dアセットです」というように、現在のゲーム世界には多くの微妙な構造があります。
しかし、これらのリアルタイム生成される世界を持つようになれば、その多くが消えて無くなる可能性があります。そのため、3Dアセット生成は必要なくなり、すぐにここのようなものになるかもしれません。
「両方持てばいいじゃないですか」両方持つことはできます。3Dアセット生成は3Dプリンティングのために残ると思います。結局のところ、このウォーターボトルのより良いバージョンを設計するAIが欲しい場合、プリントするために実際の3D構造を生成するAIが必要です。
しかし、仮想世界のための3Dアセット生成は消えるかもしれません。「40のTesla」それがなんなのかわかりません。「3D構造をAIでスタイライズできます」そうですね、でも私が言いたいのは、複雑さが必要ないということです。
3Dアセットを生成すると、誰かが「このアセットは前に進むことができ、ジャンプすると10cm上がり...」といったコードを書く必要があります。言いたいことはわかりますよね？そこには本当に明示的に書き下す必要のない余分な情報がたくさんあります。
「チートは信じられないものになるでしょう」そうですね、でもチートの意味がわかりません。ゲームをプレイしてチートを使うなら、何が目的なのでしょうか？
「これは脚本のストーリーボードに最適かもしれません」そうですね、これは必要になると思います。現在、これらのテキストから映像生成モデルはそれほど有用ではありません。
1つの文で全映画を生成してくれるモデルが欲しいのです。5秒間のこの男が見上げるクリップの目的は何でしょうか？この男の映画が欲しいのです。
これらの映像生成製品は現在、非常にプロトタイプ的なバージョンで、5秒のクリップを生成するだけですが、消費者からはより高度なバージョンの製品を提供することが期待されると思います。
これらがそうです。1つの文から全映画を生成したり、ここで行っているように駆動できるものです。TikTokのダンスをして、それでアバターを制御できます。
これらが人々が実際に使用したい製品で、テキストから映像生成はおもちゃのようなもので、それほど機能的ではありません。
他にお見せしたいものはありますでしょうか？ReplicateのこれらのGuysは素晴らしいですね。本当にReplicateが好きです。Vertex、Flux、The Maximal、これが限界です。
これに到達したら、終わりです。スパゲッティを食べるウィル・スミス、RoPE埋め込みの可視化、拡散モデル、将来的に消費者向けNVIDIA GPUが悪くなる理由、少なくとも消費者向けNVIDIA GPUは。
OpenAIは01、Soraへの優先アクセス、音声生成モデルへの優先アクセスに月額200ドルを請求します。複数のものがバンドルされると思います。
Sカーブにいます。LLMについてはここにいて、映像生成については多分そうではありません。映像生成にはまだ進歩があると思います。
このウェブサイトはひどいですね。広告がたくさんあります。これは吐き気がします。
以上です。他にそれほど話すことはありません。OpenAIが2日目をリリースすることを期待していましたが、このストリーム後に見ることになりそうです。
「チャットGPTのような瞬間がロボティクスで見られるのはいつだと思いますか？」それはすでにそこにあります。現在見られるロボティクスのデモの多くは、言語モデルと生成AIがあってこそ可能です。
ロボティクスのデモは過去5年間で簡単に10倍良くなっています。2017年にGoogle Brainでロボティクス研究をしていた頃のデモは、「これを80%の確率で拾える」というようなものでした。
今のロボティクスのデモでは、ロボットと話をして、ロボットが理解し、これを拾うことができます。すでにそこにいます。ロボットは5年前と比べてはるかに優れています。
しかし、ロボットは本当に難しいので、家にロボットを持つまでにはおそらくあと2-3年待つ必要があります。しかし、それは近づいています。非常に近いと思います。
「すべてが2年後のように見えますね」より良いワールドモデルが必要です。
そろそろ終わりにしましょう。皆さんの時間を無駄にしたくありません。他に言うことはありません。ここで終わりにします。
視聴ありがとうございます。サスキア、ブライアン、サラ、ナラジ、リス、骨格的幽霊、アーサー、トワン、ジョシュ、レックス、リチャード、アーサー、ヤー、シド、VRウィザード、オラス、アリーズ、ブクラウド、ヤングマン、ファルーク、マゲッティ、マーク、ナラジ、NLPプロンプター、ジャックC、Cダズ、皆さん参加してくれてありがとうございます。
来週また会いましょう。来週はOpenAIのストリームをやるかもしれません。OpenAIの日数が増えてから、様々なものを分析できると思います。しかし今は待つしかありません。

映像生成

いいなと思ったら応援しよう！