Soraのテクニカルレポート日本語版(テキストのみ)
突如としてOpenAIより発表された「Sora」。
生成物自体も魅力ですが、テクニカルレポートにも非常に興味深い内容が書かれています。
私もこれから読み込みますが、ChatGPTにより読みやすい日本語に翻訳してもらった内容を公開します。
以下より翻訳
==================
この技術報告は、(1) あらゆるタイプの視覚データを統一された表現に変換し、生成モデルの大規模トレーニングを可能にする方法、および (2) Sora の能力と制限の質的評価に焦点を当てています。この報告書には、モデルと実装の詳細は含まれていません。
これまでの多くの研究では、再帰ネットワーク、生成敵対ネットワーク、自己回帰トランスフォーマー、拡散モデルを含むさまざまな方法を使用してビデオデータの生成モデリングが研究されてきました。これらの研究は、しばしば視覚データの狭いカテゴリーに焦点を当てたり、短いビデオや固定サイズのビデオに焦点を当てています。Soraは視覚データの汎用モデルであり、さまざまな期間、アスペクト比、解像度にわたるビデオと画像を生成できます。最大で高解像度のビデオのフル1分間です。
視覚データをパッチに変換
インターネット規模のデータにトレーニングすることで汎用的な能力を獲得する大規模言語モデルからインスピレーションを得ています。LLMパラダイムの成功は、コード、数学、さまざまな自然言語など、テキストの多様なモダリティをエレガントに統一するトークンの使用によって部分的に可能にされています。この作業では、視覚データの生成モデルが同様の利点を受け継ぐ方法を考えます。LLMにテキストトークンがあるように、Soraには視覚的な「パッチ」があります。パッチは以前に、視覚データのモデルにとって効果的な表現であることが示されていました。私たちは、パッチがさまざまなタイプのビデオと画像のトレーニングにおいて高度にスケーラブルで効果的な表現であることを見出しました。
ビデオをパッチに変換する高レベルのプロセスは、まずビデオをより低次元の潜在空間に圧縮し、その後、表現を時空間パッチに分解することです。
ビデオ圧縮ネットワーク
視覚データの次元を削減するネットワークをトレーニングします。このネットワークは生のビデオを入力として受け取り、時間的にも空間的にも圧縮された潜在表現を出力します。Soraは、この圧縮された潜在空間内でトレーニングされ、その後、生成された潜在表現をピクセル空間にマッピングする対応するデコーダーモデルをトレーニングします。
時空間潜在パッチ
圧縮された入力ビデオから、トランスフォーマートークンとして機能する時空間パッチのシーケンスを抽出します。このスキームは画像にも機能します。なぜなら画像は単一のフレームを持つビデオだからです。私たちのパッチベースの表現により、Soraはさまざまな解像度、期間、アスペクト比のビデオと画像のトレーニングが可能になります。推論時には、適切なサイズのグリッドにランダムに初期化されたパッチを配置することによって、生成されるビデオのサイズを制御できます。
ビデオ生成のためのトランスフォーマーのスケーリング
Soraは拡散モデルです。与えられた入力ノイズパッチ(およびテキストプロンプトなどの条件付け情報)に対して、元の「クリーン」なパッチを予測するようにトレーニングされています。重要なことに、Soraは拡散トランスフォーマーです。トランスフォーマーは、言語モデリング、コンピュータビジョン、画像生成など、さまざまなドメインで顕著なスケーリング特性を示しています。
この研究では、拡散トランスフォーマーもビデオモデルとして効果的にスケールすることがわかりました。以下では、トレーニングの進行に伴う固定シードと入力を持つビデオサンプルの比較を示しています。トレーニング計算が増加するにつれて、サンプルの品質が顕著に向上します。
変動する期間、解像度、アスペクト比
過去の画像およびビデオ生成アプローチは通常、ビデオを標準サイズ(例:256x256解像度の4秒間のビデオ)にリサイズ、トリミング、または切り取ることが一般的です。私たちは、代わりに元のサイズでデータのトレーニングを行うことでいくつかの利点があることを見出しました。
サンプリングの柔軟性
Soraは、ワイドスクリーンの1920x1080pビデオ、縦向きの1080x1920ビデオ、その間のすべてをサンプリングできます。これにより、Soraは異なるデバイスのネイティブアスペクト比で直接コンテンツを作成できます。また、完全解像度で生成する前に、より小さいサイズでコンテンツをすばやくプロトタイプ化することもできます。これらはすべて同じモデルで行えます。
フレーミングと構成の改善
元のアスペクト比でビデオのトレーニングを行うことで、構成とフレーミングが向上することが実証的に見出されました。生成モデルをトレーニングする際に一般的な練習である、すべてのトレーニングビデオを正方形にトリミングするモデルバージョンとSoraを比較します。正方形にトリミングしたトレーニングモデル(左)は、時に被写体が部分的にしか見えないビデオを生成することがあります。それと比較して、Sora(右)からのビデオはフレーミングが改善されています。
言語理解
テキストからビデオを生成するシステムのトレーニングには、対応するテキストキャプションが付いた多数のビデオが必要です。DALL·E 3で導入された再キャプション技術をビデオに適用します。まず、非常に記述的なキャプショナーモデルをトレーニングし、次にそれを使用してトレーニングセット内のすべてのビデオにテキストキャプションを生成します。非常に記述的なビデオキャプションのトレーニングは、テキストの忠実度とビデオ全体の品質の向上に役立つことがわかります。
DALL·E 3と同様に、短いユーザープロンプトをより長く詳細なキャプションに変換するためにGPTを活用します。これにより、Soraはユーザープロンプトに正確に従う高品質のビデオを生成できます。
画像およびビデオでのプロンプティング
上記およびランディングページのすべての結果は、テキストからビデオへのサンプルを示しています。しかし、Soraは既存の画像やビデオなど、他の入力でプロンプトを行うこともできます。この機能により、Soraは完全にループするビデオの作成、静止画像のアニメーション化、ビデオの時間の前方または後方への拡張など、幅広い画像およびビデオ編集タスクを実行できます。
DALL·E画像のアニメーション化
Soraは、画像とプロンプトを入力として提供された場合にビデオを生成できます。以下に、DALL·E 2とDALL·E 3の画像に基づいて生成された例示ビデオを示します。
ビデオを時間の前方または後方に拡張することもできます。以下は、すべて生成されたビデオのセグメントから時間の後方に拡張された4つのビデオです。その結果、4つのビデオは互いに異なって開始されますが、すべて同じエンディングに到達します。
この方法を使用して、ビデオを前方および後方に拡張して、シームレスな無限ループを生成できます。
ビデオからビデオへの編集
拡散モデルは、テキストプロンプトから画像およびビデオを編集するための多数の方法を可能にしました。以下では、これらの方法の1つであるSDEditをSoraに適用します。この技術により、Soraは入力ビデオのスタイルと環境をゼロショットで変換できます。
ビデオの接続
また、Soraを使用して、2つの入力ビデオの間を徐々に補間し、完全に異なる主題とシーン構成を持つビデオ間でシームレスな遷移を作成できます。以下の例では、中央のビデオが左右の対応するビデオの間を補間しています。
画像生成機能
Soraはまた、画像を生成することもできます。これは、1フレームの時間的範囲を持つ空間グリッドにガウスノイズのパッチを配置することによって行います。モデルは、最大2048x2048解像度までのさまざまなサイズの画像を生成することができます。
シミュレーション能力の出現
ビデオモデルがスケールアップすると、物理世界の人、動物、環境のいくつかの側面をシミュレートできる興味深い新たな能力が出現することがわかりました。これらの特性は、3D、オブジェクトなどに対する明示的な帰納バイアスなしに現れます。これらは純粋にスケールの現象です。
3Dの一貫性。 Soraは、カメラが移動し回転するときに、人やシーン要素が三次元空間を通して一貫して動くビデオを生成できます。
長距離の一貫性とオブジェクトの永続性。 ビデオ生成システムにとって大きな課題の1つは、長いビデオをサンプリングするときに時間的一貫性を維持することです。私たちは、Soraがしばしば、しかし常にではありませんが、短期間および長期間の依存関係の両方を効果的にモデル化できることを発見しました。たとえば、私たちのモデルは、人、動物、オブジェクトが遮蔽されたりフレームから離れたりしてもそれらを維持できます。同様に、1つのサンプルで同じキャラクターの複数のショットを生成し、ビデオ全体でその外観を維持することができます。
世界との相互作用。 Soraは、世界の状態に影響を与えるアクションをシミュレートできることがあります。例えば、画家がキャンバスに新しいストロークを残し、時間が経つにつれてそれが持続するか、または男性がバーガーを食べてかみ傷を残すことができます。
デジタル世界のシミュレーション。 Soraは、ビデオゲームなどの人工プロセスもシミュレートできます。Soraは、基本的なポリシーを使ってMinecraftのプレイヤーを同時に制御しながら、その世界とそのダイナミクスを高い忠実度でレンダリングできます。これらの能力は、Soraに「Minecraft」を言及するキャプションでプロンプトを与えることによってゼロショットで引き出すことができます。
これらの能力は、ビデオモデルのスケーリングを続けることが、物理およびデジタル世界およびそこに住むオブジェクト、動物、人々の高機能シミュレーターの開発への有望な道であることを示唆しています。
議論
Soraは現在、シミュレーターとして多くの制限を示しています。例えば、多くの基本的な相互作用の物理学、例えばガラスの破壊を正確にモデル化していません。他の相互作用、例えば食べ物を食べることは、常にオブジェクトの状態に正しい変化をもたらすわけではありません。モデルの他の一般的な失敗モード、例えば長期間のサンプルで発展する非一貫性やオブジェクトの突然の出現について、ランディングページで列挙しています。
私たちは、Soraが今日持っている能力が、物理およびデジタル世界およびそこに住むオブジェクト、動物、人々の高機能シミュレーターの開発への有望な道であることを示していると信じています。