Soraの技術の要点を咀嚼する研究
2024年2月16日に公開されたOpenAIのSora、サービスリリースの前に動画作品と倫理と論文を公開してきました。
今後もどんどん進化しそうですね。
いままで動画生成を頑張ってきたクリエイターの皆さん、研究者のみなさん、「動画は10年かかる」との主張を鵜呑みにしてきたみなさん。
https://twitter.com/CEOfromBCG/status/1758303663192510640
日本の研究は無駄!演算基盤をもっと!
という気持ちになっちゃいますよね。
(僕は動画はすぐできるとわかっていたし、演算基盤だけが問題とも思っていないのですが)
ちょうど昨日、森勢先生がこんなつぶやきを書いていらっしゃいました。
まあそれはそうなんですが「ものすごい速さと深さで研究すればいいのでは」という気持ちも無きにしもあらずです。
それについてはこのブログの中盤にエビデンスを紹介しますが、ともかく技術を理解していきましょう。
Soraの技術的要点を高速に咀嚼する
公式文書が出ています
"text-conditional diffusion models"
抹茶もなかさんがZennで解説してくれていたので引用
【AI動画生成】Sora 要素技術解説|抹茶もなか
https://zenn.dev/mattyamonaca/articles/e234e57834d7ad
その中で
"Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets"の論文で、
In ourwork, we follow the former approach and show that the resulting model is a strong general motion prior, which can easily be finetuned into an image-to-video or multi-view synthesis model. Additionally, we introduce micro-conditioning [60] on frame rate. We also employ the EDM-framework[48] and significantly shift the noise schedule towards highe rnoise values, which we find to be essential for high-resolution finetuning. See Section 4 for a detailed discussion of the latter.
私たちの研究では、前者のアプローチに従い、結果として得られるモデルが、画像からビデオ、またはマルチビュー合成モデルに簡単に微調整できる、強力な一般的動き事前分布を持つことを示します。さらに、フレームレートに関するマイクロコンディショニング[60]を導入します。また、EDM-framework[48]を採用し、ノイズスケジュールを高ノイズ値へ大幅にシフトします。後者の詳細な議論についてはセクション4を参照。
4.4. Frame Interpolation: To obtain smooth videos at high framerates, we finetune our high-resolution text-to-video model into a frame interpolation model. We follow Blattmann et al.[8] and concatenate the left and right frames to the input of the UNet via masking. The model learns to predict three frames with in the two conditioning frames, effectively increasing the framerate by four. Surprisingly, we found that a very small number of iterations(≈10k) suffices to get a good model. Details and samples can be found in App. D and App.E,respectively.
4.4. フレーム補間: 高フレームレートで滑らかな動画を得るために、高解像度テキスト-動画モデルをフレーム補間モデルに微調整します。Blattmannら[8]に従い、左右のフレームをマスキングによってUNetの入力に連結します。このモデルは2つの条件フレームで3つのフレームを予測することを学習し、フレームレートを効果的に4つ増加させます。驚くべきことに、非常に少ない反復回数(≒10k)で良いモデルが得られることがわかりました。詳細とサンプルはApp. DとApp.Eにそれぞれあります。
D5にその詳細がありますが、「クロスアテンション・コンディショニングのCLIPテキスト表現を、対応する開始フレームと終了フレームのCLIP画像表現に置き換えることで、長さ2のコンディショニング系列を形成しました。AdamW[56]を使用し、学習率10-4、減衰率0.9999のエクスポネンシャル移動平均を組み合わせ、Pmean=1、Pstd=1.2のシフトノイズスケジュールを使用して、空間分解能576×1024の高画質データをモデル化します。 驚くべきことに、私たちは、256という比較にならないほど小さなバッチサイズで訓練したこのモデルが、わずか10回の繰り返しで、極めて高速に収束し、一貫性のある滑らかな出力を得ることを発見しました」とあるので、この論文の段階で、UNetとCLIPを使って時間方向の学習ができていることは発見できていたけど、先行研究の論文(PYoCo:Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models)で、「Video Diffusionにおいて素朴に画像ノイズ事前分布を映像ノイズ事前分布に拡張すると、最適な性能が得られない」ことが発見されていたので、その部分を検証しているため、という理解をしています。
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models
Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji ICCV 2023
けっこう最近の論文で、動画拡散モデルについて「画像ノイズ事前分布を映像ノイズ事前分布に拡張すると、最適な性能が得られない」という形で否定されています。
ここで、冒頭のOpenAIのテクニカルレポートを読み直してみます。
そう、SoraはDiffusion Modelで構成されている。ノイズ除去をどの次元で行っているかについては実装が公開されていないし、おそらく決め込んでいるわけではないようだけど diffusion transformers が動画のモデルとしてスケーリングする可能性については確信があるようで、「In this work, we find」と言っているが、それはちょっと言い過ぎな気もする。diffusion transformers がスケーリング則に従うという話と、過去の研究で「うまくいきませんでした→改善しました」の繰り返しがある中で「transformersを巨大にしたから解決しました」という印象だけを残すのは、OpenAIとしてバイアスと重みをかけた表現であるようにも見える。
ちなみに論文[32]で引用されている SDEdit は「SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations」CVPR2021のこと。
Stable Diffusionよりも前に、Stanfordでこの論文を書いた主著者の Chenlin Meng さんは、Pikaを立ち上げているよ。
以下は個人的な理解まとめ
以下は個人的な理解ですが、ゼロショットのビデオ生成と、時間方向の拡散モデルによるフレーム補間は同じアプローチではなく、むしろ逆の要素があります。今回の もなかさん の主旨である「UNetとdiffusionではなくvideo transformerで実現した」、というところは主旨として間違いではないですが、実際のところそれらの技術なくして成立もしていません。この分野の各社の研究公開が盛んに行われていて、加えて、OpenAIの組織的な研究統合、西海岸的なリソース集中で、Transformersを更にスケールさせたという意味で功を奏したというところは同意したいところです。
世界を光や影など含んだ物理モデル(これはCGの研究における事前計算とかライトトランスポート問題に近いかも)、加えて移動や運動(人物のジョギングなど)のキネティックな運動力学モデル、自然界の水面や波面、桜吹雪のようなモデルを全て学習して、(動画や静止画での連続ではなく)3次元的な点群で表現して、それを時間方向に拡散させていくと、これができあがります!Video Transformersの出来上がりです、もちろんゼロショットの言語からの生成モデルも突っ込めますし画像理解もできますから今後も(フェイク動画以外の)使い道も多そうです、
今後もどんどん進化しそうですね。
抹茶もなかさん主張をそのまま理解すると冒頭で書いた通り。
日本の研究は無駄はなのか、演算基盤をもっと!
という気持ちになっちゃいますよね。
ちょうど昨日、森勢先生がこんなつぶやきを書いていらっしゃいました。
まあそれはそうなんですが「ものすごい速さと深さで研究すればいいのでは」という気持ちも無きにしもあらずです。
それが証拠に、このブログを書いているときに興味深い論文を見かけました。
人工知能学会大会(JSAI2023: The 37th Annual Conference of the Japanese Society for Artificial Intelligence, 2023)熊本で発表された「拡散モデルにおけるAttentionを制御したイラストからのファサード画像の生成と編集」という研究で、[1N5-GS-10] AI応用:Creative Design というセッションで発表されたようです。明治大学 Web Science Laboratory(WSL)の高木友博先生の研究室からの発表でこの論文の主著者の 山路和希さんは、この3年ぐらいの論文の中でも引用すべき要素(つまりSoraを作るための主要なテクノロジー)を十分理解しているし、今後どのように発展させるべきかの示唆にあふれている。高木友博先生の研究室からJSAI2023で発表イしているもう一つの論文「Stable Diffusionを用いたファサードデザインの編集」を書かれた 渕雅音さんも卒論/修論レベルかもしれないけど、大雑把なテーマ選定ではなく、Stable Diffusionの内部に目を向けた研究なので、数ヶ月ぐらいの期間で破壊的な発表をされることがない。しかも研究室的には Web Science というコンテキストなので、何もブレない研究指導をされていらっしゃるなあ、しかもこういう研究にコミットされている久米設計さんは、もっと評価されるべき、と思います。
以下はポエムです。
技術的な話をしたところで、ポエムも書いておきます。
(ChatGPTがそうであるように)雑なテキストから品質の高い推論を生成することに一定の価値があることが多くの人類に伝わり、ChatGPTをサブスクする人が増えていきます。そうなると、サブスクできる人の平均的なテキスト文書生成の品質が上がる一方、サブスクできない人との格差はつきます。一定の格差がついたところで、OpenAIによってその価格が設定されます。そこにOpenAIを支配するMicrosoftが「無料で」といってOSに組み込んでいきます。世界最大のソフトウェア企業がこうなのですから、ChatGPTを利用したSaaSなどにも共通して言えることになると想像します。
さて、動画生成モデルSoraの登場で人類はどう変わるでしょうか。たしかに人類の情報の殆どはVisionから獲得しています。映像によって心動かされ、行動に影響が出ることは間違いないでしょう。しかし、世の中に強大な演算基盤と実時間をかけて生成する意味がある動画が何なのか、いったん「平均値が上がる」という状態になるのだと予想します。その後は、「持つもの」と「持たざるもの」の間で喧騒は起きるでしょう。
しかし、ここまで私のブログを読んでくれた聡明なみなさんは、もうおわかりですよね。今後の人類に求められるのは「時間をかけて動画を作ること」ではなくなるでしょう。しかし「いかに時間をかけて考えて作ったかどうか」は相変わらず価値を持ちます。
OpenAIの技術文書を丁寧に読むと、他にもいろんな破綻が起きていることを発見できます。
もちろんバズりはしばらく続くでしょう。
OpenAIのリリース文書にある通り、バズを狙える動画を作れるクリエイターさんがレッドチームとして参加しており、その方々がいま一生懸命にSoraを鍛えて「世間を騒がせるフェイク動画とはなにか」を研究しています。
画像の出自や来歴を明らかにするC2PAメタデータも入っています。Adobeやソニーが先行していましたが、最近GoogleもMicrosoftもC2PAに参加しました。
Soraのリリースはおそらく3月15日よりちょっと前になるとみています。
そのタイミングでChatGPT4から1年、ChatGPT5の技術文書が出てくるものと想像します。僕がOpenAIのリリース担当者ならそう仕込みます。
ゲームと動画、人が感動する映像とは。
ゲームをプレイする時代から、ゲームを配信する時代、そしてAIが生成したゲーム映像に驚嘆する時代になりました。
子供にとって世界がイメージできるならゲームグラフィックスはドット絵でもいい。
子供には知識がないがそれを補完する想像力がある。
一方で実時間の経験が長い大人は想像できないイメージを行動に移せない。
だからこそフェイク動画の価値が生まれてしまいます。
「人間の知識は機械に負ける」
この1行は色んな意味を込めています。
ゲームの世界は大人も子供も「まだ知らない世界」だから興味を持つのです。
一方で「その背景にいる人々の頑張りを想像すると心動かされる」といった映像もあります。
H3ロケット成功、おめでとうございます。
AI技術がどんなに進化しても、ぼくは「つくる人をつくる」は無くならないし、むしろ輝きを増すものだと感じています。
さて原稿に戻ります!