論文解説 ControlNeXt: Powerful and Efficient Control for Image andVideo Generation

project page : https://pbihao.github.io/projects/controlnext/index.html
arxiv : https://arxiv.org/abs/2408.06070
github : https://github.com/dvlab-research/ControlNeXt

ひとことまとめ

ControlNetよりパラメータが少なく、高速に学習・推論できる手法を提案

概要

ControlNetやT2I-Adapter,ReferenceNetは平行なブランチを追加したりアダプターを挿入することで画像条件追加を可能にしている。しかし、これらの手法は計算資源や学習難度が高い。ControlNetは2倍近いGPUメモリを消費したり、大量の追加パラメータを持っている。これらは特に動画生成で問題になる。
T2I-Adapterは1度の推論で特徴量を生成するためこの問題を軽減できるが、精度を犠牲にしている。また、zero convolutionは遅い収束があり、“sudden convergence phenomenon”が発生する。
ConvNeXtでは、これらの手法よりも少ない追加要素で、画像条件を追加可能にする。Control Branchは軽量な畳み込みネットワークで代替する。学習時、ベースモデルのほとんどの重みを固定し、一部を再学習する。これにより過剰適合と壊滅的忘却を避けることができる。さらに、Zero Convolutionの代わりにCross Normalizationを使用する。これにより、新パラメータ導入による分布不一致を軽減させ、効率かつ安定的な学習を行う

提案手法

事前学習モデルはLAION-5Bのような巨大なデータセットで学習するが、ファインチューニングは1/1000程度の規模のデータセットで行うことが多い。また、事前学習生成モデルは十分強力であるため、ControlNetのような巨大パラメータは必要ない。
特に、ControlBranchの複数のResnetを軽量な畳み込みモジュールで代用する。このモジュールは事前学習モデルよりもかなり小さく、制御情報からガイダンス情報を抽出しノイズ除去機能と整合させるように設計している。訓練中は事前学習モデルの重みのほとんどを凍結し、一部の重みのみを学習する。これにより、忘却リスクを最小限にする。
LoRAなどの手法と併用することもできるが、モデルを直接学習させることで、より高い効果と効率を得ることができる。
ほとんどの制御可能な生成タスクでは、制御がシンプルな形式か、ノイズ除去機能と高い整合性を維持していることが多く、複数の段階で制御を挿入する必要がない。そのため、Cross Normalizationを通じて正規化した後、制御をノイズ除去の特徴量に直接加算する

Cross Normalization

学習時の崩壊は導入したモジュールと事前学習モデルのデータ分布のずれによっておこる。大きなデータセットで学習した場合、事前学習済み生成モデルは安定的な特徴量であったり、平均や分散が一定なデータ分布を示す。しかしながら、ランダムに初期化したモジュールを追加すると、平均や分散が大きくずれ、モデルの不安定性が生じる。
Normalizationは入力されたデータを正規化することで安定性と早い学習速度を実現している。これらを参考にしたCross Normalizationを導入することで、追加モジュールにおいて学習の安定と高速な収束を実現する。
このCross Normalizationは単純に追加モジュールの特徴量をもとのノイズ除去モジュールの特徴量の平均・分散で正規化しなおすだけでよい。

実験

学習の収束性

ControlNetでは1,000~10,000ステップ後に急に収束する現象が報告されている。これは

  • Zero Convolutionにより効率的に学習が開始できない

  • 元モデルのパラメータが完全に固定されており、モデルの出力に即座に影響を与えられない

ことが原因である。しかし、提案手法ではこれらの制約を取り除くことで、きわめて早く(poseでは400ステップほど)収束していることがわかる。

モデルの効率性

提案手法は非常に軽量なモジュールを追加することで、パラメータ数の増大や遅延を最小限に抑えている。

上の図や表にある通り、追加モジュールのパラメータ数を非常に小さく抑えつつ、学習パラメータ数も抑えられていることがわかる。

また、推論時間も10%程度しか悪化せず、ControlNetと比較しても十分小さいことがわかる。

Plug and Play

提案手法はこの小さな学習機構を追加するだけであるが、生成画像がきちんと条件に従って生成されていることがわかる。

しかし、それだけではなく、LoRAや追加学習モデルにおいてもControlNet同様に互換性を維持できていることもわかる。

まとめ

  • 画像を条件として追加できる効率的な手法ControlNextを提案

  • 最小限のモジュールの追加および学習パラメータの選択により、推論時間や学習パラメータ数の削減を実現した

  • Cross Normalizationを導入することで、高速な収束と安定的な学習を両立した

  • 提案手法はControlNetと同様にLoRAや追加学習したモデルとの互換性ももっている

いいなと思ったら応援しよう!