論文解説 Ada-adapter:Fast Few-shot Style Personlization ofDiffusion Model with Pre-trained Image Encoder

arxiv : https://arxiv.org/abs/2407.05552

ひとことまとめ

3~5枚程度でStableDiffusionの生成画像のStyleを調整できる手法

概要

StableDiffusionなどのText-to-Imageモデルを特定のスタイルに最適化する研究は複数行われている。例えばDreamBooth、LoRA、Textual Inversionなどがあげられる。しかしながら品質を上げるためには大量の画像が必要である。そこでIP-Adapterなどの事前学習済みモデルを使用し効率的にstyleのみを学習する手法を提案する。提案手法は3~5枚程度の少ない枚数で、RTX4090で数分の微調整でモデルを特定のstyleに変換させることができるAda-adapterを提案する

提案手法

Visual modality condition for stylization

既存手法の汎化性の問題を解決するために、IP-Adapterを用い画像のスタイル情報をうまく抽出する。CLIPのデザインから、画像の内容は潜在空間(embedding spaces)の中では$${Y}$$スタイルの$${X}$$主題(subject)は線形空間に近いと仮説した。
例えば、1枚の参照画像$${R}$$の画像条件$${c_i}$$は、被写体の情報などを含む主題の情報$${c_i^{subject}}$$と、アートスタイルなどのスタイル情報$${c_i^{style}}$$に分解でき、$${c_i = c_i^{subject}+c_i^{style}}$$と仮定する。つまり、同じスタイルの画像群では、$${c_i^{style}}$$が同じで、$${c_i^{subject}}$$が異なる。

このとき、複数の画像embeddingで平均をとることで、それぞれの画像の主題の情報$${c_i^{subject}}$$が減少するが、スタイル情報$${c_i^{style}}$は保持されるので、これをスタイル情報として画像生成に活用する。実際では、IP-AdapterのRefecenceの出力を平均したものをスタイル情報とする。

Hierarchical Adapter

前章で、スタイル特徴量を生成過程に取り入れられると仮定した。しかし、参照画像枚が少ない(1枚など)ときは、画像embeddingの平均だけでは主題の影響を取り除けない。

また、U-Net内のレイヤーはそれぞれ別の役割を持っており、特定のレイヤーが主題を優先したり、他がスタイルや細かい部分を生成している。
(論文ではコサイン類似度をもとに層が別々の役割を担ってる説明をしているので、気になる方はそちらをチェックすると理解が深まるかと思います)

これらの階層的構造から、IP-Adapterも一部のレイヤーに物体情報を、他のレイヤーに高周波やスタイルの情報を伝えていると考えられる。この仮定をもとに、画像条件の効き具合を調整する。詳しい計算は省略するが、要はスタイルを参照するレイヤーはIP-Adapterの情報が大きく流れるように調整している。これをHierachical scalesと呼んでいる。

これにより、モデルが主題にかかわらずスタイルを優先して参照できるようになった(学習がいらないのでzero-shot)が、今度はそのスタイルの内在的な概念(足が極端に細くなる、頭がでかい、など)や細部の情報が無視される問題がある。

そこで、LoRAを使いStableDiffusionのモデルをファインチューニングすることでそのスタイルにより近い画像を生成できる。その結果がfew-shotで、LoRAの追加学習により内在的な概念が正しく反映されるようになったことがわかる。

実験

Ada-Adapter PlusはIP-Adapter Plusを使用した場合の結果。
Textual inversion,LoRAはスタイルを部分的にしか学習できておらず、両方合わせたとしてもプロンプトへの忠実度が不足している。対して提案手法は背景情報を含めたスタイルの特徴を正しく学習し、精度の高いアートスタイルへの適応ができていることがわかる。

定量的にもArt FIDが低くスタイル変換がうまくいっていることがわかる。一方、Clip Score(テキストとの対応度)がLoRAより若干低くなっている。
これはClipはスタイル情報を読み取らず、ただ単にテキストのみの識別になっているためである。(上の画像例ではLoRAはスタイルを無視してテキストに忠実になっていることがわかる)

まとめ

  • 少ない画像数でスタイルを参照にした推論を可能にした

  • StableDiffusion内のスタイルに特化した層を調べ、その層にIP-Adapterから画像情報を多く渡すことでスタイルのみを転移させることができる

  • 定性的・定量的にTextural inversion, LoRAを超える性能を示した

この記事が気に入ったらサポートをしてみませんか?