【論文瞬読】安定性とコントロール性を両立：SNOOPIが実現する次世代の画像生成

2024年12月5日 21:29

こんにちは！株式会社AI Nestです。近年、Stable DiffusionをはじめとするAI画像生成モデルが急速に発展していますが、生成速度と品質の両立が大きな課題となっています。特に、画像を1ステップで生成する手法は高速である一方で、品質や制御性に課題があるとされてきました。今回は、これらの課題を解決する新しいフレームワーク「SNOOPI」をご紹介します。

タイトル：SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance
URL：https://arxiv.org/abs/2412.02687
所属：VinAI Research, Posts & Telecom. Inst. of Tech.
著者：Viet Nguyen, Anh Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran

図1は、SNOOPIと既存手法の比較を示しています。特に注目すべきは、ネガティブプロンプトを使用した際の細かな制御が可能になっている点です。従来の手法では難しかった「髭を除去」や「帽子を除去」といった細かな制御が、高品質を保ったまま実現できています。

従来手法の課題

1ステップ生成の難しさ

従来の拡散モデルは、ノイズから徐々に画像を生成していく多段階のプロセスを採用していました。この方法は高品質な画像を生成できる一方で、計算コストが高く、生成に時間がかかるという課題がありました。

これに対して、1ステップでの生成を目指す研究が進められてきましたが、以下のような問題点が指摘されていました：

学習の不安定性：モデルの学習過程が不安定になりやすく、一貫した品質の画像生成が難しい
制御の難しさ：特に「こういう要素は避けたい」というネガティブプロンプトの処理が困難
バックボーン依存：特定のモデルアーキテクチャでしか安定して動作しない

SNOOPIフレームワークの特徴

1. PG-SB：安定した学習を実現する新手法

従来の1ステップ拡散モデルには、学習が不安定になりやすいという課題がありました。SNOOPIでは、PG-SB（Proper Guidance - SwiftBrush）という新しい手法を導入し、この問題を解決しています。

PG-SBの革新的な点は、学習時のガイダンススケールを固定値ではなく、動的に変化させる点にあります。これにより、モデルはより多様な出力分布を学習でき、結果として安定した学習が可能になりました。

図2が示すように、PG-SBを導入することで、学習過程が大幅に安定化されています。特に、FIDスコアの変動が少なくなっており、学習の初期段階から安定した品質を維持できていることがわかります。

2. NASA：ネガティブプロンプトの革新的な実装

これまでの1ステップモデルでは実現が困難だったネガティブプロンプトのサポートを、NASA（Negative-Away Steer Attention）という新しいメカニズムで実現しました。

図4は、NASAモジュールの構造を示しています。注目すべきは、クロスアテンション層での特徴制御により、不要な要素を効果的に抑制できる点です。

従来の多段階生成では、生成過程で徐々にネガティブな要素を排除していくことができましたが、1ステップ生成ではそれが困難でした。NASAは、生成プロセスの中間特徴量レベルでネガティブな要素を制御することで、この課題を解決しています。

実装の技術的詳細

クロスアテンションによる特徴制御

NASAの核心となる技術は、クロスアテンション層での特徴制御です。この層では、テキストプロンプトの特徴と画像の特徴が相互に作用し、最終的な出力が決定されます。

ネガティブプロンプトが与えられた場合、NASAは以下のようなプロセスで処理を行います：

ポジティブプロンプトとネガティブプロンプトの両方から特徴を抽出
それぞれの特徴に基づいてアテンションマップを生成
ネガティブな特徴を適切な強度で差し引くことで、望ましくない要素を抑制

このプロセスは、画像の全体的な構造や品質を維持しながら、特定の要素だけを効果的に制御することを可能にしています。

実験結果と評価

SNOOPIの性能は、複数の指標で評価されています：

1. 画像生成の品質

HPSv2スコアで31.08を達成（現状の最高記録）
FIDスコアの安定的な改善
多様なモデルバックボーンでの安定した性能

2. ネガティブプロンプトの効果

図3は、様々なネガティブプロンプトを使用した際の生成結果を示しています。従来手法と比較して、より正確に不要な要素を除外できていることがわかります。特に注目すべき点は、除外したい要素を取り除きながらも、画像の全体的な品質と整合性が保たれていることです。

3. 計算効率

従来の多段階生成と比較して、計算コストを大幅に削減しながら、同等以上の品質を実現しています。これは実用面での大きなメリットとなります。

今後の展望

SNOOPIの成功は、1ステップ生成モデルの可能性を大きく広げるものです。今後期待される発展方向として、以下のような点が考えられます：

より複雑な条件での制御
現在のネガティブプロンプト制御をさらに発展させ、より細かな画像制御を実現する可能性があります。
他のモダリティへの応用
現在は画像生成に特化していますが、動画や3Dモデルの生成など、他のモダリティへの応用も期待されます。
リアルタイム応用
1ステップ生成の高速性を活かし、リアルタイムでの画像生成や編集といった応用が考えられます。

まとめ

SNOOPIは、以下の点で画像生成の新しい可能性を開きました：

PG-SBによる安定した学習プロセスの実現
NASAによる効果的なネガティブプロンプト対応
高速かつ高品質な画像生成の両立

特に、1ステップモデルでありながら複数ステップのモデルに匹敵する制御性を実現した点は、実用面での大きな進歩といえます。今後、AIによる画像生成の実用シーンがさらに広がることが期待されます。