Diffusion Model Alignment Using Direct Preference Optimization
この論文では、Diffusion-DPOという新しい手法を提案しています。これは、テキストから画像を生成する拡散モデル(Diffusion Models)において、人間の好みに合わせて直接最適化を行う方法です。この方法は、最近の言語モデル(LLMs)で使われている「人間のフィードバックに基づく強化学習(RLHF)」の代替となるもので、シンプルに人間の比較データを利用してモデルを調整します。具体的には、「Direct Preference Optimization (DPO)」という既存の手法を拡張し、画像生成モデルに適用しています。
実験では、拡散モデルの代表的なStable Diffusion XL (SDXL)にこの手法を適用し、結果として69%の評価でより良い画像が生成され、視覚的魅力やテキストとの整合性が向上しました。また、この手法を使うことで、従来の方法に比べて推論時間を増やすことなく、より一貫した画像生成が可能になり、テキストの内容に対する画像の忠実度が改善されています。