Diffusion Model Alignment Using Direct Preference Optimization

2024年10月19日 08:34

この論文では、Diffusion-DPOという新しい手法を提案しています。これは、テキストから画像を生成する拡散モデル（Diffusion Models）において、人間の好みに合わせて直接最適化を行う方法です。この方法は、最近の言語モデル（LLMs）で使われている「人間のフィードバックに基づく強化学習（RLHF）」の代替となるもので、シンプルに人間の比較データを利用してモデルを調整します。具体的には、「Direct Preference Optimization (DPO)」という既存の手法を拡張し、画像生成モデルに適用しています。

実験では、拡散モデルの代表的なStable Diffusion XL (SDXL)にこの手法を適用し、結果として69%の評価でより良い画像が生成され、視覚的魅力やテキストとの整合性が向上しました。また、この手法を使うことで、従来の方法に比べて推論時間を増やすことなく、より一貫した画像生成が可能になり、テキストの内容に対する画像の忠実度が改善されています。

PDF URL: https://openaccess.thecvf.com/content/CVPR2024/papers/Wallace_Diffusion_Model_Alignment_Using_Direct_Preference_Optimization_CVPR_2024_paper.pdf

Diffusion Model Alignment Using Direct Preference Optimization

いいなと思ったら応援しよう！