【stable diffusion】学習モデルによって生成される画像はどう変わるのか?
stable diffusion(ステーブルディフュージョン)は、学習モデルを変えることで、生成される画像に大きな違いが出るのは有名な話かと思います。
今回は、2つの学習モデルに対して同じプロンプトを使用して、生成される画像がどれくらい違うのか試してみたいと思います。
使用するプロンプトはこちら
プロンプト
best quality ,masterpiece ,ultra high res, very beautiful, kawaii, japanese, (photo realistic:1.4), 1 girl, above the knee, wearing wedding dress, Juliet veil, looking at viewer, at flower garden, sunny, Cinematic, 35mm lens, f/ 1. 8, accent lighting, 8k
ネガティブプロンプト
lowres, ((bad anatomy)), ((bad hands)), text, missing finger, extra digits, fewer digits, blurry, ((mutated hands and fingers)), (poorly drawn face), ((mutation)), ((deformed face)), (ugly), ((bad proportions)), ((extra limbs)), extra face, (double head), (extra head), ((extra feet)), cropped, worst quality, monster, logo, humpbacked, long body, long neck, jpeg, ((jpeg artifacts)), deleted, old, oldest, ((censored)), ((bad aesthetic))
使用する学習モデル
beautifulRealistic_v60
有名な学習モデルの一つ。アジア系の美女を出力するのに定評があります。実写よりの画像が生成されます。
Chilloutmix-Ni-pruned-fp32-fix
こちらもアジア系の美女を出力できる人気のモデルです。
イラストに近いテイストで画像が生成されます。
v1-5-pruned-emaonly
これは、stable diffsuionに初期から導入されている学習モデルです。
美女の生成には、向いているとは言えません。
実際に出力した結果
beautifulRealistic_v60
かなりクオリティの高い画像が生成されていますね。
この学習モデルは、人気の高いものなので、安定して美女が出力されています。
Chilloutmix-Ni-pruned-fp32-fix
こちらも人気の学習モデルですが、一つ前の画像とはテイストが異なることが分かります。こちらはイラスト、アニメテイストの画像が生成されていますね。完全に好みの問題ですが、学習モデルを変えただけで、生成される画像が変わってくることが分かりました。
v1-5-pruned-emaonly
こちらは、stable diffusion にデフォルトで導入されている学習モデルです。一言で言うと「美女を生成するのに向いていない」モデルだと分かります。美女を生成するのに特化したモデルではなく、汎用的なモデルなので、これまで紹介した2つのモデルに比べるとかなり精度が下がります。
ハッシュ値を固定して出力してみた
使用したハッシュ値は以下の値です。ちなみにプロンプトは変更していません。
18216807
ちなみ、上記ハッシュ値で生成されたものが下の画像です。beautifulRealistic_v60で最初に生成されたものです。
beautifulRealistic_v60
このモデルは安定して美女が生成されています。人気のある学習モデルの実力と言えますね。
Chilloutmix-Ni-pruned-fp32-fix
こちらも安定。個人的にはいつも背景の花畑に赤とピンクの花が含まれているのが気になります。
v1-5-pruned-emaonly
最後にデフォルトの学習モデル。ハッシュ値を固定しても、生成されるクオリティは上がりません(当たり前といえば当たり前ですが、)。
結論:学習モデルって大事
なんというか「当たり前の結論」になってしまいましたが、学習モデルって大事ですね。
stable diffusionで自分の好みの画像を生成したいなら、学習モデル選びから始めると良いかと思いました。