【Stable Diffusion 3.5】Large、Large Turbo、Mediumを比較してみた
以前の記事でStable Diffusion 3.5(SD3.5)を説明しました。先日、SD3.5 Mediumがリリースされたので、Large、Large Turbo、Mediumを比較してみます。
結論としては、SD3.5 Mediumで十分です。RTX 3060(12GB)でも動作できるのは評価できます。
ただし、32VRAM以上のGPUをお持ちであれば、FLUX.1 devの方が良いと思います。(SD3.5 Largeを選択する理由を感じませんでした)
定量評価で比較
Stability AIの資料で評価します。Prompt Adherence(忠実にプロンプトを再現しているか)とAesthetic Quality(美的評価が高いか)の分野に分かれます。
Prompt Adherence(忠実にプロンプトを再現しているか)
SD3.5 Largeが、FLUX.1 devより数値が高いそうです。個人的な感想としては、SD3.5の3つのモデルで違いは感じませんでした。
Aesthetic Quality(美的評価が高いか)
FLUX.1 devが、SD3.5 Largeより数値が高いそうです。個人的な感想としては、数値通りFLUX.1 devが生成した画像の方が良い印象です。
定性評価で比較(生成結果で比較)
では、次に実際に生成した結果を比較します。今回使用したサイトはAppendixにありますのでご参照ください。
サイズは1024x1024Pixcelで、それ以外の項目はデフォルトのままで生成しました。結果は以下の通りです。感覚的には、Large(左)またはMedium(右)の生成結果が良い印象です。
上記の図では、Large TurboがMediumより数値が高いようですが、感覚値としては、Mediumの方が良く、Largeより良いかもしれません。
生成スピードの比較
順位は以下の通りです。
Large Turboは4 stepsということもありとても早いです。一方で、MediumとLargeは40 stepsということもあり時間はかかります。また、同じ40StepsでもMediumの方が軽いモデルのため、生成スピードは早いです。
Large Turbo:4.5s(4 steps)
Medium:20.9s(40 steps)
Large:43.7s(40 steps)
環境の比較
SD3.5 Mediumは、10VRAM(GPUメモリー)で動作します。よって、5万円以下で購入できるRTX 3060(12GB)で試せるのは優位性があるといえます。
一方で、SD3.5 Large、Large Turboは24VRAM以上、FLUX.1 devは32VRAM以上となるので、GPU購入コストがかかってしまいます。
ライセンス
3モデルとも商用利用は不可となります。(年間収益100万ドル未満、研究目的は無料で利用可能)
Appendix
プロンプトは前回と同様
この記事が気に入ったらサポートをしてみませんか?