見出し画像

【Stable Diffusion 3.5】Large、Large Turbo、Mediumを比較してみた

以前の記事でStable Diffusion 3.5(SD3.5)を説明しました。先日、SD3.5 Mediumがリリースされたので、Large、Large Turbo、Mediumを比較してみます。
結論としては、SD3.5 Mediumで十分です。RTX 3060(12GB)でも動作できるのは評価できます。
ただし、32VRAM以上のGPUをお持ちであれば、FLUX.1 devの方が良いと思います。(SD3.5 Largeを選択する理由を感じませんでした)


定量評価で比較

Stability AIの資料で評価します。Prompt Adherence(忠実にプロンプトを再現しているか)とAesthetic Quality(美的評価が高いか)の分野に分かれます。

Prompt AdherenceとAesthetic Qualityの比較(Stability AIより)

Prompt Adherence(忠実にプロンプトを再現しているか)

SD3.5 Largeが、FLUX.1 devより数値が高いそうです。個人的な感想としては、SD3.5の3つのモデルで違いは感じませんでした。

Aesthetic Quality(美的評価が高いか)

FLUX.1 devが、SD3.5 Largeより数値が高いそうです。個人的な感想としては、数値通りFLUX.1 devが生成した画像の方が良い印象です。

定性評価で比較(生成結果で比較)

では、次に実際に生成した結果を比較します。今回使用したサイトはAppendixにありますのでご参照ください。
サイズは1024x1024Pixcelで、それ以外の項目はデフォルトのままで生成しました。結果は以下の通りです。感覚的には、Large(左)またはMedium(右)の生成結果が良い印象です。
上記の図では、Large TurboがMediumより数値が高いようですが、感覚値としては、Mediumの方が良く、Largeより良いかもしれません。

左:Large、中:Large Turbo、右:Medium

生成スピードの比較

順位は以下の通りです。
Large Turboは4 stepsということもありとても早いです。一方で、MediumとLargeは40 stepsということもあり時間はかかります。また、同じ40StepsでもMediumの方が軽いモデルのため、生成スピードは早いです。

  1. Large Turbo:4.5s(4 steps)

  2. Medium:20.9s(40 steps)

  3. Large:43.7s(40 steps)

環境の比較

SD3.5 Mediumは、10VRAM(GPUメモリー)で動作します。よって、5万円以下で購入できるRTX 3060(12GB)で試せるのは優位性があるといえます。
一方で、SD3.5 Large、Large Turboは24VRAM以上、FLUX.1 devは32VRAM以上となるので、GPU購入コストがかかってしまいます。

VRAMの比較(Stability AIより)

ライセンス

3モデルとも商用利用は不可となります。(年間収益100万ドル未満、研究目的は無料で利用可能)

Appendix

プロンプトは前回と同様

GPT-4oでプロンプト生成



この記事が気に入ったらサポートをしてみませんか?