Stable Diffusion 3.5 Large/Large Turbo/Mediumの使用経験

2024年10月27日 00:14

　こんにちは、Browncatです。
　Stable Diffusionの開発元のStability AIは、10月22日、Stable Diffusion 3.5 （SD3.5）LargeとLarge Turboをオープンリリースしました。
　さらに10月29日、同社はSD3.5 Mediumもオープンリリースしました。
　Stability AIは4月にStable Diffusion 3（SD3）LargeとLarge Turboをリリースしていました。
　そこで今回は、SD3.5 LargeとLarge TurboとMedium、SD3 Largeおよび、FLUX.1[dev]（SD3.5 Largeと最も比較対象になりうる）を、相互比較してみました。（初版2024.10.27、改訂2024.10.31）
※SD3.5 Mediumリリース後、同モデルに関する記述を追記しています。

Stable Diffusion 3.5（SD3.5）シリーズについて

　SD3.5 Large/Large Turboの概要は以下のようになります。

Stable Diffusion 3.5 Large

パラメータ数：81億（8B）

Stable Diffusion 3.5 Large Turbo

Largeの高速生成（蒸留）版

Stable Diffusion 3.5 Medium

パラメータ数：25億（2.5B）

　これらのより詳細については、以下の公式ページをご覧ください。

ライセンスについて

　SD3.5とSD3との違いの一つが、ライセンスです。
　SD3は、非営利利用のみ無料、またMedium以外はAPIでのみ利用可能で、オープン化されていませんでした。
　これについてStability AI社はオープンな画像生成AIコミュニティから厳しい批判を浴び、ライセンス条項を緩和せざるを得ませんでした。
　SD3のライセンス問題はここではこれ以上言及しませんが、ライセンス問題とそれに起因する種々のもめごと（ComfyUI開発者との関係悪化、SD3系モデルのCIVITAIからの締め出しなど）の経過については以下の新清士さんのASCII記事が詳しいです。

　ともかく同社は新たに community license を導入し、非営利利用のほか、年間収益100万USドルまでの商用利用も無料化し、SD3.5もこちらのライセンスが適用されます。またSD3.5 Large/Large TurboはリリースとともにHugging Faceでモデルがダウンロード可能になり、ComfyUI上でローカルで生成可能になりました。
　以下はSD3.5 LargeとLarge TurboとMediumのHugging Faceページになります。

Stable Diffusion 3の画質問題について

　SD3はライセンス問題に加えて、生成画像の人体がかなりの確率で形態学的にあり得ない姿で折れたり曲がったりする現象が生じ、それについても批判の対象となってきました。
　この画質問題については、SD3 Mediumの使用経験について書いた自身の記事の下のほうで言及しています。

　SD3系の画質問題は、Mediumのリリース後批判が先鋭化しましたが、その前にリリースされたLargeでも出ていた現象で、SD3.5でそれがどれだけ改善されたかが評価ポイントになります。
　ただし後述のようにSD3 Largeでも、破綻がない場合の画質はかなり良好なため、今回のSD3.5とSD3の Largeの比較では、画質にそれほど大きな違いは感じられないと思います。

Stable Diffusion 3.5 Mediumの画質に関する重要な注意

　SD3.5 Mediumの画質に関して重要な注意があります。
　SD3.5 MediumをComfyUI上で生成する場合、「Skip Layer Guidance」をModelブランチ（モデルとK-Samplarの間）に挟むようにしてください。
　こうすることによって、手などの部位の破綻を低減できます。　

生成例

　それでは実際の生成例を提示します。条件については、記事末尾に言及しています。比較対象のSD3 Largeは以前に生成したものです。

1. 古代遺跡を背景とした白い刺繡のドレスの女性

【SD3.5 Large】

　衣装や表情から受ける印象は、生成がうまくいったときのSD3 Largeに非常に近いです。

【SD3.5 Large Turbo】

SD3.5 Largeより、かえってパキッとした画質になります。人物の表情や体形もまずまず。背景は若干簡略化される傾向にあります。

【プロンプト】

the beautiful Japanese young woman in white beaded embroidered maxi dress is posing at the roman ruins, smile, (face closeup:1.3), photo realistic, cinematic, Professional analog film photo, film grain
ネガティブ：なし

【SD3.5 Medium】

　SD3.5 Large Turboに匹敵するような画質が得られています。ただし、同じプロンプトでは画角が変わるため、(face closeup:1.3) の代わりに upper body としています。またSkip Layer Guidanceの影響で、若干コントラストが強めになります。　

【プロンプト】

the beautiful Japanese young woman in white beaded embroidered maxi dress is posing at the roman ruins, smile, upper body, photo realistic, cinematic, Professional analog film photo, film grain
ネガティブ：なし

【FLUX.1[dev]】

　衣装の刺繍がSD3.5 Largeよりさらに細かいです。表情はSD3.5 Largeとどちらがいいかは一概に言えません。
【プロンプト】

cinematic photo, the beautiful Japanese young woman in white beaded embroidered dress is posing at the roman ruins, smile, portrait . 35mm photograph, film, bokeh, professional, 4k, highly detailed

【SD3 Large】（既出・参考）

手などの破綻がなければ、もともと高精細な画質を実現していました。

2. ボヘミアンスタイルの女性

【SD3.5 Large】

　SD3.5 Largeは他プラットフォームに比べてこのような流れるようなデザインになるのが特徴で、衣装や表情に、とても自由な雰囲気を感じます。

【SD3.5 Large Turbo】

　先例と同じく、Largeに比べてパキッとした画質になります。衣装のデザインはやや決まったようなデザインになります。

【プロンプト】

A young Japanese woman in a bohemian style outfit, with long, flowing skirts, a floral patterned blouse, is posing on the beach in summer, (face closeup:1.3), photo realistic, cinematic, Professional analog film photo, film grain
ネガティブ：なし

【SD3.5 Medium】

　SD3.5 Large Turboと比較すると、こちらのほうがかえって衣装がナチュラルな仕上がりに見えます。

【プロンプト】

A young Japanese woman in a bohemian style outfit, with long, flowing skirts, a floral patterned blouse, is posing on the beach in summer, upper body, photo realistic, cinematic, Professional analog film photo, film grain
ネガティブ：なし

【FLUX.1[dev]】

　画像から受ける印象は、SD3.5 LargeとSD3.5 Large Turboの間くらいです。
　画面に手が映っていますが、手など人体各部位の破綻がほとんどないのがFLUX.1[dev]の特長で、SD3.5がSD3に比べ改善されたといっても、描出の安定性は依然FLUX.1のほうが上です。

【プロンプト】

cinematic photo A young Japanese woman in a bohemian style outfit, with long, flowing skirts, a floral patterned blouse, is posing on the beach in summer . 35mm photograph, film, bokeh, professional, 4k, highly detailed

【SD3 Large】（既出・参考）

　受ける印象はSD3.5 Largeとほぼ変わりません。

3.テキストの出力・カフェ「Browncat」

【SD3.5 Large】

　均整の取れた結果で、「Browncat」の文字もきれいに生成されています。

【SD3.5 Large Turbo】

　人物の表情が綺麗で安定しています。一方、衣装や背景に若干の簡素化がみられ、「Browncat」のフォントもやや教科書的になっています。

【SD3.5 Medium】

　画質としてはSD3.5 Large Turboと同程度と思われます。

【プロンプト】

a young Japanese woman like an idol in a cleavage black and white maid cosplay with smile is posing In front of a western classical wooden cafe with sign 'Browncat', photo realistic, cinematic, Professional analog film photo, film grain
ネガティブ：なし

【FLUX.1[dev]】（既出・参考）

　以前に「画像生成AIモデル『FLUX.1』の使用経験」のために生成していたものです。「Browncat」の文字含め、SD3.5 Largeと同等の画質といえると思います。

【SD3 Large】（既出・参考）

　一見精細なように見えますが、耳の付近の表現があいまいになっています。

まとめ

　SD3.5 Largeは人物だけでなく、背景もあいまいにならず綺麗に描出されます。ベースモデルの画質としてはSDXLのベースよりはるかに高く、FLUX.1 [dev]に近く、人体の破綻もSD3 Largeより減少し、ベースモデルとしては合格といえると思います。
　SD3.5 Large Turboは、少ないステップ数とCFG値で高速に生成できるわりに、特に表情の部分でSD3.5 Largeとそれほど違わない画質が得られます。ただし現状のベースモデルでは、背景や衣装がやや簡素化される現象もみられます。
　SD3.5 Mediumは、SD3 Mediumより破綻が少なく、SDXLのベースより綺麗で、SD3.5 Large Turboに匹敵する画質が得られます。民生用の中級GPU（GeForce RTX3060等）でもローカルで生成できるメリットもあります。
　SD3.5は、FLUX.1系にすっかり先を越されてしまったものの、ようやくスタート地点に立ったと思います。Stability AI社が画質やライセンス問題で批判に直面したとき、すぐに自社の誤りを認めて改善してきたのは評価できます。
　開発環境がオープン化されているため、今後のカスタムモデルやLoRA、ControlNetの充実、WebUI対応が望まれます（原稿執筆時点で、すでにいくつかのLoRAが出回っています）。またSkip Layer Guidanceによって、原稿執筆時点ではSD3.5 Medium限定ですが、SD系の各モデルで出がちな手の形状の破綻をかなり軽減できるようになったのも重要です。

生成条件

　SD3.5 Large/Large Turbo/MediumはComfyUIを用いて生成しました。ComfyUIのワークフローは、以下のサイトに掲載の例を利用させていただきました。（Hugging Faceのページにもリンクあります）

　SD3.5 Largeのステップ数は30、CFG値は4.5、SD3.5 Large Turboのステップ数は4、CFG値は1.4、SD3.5 Mediumのステップ数は50、CFG値は4でそれぞれ生成しました。画像サイズは横896 x 縦1152ピクセルです。
　なおSD3.5系ではネガティブプロンプトの使用は推奨されていないため、今回の検証ではネガティブプロンプトを使っていません。
　以上、記事を最後までお読みくださりありがとうございました。

Stable Diffusion 3.5 Large/Large Turbo/Mediumの使用経験

Stable Diffusion 3.5（SD3.5）シリーズについて

Stable Diffusion 3.5 Large

Stable Diffusion 3.5 Large Turbo

Stable Diffusion 3.5 Medium

ライセンスについて

Stable Diffusion 3の画質問題について

Stable Diffusion 3.5 Mediumの画質に関する重要な注意

生成例

1. 古代遺跡を背景とした白い刺繡のドレスの女性

2. ボヘミアンスタイルの女性

3.テキストの出力・カフェ「Browncat」

まとめ

生成条件

いいなと思ったら応援しよう！