
Stable Diffusion 3 Medium/Large/Ultraと、SDXLベースモデルの相互比較
こんにちは、Browncatです。
Stable Diffusionの開発元のStability AIは、6月12日、Stable Diffusion 3 Mediumをオープンリリースし、いろいろと話題になっています。
Stable Diffusion 3(SD3)シリーズには、このMediumのほかに、Largeのほか、Ultra(Largeの上位版)、Large Turboの各種があります。
そこで今回は、SD3 Medium/Large/Ultraと、SDXLベースモデルを、相互比較してみました。
Stable Diffusion 3(SD3)シリーズ概要
先述のように、SD3には複数のモデルがあり、特徴をまとめると以下のようになります。
Stable Diffusion 3 Medium
パラメータ数:20億(2B)
オープン化された開発・学習環境、無償の非商用ライセンス
Stable Diffusion 3 シリーズの最新かつ最も洗練されたモデルである Stable Diffusion 3 Medium をご紹介します。
— Stability AI Japan (@StabilityAI_JP) June 12, 2024
このリリースは、生成 AI の進化における大きなマイルストーンであり、オープンな生成AIに対する私たちの取り組みを継続するものです。
詳細は、こちらをご覧ください。… pic.twitter.com/01ZoA9UW8p
Stable Diffusion 3 Large
パラメータ数:80億(8B)
APIで利用可能。1回生成あたり6.5クレジット(1000クレジット=10USD)
Stable Diffusion 3 Largeについては、以下の以前の記事もご覧ください。
Stable Diffusion 3 Large Turbo
Largeの高速生成版
パラメータ数:80億(8B)
APIで利用可能。1回生成あたり4クレジット
Stable Image Ultra
SD3ベースのフラグシップ版
パラメータ数:80億(8B)
APIで利用可能。1回生成あたり10クレジット
生成例
それでは実際の生成例を提示します。横のサイズは896ピクセル、縦横比は3:4~4:5、画像拡大はしていません。条件については、記事末尾に言及しています。
1. 古代遺跡を背景とした白い刺繡のドレスの女性
【Medium】

プロンプト通りの美しいアジア人女性の姿となります。表情はSDXLベースより良く、Largeと比べても健闘しているように思います。背景も遺跡の構造物が適切なボケ味でしっかり写っています。
一方で、精細度は一見Largeとあまり変わりませんが、よく見てみると、衣装のテクスチャはLargeより粗くなっています。
【Large】

全般的に、Mediumより質感が良くなっています。
【Ultra】

Largeより肌や衣装の質感が引き締まった感じになります。肌の質感が本当に実写とあまり変わりません。
【SDXLベース】

被写体の肌の質感や精細度がUltraやLargeに比べて劣り、SD3各モデルに比べ全体的に色彩がくすんだようになります。
【プロンプト】
【Positive】 cinematic photo, the beautiful Japanese young woman in white beaded embroidered dress is posing at the roman ruins, smile, portrait . 35mm photograph, film, bokeh, professional, 4k, highly detailed
【Negative】 drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly
2. ボヘミアンスタイルの女性
【Medium】

表情や色彩が後述のSDXLベースよりよい一方で、顔の化粧が濃いという印象。
なお、この画像に限りませんが、Mediumは表示範囲について何も指定しないと、デフォルトで「full body」を指定したような全身画像となり、ポートレートやクローズアップ画像を作るのがかなり苦手なようで、こちらの画像のプロンプトについては追加で (face close up:1.8) と追加せざるを得ませんでした。
【Large】

Merdiumに比べ、精細度が増す印象。
【Ultra】

質感、特に肌のリアリティが見事です。
【SDXLベース】

衣装のテクスチャが細かい一方で、顔については、アジア人の表現が苦手なAIモデルの典型といえます。
【プロンプト】
【Positive】 cinematic photo A young Japanese woman in a bohemian style outfit, with long, flowing skirts, a floral patterned blouse, is posing on the beach in summer . 35mm photograph, film, bokeh, professional, 4k, highly detailed
ただし、Mediumでは (face close up:1.8) を追加
【Negative】 drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly
3.テキストの出力・カフェ「Browncat」
以前にLargeのみについてテキストの画面上への出力を確認したのですが、今回はMediumとUltraについてもやってみました。
【Medium】

見事なくらい文字がきちんと出ます。シードをランダムにして何回か別画像を生成しましたが、同様に生成されます。また人物(メイド)や背景のカフェの入り口の表現もよいです。
【Large(既出)】

【Ultra】

こちらも文字が出せます。画像の質感は他と同様、Largeを上回ります。
【参考:SDXLベース】

試しにSDXLのベースモデルでもやってみましたが、文字がまともに出ないばかりか、白黒の衣装をプロンプトで指定したせいか、SD3と同一プロンプトでは、なんと画像が白黒となってしまいました。同モデルのプロンプト理解不足を示しています。
なお最新のSDXLモデル(例:tsubaki_mix)では、確率はかなり低いものの、文字が出せることは確認しています。
【プロンプト】
【Positive】cinematic film still, a young Japanese woman like an idol in a black and white maid cosplay with smile is posing In front of a western classical wooden cafe with sign 'Browncat'. shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, film grain, grainy,
【negative】anime, cartoon, graphic, text, painting, crayon, graphite, abstract, glitch, deformed, mutated, ugly, disfigured
まとめ
SD3 Medium:パラメータ数が小さい割にまともに出る。人物の顔や表情に関しては、SDXLベースより上だが一部化粧が濃い傾向。衣装の質感はLargeに及ばない。ポートレートやクローズアップが苦手。
SD3 Large:質感や精細度がMediumやSDXLベースよりよい。
Stable Image Ultra:Largeより引き締まった感じになる。リアリティが非常に高く、表現が安定している。Stability AI社のモデルの最高峰といえる。
SD3系総合:プロンプト理解力がSDXLに対し高い。一方、表現規制がきつい。時々人体が形態学的にあり得ない姿で折れたり曲がったりする(後述)。
SDXLベース:アジア人の表現が苦手。くすんだ色彩になり、質感もSD3 Large、ときにMediumにも及ばない。
生成条件
オープンソース版のあるSD3 Mediumについては、ComfyUIを用いて生成しました。
ComfyUIのワークフローは、SD3 MediumのHugging Faceサイトに掲載の例
「comfy_example_workflows_sd3_medium_example_workflow_basic.json」
を使い、これに少し改変・調整を加えました。
具体的には、ネガティブ・プロンプトにつながっているconditioning関係のノードを無効にし、「KSampler」の各設定値のうち、「sampler_name」を「dpmpp_2m」から「heunpp2」に変更します。
SD3 LargeとStable Image Ultraについては、Stability AI社のAPIを利用し、PythonコードでAPIを読んで画像生成しました。
SDXLベースモデルについては、WebUIを用いて生成しました。
SD3の一般的な推奨設定については、こちらの記事が参考になります。
ネガティブ・プロンプトが要らないことは、検証を終わった後にこの記事を読んで知りました。
SD3の技術とライセンス
SD3の技術とライセンスについては、とーふのかけら さんの次のnote記事が大変参考になります。
特に、ネットワークアーキテクチャが、SDXLまでがU-Netだったのに対し、SD3ではMMDiT(Multimodal Diffusion Transformer)に代わっており、その結果テキストの理解能力が高まったことなどが論文に基づいて簡潔にわかりやすく解説されています。
SD3系で人体が曲がったり折れたりする現象について
本記事執筆前にすでに話題になっていることですが、SD3系では、人体が形態学的にあり得ない姿で折れたり曲がったりする現象が確認されています。
Mediumのオープンリリース後にSNS上で炎上した形ですが、私自身はそれ以前にLargeのAPI版でこの現象を確認していて、以前の記事にも、「割合としては少ないですが、人物の腕から先が破綻することがあります」と評していました。
この現象が起こる理由については、今年(24年)3月にStability AIのCEOを退任したEmad Mostaque(エマド・モスタク)氏がXで次のように説明しています。
(略)
3. 安全対策の一部が最終段階でおかしくなったのは明らかで、これはDALL-EやGoogleのモデルなどで見られたことだ。
4. 特に、草の上に寝そべるのは好ましくない。安全性に関するものは、規制上の義務やその他のために必要だが、科学と芸術の間のようなものだ。Stability AIのモデルもまた、他のどのモデルよりもはるかに多く使用されるため、義務は重くなる - あなたはモデルが悪い意味で使用されても気にしないかもしれないが、私はそれが眠れぬ夜を与えたということができる。
5. DALL-EやImagenなどとは異なり、モデルウェイトが利用可能で、大半のものについては素晴らしいが、問題点を修正し、さらに良くなるように調整することができる。
(略)
Some thoughts on Stable Diffusion 3 medium #SD3
— Emad (@EMostaque) June 14, 2024
1. It’s a good model with a blend of speed & performance
2. It was iteratively trained by Robin’s team & rest of Stability AI team to blend wide use but also be good out of the box
3. It’s clear some of the safety alignment…
要約すれば、SD3系の人体の崩れの原因は「安全対策」にあり、モデルの調整による今後の改善に含みを持たせています。
現状、API版(Ultra, Large)では「安全対策」によって、人体の崩ればかりでなく、画像全体が強くぼかされて出力される事象が多発しています。なかには、白いウエディングドレスを着た女性のようなNSFWとは無関係なはずの表現で、一度もまともに画像が出力されない現象を確認しています。
MidjourneyやDALL-E 3でも表現規制はありますが、ここまでは酷くなく、Stability AI社に対して、本件の改善を求めます。