見出し画像

SD1.5,SDXL,SD3(Medium),SD3.5(Medium, Large)を雑に比較

6月12日にStable Diffusion 3.0 Medium(2B)が、10月23日に改良版の3.5 Large(MMDiT,8.1B)、30日に3.5 Medium(MMDiT-X,2.5B)が公開された。
進化を見るべく歴代のStable Diffusionと比較してみた。ん?SD2?そんなのあったっけ?
2024-10-30編集: SD3.5を追加。SD1,SDXLは妙に品質が低かったので設定を変更。


1.文字の生成

比較画像は上から順にSD1.5、SDXL Base 1.0、SD3.0 Medium、SD3.5(Medium)、SD3.5(Large,fp8_scaled)。以降も同様。SD3.5 MediumはSkip Layer Guidanceを有効にしている。

Prompt: A young asian woman holding a sign that reads "A1111, please support SD3!", seaside town
(日本語)「A1111、SD3対応お願い!」と書かれた看板を持った若いアジア人女性、海辺の街

SD1.5,512x512,18steps,dpmpp_2m,simple

悲惨な結果。文字は盛大に間違えた。背景は海辺には見えず意味不明でパースも不自然。画質も相まってホラー画像のようだ。2022年はこれでも驚異的だった。

SDXL Base 1.0,1024x1024,16teps,dpmpp_2m, simple

パースは改善し背景もseasideっぽくなった。だが相変わらず文字は間違えるし背景が破綻する。そしていつもくすんだ色合いで印象が良くない。

SD3.0 Medium,1024x1024,14steps,dpmpp_2m, simple

完璧ではないが文字が書けるようになった。背景も建物の破綻が減り自然になった。色味はより自然になった。人物も理想に近くなった。AIにとって指は無理難題。

SD3.5 Medium,1024x1024,16steps,dpmpp_2m,simple

背景をぼかしがち。指示しないと同じ顔・ヘアスタイルになる。

SD3.5 Large,1024x1024,16steps,dpmpp_2m,simple

より緻密なディティールになった。非常にリアルな質感。代わりに超重いが。
指示しなければ適度にヘアスタイルが変化する。
ほかのDiTモデルも含め、同じ文字が連続すると文字数が減ってしまう傾向がある。

2.位置関係の理解度

Prompt: golden cube on left with wooden dog statue on top, red sphere on right
(日本語)左に金色の立方体、その上に木製の犬の像、右に赤い球

SD1.5,512x512,18steps,dpmpp_2m,simple

なんやこのゴミは?right/leftを分割する単語として認識したのか?

SDXL Base 1.0,1024x1024,16teps,dpmpp_2m, simple

画像全体の品質が上がったが位置関係は理解できず材質と色も間違っている。

SD3.0 Medium,1024x1024,14steps,dpmpp_2m, simple

素晴らしい。💯

SD3.5 Medium,1024x1024,16steps,dpmpp_2m,simple

素晴らしい。💯

SD3.5 Large,1024x1024,16sptes,dpmpp_2m,simple

なぜか木彫りの犬が抽象的な外観になりがち。

3.アニメイラスト

danbooruとだけ入力してもイラストが生成されるためDanbooruなどからイラストを学習している可能性があるが、Danbooruタグを知っているとは限らないためタグの列挙ではなく自然言語で。
Prompt: A girl standing in front of a car, toyota prius, pixiv, twitter
(日本語)少女が自動車の前に立っている、トヨタ プリウス、pixiv、twitter

SD1.5,448x640,18steps,dpmpp_2m,simple

プロンプトを完全に無視した。イラストにすらなっていない。

SDXL Base 1.0,832x1216,14steps,dpmpp_2m,simple

イラストらしくなり車もまともな形状になったが全体の品質が低い。

SD3.0 Medium,832x1216,14steps,dpmpp_2m, sgm_uniform

ベースモデルとは思えないほどの高品質なイラストが生成できた。車もどこからどう見てもプリウス。これはSD3のアニメモデルに大いに期待できる。

SD3.5 Medium,832x1216,16steps,dpmpp_2m,simple

背景が不自然にぼやける現象がなくなった。プロンプトが大雑把なためか単調な絵柄。

SD3.5 Large,832x1216,16steps,dpmpp_2m,simple

Mediumとさほど変わらない。

4.旅客機

Prompt:photo of a flying boeing 787, above clouds
(日本語)飛行中のボーイング787の写真、雲の上

SD1.5,512x512,18steps,dpmpp_2m,simple

まあそんなもん。

SDXL Base 1.0, 1024x1024,14steps,DPM++ 3M SDE, Align Your Steps

787に見えなくはない。

SD3.0 Medium,1024x1024,14steps,dpmpp_2m, simple

ダメみたいですね…

SD3.5 Medium,1024x1024,16steps,dpmpp_2m,simple

改善したけどまだダメみたいですね…
ちなみに、Skip Layer GuidanceがないとSD3.0Mと同程度になる。

SD3.5 Large,1024x1024,16steps,dpmpp_2m,simple

ダメみたいですね(三敗)…
SD3系は飛行機が苦手?

5.カエル

比較画像は上から順にSD1.5、SDXL Base 1.0、SD3 Medium、SD3.5 Medium。
Prompt: Frog sitting in a 1950s diner wearing a leather jacket and a top hat. on the table is a giant burger and a small sign that says "froggy fridays"
(日本語)革ジャンと帽子を着たカエルが1950年代のダイニングにいる。テーブルの上には巨大なハンバーガーと「froggy fridays」と書かれた小さな看板がある。

SD1.5,576x448,18steps,dpmpp_2m,simple

カエルとバーガーが融合してしまった。もちろん看板はSD1.5ごときに生成できるはずがない。

SDXL Base 1.0,1216x832,16steps,dmpp2_2m,simple

SD1.5に比べれば幾分良いが背景が不自然でカエルも時々崩壊する。froggyと書こうとしたがダメだった模様。

SD3.0 Medium, 1216x832,14steps,dpmpp_2m, simple

背景もカエルも安定して生成できる。ある程度正確に文字を書ける。

SD3.5 Medium,1216x832,16steps,dpmpp_2m,simple

大きな変化はない。

SD3.5 Large,1216x832,16steps,dpmpp_2m,simple

Mediumとの違いはわからない。

6.自転車に乗る男性

Prompt: Photo of a man riding a bicycle at noon, in city, from side

SD1.5,512x512,16steps,dpmpp_2m,simple

頑張ったが細部の描写が甘い。from sideを完全に無視する。

SDXL Base 1.0,1024x1024,16steps,dpmpp_2m,simple

線をまっすぐ描けない。from sideを時々無視する。自転車のホイールが破綻。

SD3.0 Medium,1024x1024,16steps,dpmpp_2m,simple

目立った破綻はない。時々from sideを無視する。

SD3.5 Medium,1024x1024,16steps,dpmpp_2m,simple

足の位置がおかしいことがある。from sideをたまに無視する。

SD3.5 Large,1024x1024,16steps,dpmpp_2m,simple

パラメータ数の暴力で殴るLarge(8.1B)が強い。

7.SD3.0 Mediumの苦手な作例1

Prompt: 2 american men are lying on the grass, left one is holding a sign that says "keep away from the grass", right one is holding a sign that says "help me!"
Negative: "old photo, low quality, low resuolution, deformed, distorted, bad anatomy, upside-down"

SD1.5,512x512,18steps,dpmpp_2m,simple

やたらと分割したがる。

SDXL Base 1.0, 1024x1024, 16steps, dpmpp_2m, simple

SD3.0よりマシかも?

SD3.0 Medium, 1024x1024, 16steps, dpmpp_2m, simple

100%の確率で破綻する。寝そべるプロンプトはSD1.5並みにひどい。
追記:どうやら安全確保のための最終調整でこうなったらしい。つまり少しでもえっちなやつは排除したらこうなった。

SD3.5 Medium,1024x1024,14steps,dpmpp_2m,simple

改善したが、25%程度は崩壊する。

SD3.5 Large,1024x1024,14steps,dpmpp_2m,simple

3.5Mほどではないが、15%程度は崩壊する。

8.SD3 Mediumの苦手な作例2

Prompt: an anime girl holding a sword, straight-on, 2022s, outdoors, night, amazing background

SD1.5,448x640,18steps,dpmpp_2m,simple

目が怖い😨
amazingな背景を出そうとするがクオリティが終わってる。

SDXL Base 1.0, 1024x1024, 16steps, dpmpp_2m, simple

手の周りが怪しい。amazingに対する反応が悪い。

SD3.0 Medium,832x1216,16steps,dpmpp_2m,simple

大きく品質が向上したが、武器が浮いたり分裂したりするのは変わらず。背景がマスピっぽくて不自然にぼやける。amazingを無視して普通の背景になる。

SD3.5 Medium,832x1216,16steps,dpmpp_2m,simple

明らかにおかしい持ち方が減った。amazingを無視して普通の背景になった。

SD3.5 Large,1024x1024,14steps,dpmpp_2m,simple

指示通りamazingな背景を出してくる。剣を正しく持てるようにはならなかった。

比較して分かったSD1,SDXL,SD3(M),SD3.5(M,L)の違い

SD1

超軽量で最低品質
文字と構造の破綻は当たり前
512x512(1:1)以外は厳しい

SDXL

基本解像度が上がった
破綻が減少
文字はわずかに書ける程度
比較的軽量
くすんだ色合いになりがち
直線の描画が苦手で歪みやすい

SD3.0 Medium

ディティールが改善。質感は実写レベル
背景の品質が素晴らしい。背景の歪み、崩壊や不自然さが激減
文字を書ける
(bad anatomy:2)
指は…やっぱりダメだった
不明瞭なライセンスかつ期待外れだったせいで流行らず終わった

SD3.5 Medium

芝生に寝そべられる(方向指定必須)。
表現規制が緩和
Largeに対して明確に劣る(特に質感と背景、だが大きく劣るわけではない)
Largeに劣る代わりに数倍速く、SDXLと同等のメモリ使用量
指の打率改善
ライセンスは良好
複数解像度に対応

SD3.5 Large

芝生に寝そべられる(方向指定必須)
表現規制の緩和
多様性が増したのか構図や画風の変化が大きい(仕様)
Stable Diffusion史上最高の品質と負荷(快適に動かすにはRTX 4080相当が必要)
ライセンスは良好

総評

SD3系はプロンプトの忠実度とディティールが大きく改善。全体の品質も明確にSDXLより良く、順当な進化といえる。今後登場するであろうFinetuningされたモデルにも期待が高まる。


いいなと思ったら応援しよう!