SD1.5,SDXL,SD3(Medium),SD3.5(Medium, Large)を雑に比較

2024年6月14日 17:03

6月12日にStable Diffusion 3.0 Medium(2B)が、10月23日に改良版の3.5 Large(MMDiT,8.1B)、30日に3.5 Medium(MMDiT-X,2.5B)が公開された。
進化を見るべく歴代のStable Diffusionと比較してみた。ん？SD2？そんなのあったっけ？
2024-10-30編集: SD3.5を追加。SD1,SDXLは妙に品質が低かったので設定を変更。

1.文字の生成

比較画像は上から順にSD1.5、SDXL Base 1.0、SD3.0 Medium、SD3.5(Medium)、SD3.5(Large,fp8_scaled)。以降も同様。SD3.5 MediumはSkip Layer Guidanceを有効にしている。

Prompt: A young asian woman holding a sign that reads "A1111, please support SD3!", seaside town
(日本語)「A1111、SD3対応お願い！」と書かれた看板を持った若いアジア人女性、海辺の街

悲惨な結果。文字は盛大に間違えた。背景は海辺には見えず意味不明でパースも不自然。画質も相まってホラー画像のようだ。2022年はこれでも驚異的だった。

SDXL Base 1.0,1024x1024,16teps,dpmpp_2m, simple

パースは改善し背景もseasideっぽくなった。だが相変わらず文字は間違えるし背景が破綻する。そしていつもくすんだ色合いで印象が良くない。

SD3.0 Medium,1024x1024,14steps,dpmpp_2m, simple

完璧ではないが文字が書けるようになった。背景も建物の破綻が減り自然になった。色味はより自然になった。人物も理想に近くなった。AIにとって指は無理難題。

SD3.5 Medium,1024x1024,16steps,dpmpp_2m,simple

背景をぼかしがち。指示しないと同じ顔・ヘアスタイルになる。

SD3.5 Large,1024x1024,16steps,dpmpp_2m,simple

より緻密なディティールになった。非常にリアルな質感。代わりに超重いが。
指示しなければ適度にヘアスタイルが変化する。
ほかのDiTモデルも含め、同じ文字が連続すると文字数が減ってしまう傾向がある。

2.位置関係の理解度

Prompt: golden cube on left with wooden dog statue on top, red sphere on right
(日本語)左に金色の立方体、その上に木製の犬の像、右に赤い球

なんやこのゴミは？right/leftを分割する単語として認識したのか？

画像全体の品質が上がったが位置関係は理解できず材質と色も間違っている。

素晴らしい。💯

SD3.5 Large,1024x1024,16sptes,dpmpp_2m,simple

なぜか木彫りの犬が抽象的な外観になりがち。

3.アニメイラスト

danbooruとだけ入力してもイラストが生成されるためDanbooruなどからイラストを学習している可能性があるが、Danbooruタグを知っているとは限らないためタグの列挙ではなく自然言語で。
Prompt: A girl standing in front of a car, toyota prius, pixiv, twitter
(日本語)少女が自動車の前に立っている、トヨタプリウス、pixiv、twitter

プロンプトを完全に無視した。イラストにすらなっていない。

SDXL Base 1.0,832x1216,14steps,dpmpp_2m,simple

イラストらしくなり車もまともな形状になったが全体の品質が低い。

SD3.0 Medium,832x1216,14steps,dpmpp_2m, sgm_uniform

ベースモデルとは思えないほどの高品質なイラストが生成できた。車もどこからどう見てもプリウス。これはSD3のアニメモデルに大いに期待できる。

SD3.5 Medium,832x1216,16steps,dpmpp_2m,simple

背景が不自然にぼやける現象がなくなった。プロンプトが大雑把なためか単調な絵柄。

SD3.5 Large,832x1216,16steps,dpmpp_2m,simple

Mediumとさほど変わらない。

4.旅客機

Prompt:photo of a flying boeing 787, above clouds
(日本語)飛行中のボーイング787の写真、雲の上

まあそんなもん。

SDXL Base 1.0, 1024x1024,14steps,DPM++ 3M SDE, Align Your Steps

787に見えなくはない。

ダメみたいですね…

改善したけどまだダメみたいですね…
ちなみに、Skip Layer GuidanceがないとSD3.0Mと同程度になる。

ダメみたいですね(三敗)…
SD3系は飛行機が苦手？

5.カエル

比較画像は上から順にSD1.5、SDXL Base 1.0、SD3 Medium、SD3.5 Medium。
Prompt: Frog sitting in a 1950s diner wearing a leather jacket and a top hat. on the table is a giant burger and a small sign that says "froggy fridays"
(日本語)革ジャンと帽子を着たカエルが1950年代のダイニングにいる。テーブルの上には巨大なハンバーガーと「froggy fridays」と書かれた小さな看板がある。

カエルとバーガーが融合してしまった。もちろん看板はSD1.5ごときに生成できるはずがない。

SDXL Base 1.0,1216x832,16steps,dmpp2_2m,simple

SD1.5に比べれば幾分良いが背景が不自然でカエルも時々崩壊する。froggyと書こうとしたがダメだった模様。

SD3.0 Medium, 1216x832,14steps,dpmpp_2m, simple

背景もカエルも安定して生成できる。ある程度正確に文字を書ける。

SD3.5 Medium,1216x832,16steps,dpmpp_2m,simple

大きな変化はない。

SD3.5 Large,1216x832,16steps,dpmpp_2m,simple

Mediumとの違いはわからない。

6.自転車に乗る男性

Prompt: Photo of a man riding a bicycle at noon, in city, from side

頑張ったが細部の描写が甘い。from sideを完全に無視する。

SDXL Base 1.0,1024x1024,16steps,dpmpp_2m,simple

線をまっすぐ描けない。from sideを時々無視する。自転車のホイールが破綻。

SD3.0 Medium,1024x1024,16steps,dpmpp_2m,simple

目立った破綻はない。時々from sideを無視する。

足の位置がおかしいことがある。from sideをたまに無視する。

パラメータ数の暴力で殴るLarge(8.1B)が強い。

7.SD3.0 Mediumの苦手な作例1

Prompt: 2 american men are lying on the grass, left one is holding a sign that says "keep away from the grass", right one is holding a sign that says "help me!"
Negative: "old photo, low quality, low resuolution, deformed, distorted, bad anatomy, upside-down"