SD1.5,SDXL,SD3(Medium),SD3.5(Medium, Large)を雑に比較
6月12日にStable Diffusion 3.0 Medium(2B)が、10月23日に改良版の3.5 Large(MMDiT,8.1B)、30日に3.5 Medium(MMDiT-X,2.5B)が公開された。
進化を見るべく歴代のStable Diffusionと比較してみた。ん?SD2?そんなのあったっけ?
2024-10-30編集: SD3.5を追加。SD1,SDXLは妙に品質が低かったので設定を変更。
1.文字の生成
比較画像は上から順にSD1.5、SDXL Base 1.0、SD3.0 Medium、SD3.5(Medium)、SD3.5(Large,fp8_scaled)。以降も同様。SD3.5 MediumはSkip Layer Guidanceを有効にしている。
Prompt: A young asian woman holding a sign that reads "A1111, please support SD3!", seaside town
(日本語)「A1111、SD3対応お願い!」と書かれた看板を持った若いアジア人女性、海辺の街
悲惨な結果。文字は盛大に間違えた。背景は海辺には見えず意味不明でパースも不自然。画質も相まってホラー画像のようだ。2022年はこれでも驚異的だった。
パースは改善し背景もseasideっぽくなった。だが相変わらず文字は間違えるし背景が破綻する。そしていつもくすんだ色合いで印象が良くない。
完璧ではないが文字が書けるようになった。背景も建物の破綻が減り自然になった。色味はより自然になった。人物も理想に近くなった。AIにとって指は無理難題。
背景をぼかしがち。指示しないと同じ顔・ヘアスタイルになる。
より緻密なディティールになった。非常にリアルな質感。代わりに超重いが。
指示しなければ適度にヘアスタイルが変化する。
ほかのDiTモデルも含め、同じ文字が連続すると文字数が減ってしまう傾向がある。
2.位置関係の理解度
Prompt: golden cube on left with wooden dog statue on top, red sphere on right
(日本語)左に金色の立方体、その上に木製の犬の像、右に赤い球
なんやこのゴミは?right/leftを分割する単語として認識したのか?
画像全体の品質が上がったが位置関係は理解できず材質と色も間違っている。
素晴らしい。💯
素晴らしい。💯
なぜか木彫りの犬が抽象的な外観になりがち。
3.アニメイラスト
danbooruとだけ入力してもイラストが生成されるためDanbooruなどからイラストを学習している可能性があるが、Danbooruタグを知っているとは限らないためタグの列挙ではなく自然言語で。
Prompt: A girl standing in front of a car, toyota prius, pixiv, twitter
(日本語)少女が自動車の前に立っている、トヨタ プリウス、pixiv、twitter
プロンプトを完全に無視した。イラストにすらなっていない。
イラストらしくなり車もまともな形状になったが全体の品質が低い。
ベースモデルとは思えないほどの高品質なイラストが生成できた。車もどこからどう見てもプリウス。これはSD3のアニメモデルに大いに期待できる。
背景が不自然にぼやける現象がなくなった。プロンプトが大雑把なためか単調な絵柄。
Mediumとさほど変わらない。
4.旅客機
Prompt:photo of a flying boeing 787, above clouds
(日本語)飛行中のボーイング787の写真、雲の上
まあそんなもん。
787に見えなくはない。
ダメみたいですね…
改善したけどまだダメみたいですね…
ちなみに、Skip Layer GuidanceがないとSD3.0Mと同程度になる。
ダメみたいですね(三敗)…
SD3系は飛行機が苦手?
5.カエル
比較画像は上から順にSD1.5、SDXL Base 1.0、SD3 Medium、SD3.5 Medium。
Prompt: Frog sitting in a 1950s diner wearing a leather jacket and a top hat. on the table is a giant burger and a small sign that says "froggy fridays"
(日本語)革ジャンと帽子を着たカエルが1950年代のダイニングにいる。テーブルの上には巨大なハンバーガーと「froggy fridays」と書かれた小さな看板がある。
カエルとバーガーが融合してしまった。もちろん看板はSD1.5ごときに生成できるはずがない。
SD1.5に比べれば幾分良いが背景が不自然でカエルも時々崩壊する。froggyと書こうとしたがダメだった模様。
背景もカエルも安定して生成できる。ある程度正確に文字を書ける。
大きな変化はない。
Mediumとの違いはわからない。
6.自転車に乗る男性
Prompt: Photo of a man riding a bicycle at noon, in city, from side
頑張ったが細部の描写が甘い。from sideを完全に無視する。
線をまっすぐ描けない。from sideを時々無視する。自転車のホイールが破綻。
目立った破綻はない。時々from sideを無視する。
足の位置がおかしいことがある。from sideをたまに無視する。
パラメータ数の暴力で殴るLarge(8.1B)が強い。
7.SD3.0 Mediumの苦手な作例1
Prompt: 2 american men are lying on the grass, left one is holding a sign that says "keep away from the grass", right one is holding a sign that says "help me!"
Negative: "old photo, low quality, low resuolution, deformed, distorted, bad anatomy, upside-down"
やたらと分割したがる。
SD3.0よりマシかも?
100%の確率で破綻する。寝そべるプロンプトはSD1.5並みにひどい。
追記:どうやら安全確保のための最終調整でこうなったらしい。つまり少しでもえっちなやつは排除したらこうなった。
改善したが、25%程度は崩壊する。
3.5Mほどではないが、15%程度は崩壊する。
8.SD3 Mediumの苦手な作例2
Prompt: an anime girl holding a sword, straight-on, 2022s, outdoors, night, amazing background
目が怖い😨
amazingな背景を出そうとするがクオリティが終わってる。
手の周りが怪しい。amazingに対する反応が悪い。
大きく品質が向上したが、武器が浮いたり分裂したりするのは変わらず。背景がマスピっぽくて不自然にぼやける。amazingを無視して普通の背景になる。
明らかにおかしい持ち方が減った。amazingを無視して普通の背景になった。
指示通りamazingな背景を出してくる。剣を正しく持てるようにはならなかった。
比較して分かったSD1,SDXL,SD3(M),SD3.5(M,L)の違い
SD1
超軽量で最低品質
文字と構造の破綻は当たり前
512x512(1:1)以外は厳しい
SDXL
基本解像度が上がった
破綻が減少
文字はわずかに書ける程度
比較的軽量
くすんだ色合いになりがち
直線の描画が苦手で歪みやすい
SD3.0 Medium
ディティールが改善。質感は実写レベル
背景の品質が素晴らしい。背景の歪み、崩壊や不自然さが激減
文字を書ける
(bad anatomy:2)
指は…やっぱりダメだった
不明瞭なライセンスかつ期待外れだったせいで流行らず終わった
SD3.5 Medium
芝生に寝そべられる(方向指定必須)。
表現規制が緩和
Largeに対して明確に劣る(特に質感と背景、だが大きく劣るわけではない)
Largeに劣る代わりに数倍速く、SDXLと同等のメモリ使用量
指の打率改善
ライセンスは良好
複数解像度に対応
SD3.5 Large
芝生に寝そべられる(方向指定必須)
表現規制の緩和
多様性が増したのか構図や画風の変化が大きい(仕様)
Stable Diffusion史上最高の品質と負荷(快適に動かすにはRTX 4080相当が必要)
ライセンスは良好
総評
SD3系はプロンプトの忠実度とディティールが大きく改善。全体の品質も明確にSDXLより良く、順当な進化といえる。今後登場するであろうFinetuningされたモデルにも期待が高まる。