Stable Diffusionによる手、足、体の崩れ
私の個人的見解なので間違っていたらごめんなさい。
リアル系を作ってる方ならお分かりだと思いますが、Stable Diffusionを使うと手、足、体、顔が崩れている経験あるとおもいます。
リアル系では全身を作る方が少ない?
写真構図とかになると全身構図が少ないから?
顔を綺麗に見せると上半身だけが多くなる?
※指は現在では間違うので、指に関しては検証はしていません。
800px 以上になると崩れやすくなると感じます。
なぜならSDの学習元の画像データサイズがそれほど大きくはないからです。
もちろん高画質も大きな解像度の画像も学習データとしてありますが、数が少ないと感じました。
サイズは 600x920px (大体のサイズなのでテスト
プロンプトはホテルの部屋で座ってる女性の写真からInterrogate CLIPを使って作って、解像度のプロンプトはコピベで貼ってネガティブもいつものコピベ貼っていざテスト!
最後のpantyhose,smiing,は付け足しました。個人的に好きなのでw
prompt
(masterpiece:1.5), 8k,(ultra high res:1.1),(photo realistic:1.5),(beautiful lighting:1.5), (extremely detailed:1.5 unity) a japanese woman sitting in a chair in a hotel room with a bed and a table with a lamp on it, superflat, a character portrait,full body,pantyhose,smiing,
Negative
EasyNegative, bad-image-v2-39000, EasyNegativeV2, bad_prompt_version2, bad-hands-5, verybadimagenegative_v1.3, ng_deepnegative_v1_75t,painting,sketches,(worst quality:2),(low quality:2),(normal quality:2),lowers,normal quality,((monochrome)),((grayscale)),skin spots
可愛い女の子が普通に出ていますね。
3枚目は少し足が崩れているかな。
もちろん数十枚だしたので中には崩れたのがありますが、失敗は2割あるかないかだと思います。
服、髪型を指定をしていないので色々な所はガチャになりますが。
しかし、なぜか笑わっていない!smiing??スペルミスがあった!。
正しくはsmilingだった・・・。
プロンプトのスペルミスは繁栄されないので、間違っても問題ないですね。
日本語のプロンプトも実は使えるのがあるので詳しくはまたの機会に。
誰でも気軽に色々な画像を作れますので、参考になれれば光栄です。
次回は高解像を載せてみたいと思います。