見出し画像

NMKD Stable Diffusion GUIでのStep変更による生成画像の差異検証

はじめに

noteでは初めまして、となります。画像生成AIのStable Diffusionを用いたP(Prompter:プロンプター、AIが画像を生成する元となるプロンプトを入力する人の意)をやっております、島田寒月と申します。一般的にはいわゆるAI絵師に分類されるのかもしれません。

画像生成AIについては様々な方がnoteやTwitterでご意見を述べられておりますので、私がいまさら記事を書いてそこに飛び込んでいこうというのはなかなか勇気がいります。とりあえず今回は最初の記事ですので、本日やってみた実験についてご報告させてください。

今回やってみたのは、Stable Diffusionにおける生成ステップ数が出力される画像にどの程度影響するか、ということについての実験です。
出力画像に最も影響を与えるのは当然ながら絵の内容を指定するプロンプトであり、またどのようなモデルを使用するかということなのですが、その他にもいくつか設定によって変わってくる部分があります。
例えばサンプラー(どのような方式でノイズを処理するか)、シード値、CFGスケール(どの程度プロンプトのみに忠実な絵を出力するか)などですが、これらの設定の中でも今回は特に生成ステップ数に焦点を当ててみました。というのも、私自身がステップ数については「高くすればより細部が描写された画像が出力される」「でもある一定以上のステップ数を超えるとそこまで大きな変化はなくなる」くらいのイメージしか持っていなかったからです。

生成条件

私は普段からStable Diffusionを通常のソフトウェアと同様にGUIで操作できる「NMKD Stable Diffusion GUI」のver.1.6.0を利用させていただいておりますので、今回もこちらで画像を生成しました。使用モデルはWaifu Diffusion v1-3(wd-v1-3-float16)です。CFGスケールは10、サンプラーはEuler Ancestrial、シード値は1333226591で生成しました。使用プロンプトは以下の通りです。

(masterpiece, high resolution, ultra-detailed), illustration, (1girl, solo), school uniform, long hair, black hair, dynamic angle, (beautidul detailed background, standing in school crassroom, sunset light), (hidden hand), (beautiful detailed eyes, perfect oval iris), look at viewer, [lowres, bad anatomy, bad hands, text, error, missing fingers, cropped, worst quality, blurry]

一部typoがありますが、実際これで出力してしまったのでそこはお目こぼしを戴けますと幸いです。イメージとしては夕日の差し込む教室の中にたたずむ制服の女の子を出したかったのですが…

生成条件。このうちGeneration Stepsのみを5刻みで動かしていきます。

それでは以下、実際に生成してみた画像をご覧ください。

ステップ数5~30

ステップ数5。この時点ですでに顔っぽいのが生成されているのはある意味感動ですが、
少なくともイラストとして評価できるような画像ではないですね。
ステップ数10。顔や手の角度が変わりました。
着ているのはセーラー服だったんですね。
ステップ数15。セーラー服の色が陰影のついた白から紺色ベースのものへと変わったようです。
また、リボンの色が黒から赤へ変わり、長袖から半袖になりました。
ばっさばさだった髪も落ち着いた感じになりましたね。
ステップ数20。髪が再び少し暴れだしました。
手が隠れたのはhidden handの影響でしょうか。
ステップ数25。髪、ばっさばさです。
服がふたたび長袖になって、前面にリボンがつきました。
ステップ数30。女の子の体の向きが変わりました。
制服のリボンがタイに変わり、校章っぽいワッペンが胸につきましたね。
また、背景に白い柵のようなものが出現しました。

ステップ数35~60

ステップ数35。ワッペンがほぼ消え、髪飾りっぽいものがつきました。
背景の白い柵もなくなり、高台から街を見下ろしているような風景に。
ステップ数40。体の向きがまたちょっと変わりました。
赤いタイが黒いリボンになり、胸にワッペン様のものが出現。
服前面のボタンが二列になりました。
ステップ数45。ワッペンなどはほぼそのままですが、ボタンが再度一列に。個数は二個。
スカートのプリーツも細くなりました。
ステップ数50。ワッペンが消え、リボンが赤に変わりました。
あと、背景が生垣っぽいものに覆われて遠景が見えなくなりましたね。
ステップ数55。セーラー服のフロント布にマークが入りました。
ボタンも2個から3個に増えましたね。
ステップ数60。フロント布のマークが消え、白線になりました。
ボタンも二列になりましたが、個数があっていません。
片腕が白地に紺の袖になっていますし、破綻の大きい画像です。

ステップ数65~90

ステップ数65。体が横向きになり、腕を前で組むようになりました。
リボンは再びタイになったようです。ボタンは一列かな?
ステップ数70。ボタンが消えました。
袖が白地に紺ラインと認識されてしまっているようです。
ステップ数75。セーラー服の紺→白化がさらに進んでいます。
遠景にも何か建物のようなものが見えます。
ただ、全体的にあまり大きな変化は見られなくなってきました。
ステップ数80。胸のところに光の反射のような点が見えますが、
これがないと正直ステップ数75の絵との違いが分かりづらいです。
ステップ数85。後襟がよく見えるようなポーズになりました。
腕は組んでいないようですが、それでもポーズの違いは微妙ですね。
ステップ数90。顔つきというか、目の輪郭が変わった気がします。
背景に再び柵のようなものが登場。

ステップ数95~120

ステップ数95。ドーム状の屋根がついた建物が背景に登場しました。
あと、これまで閉じていた口が開きましたね。
ステップ数100。建物は消え、柵が出現しました。
胸の部分に光の反射が見えますね。
しかしこのポーズ、なんかキュビスムっぽい感じが…
ステップ数105。ここへきてまさかの半袖化です。
なんならすこしお腹の部分も肌色に見えます。
ステップ数110。再び口が閉じました。
あと後襟がなんだか不思議なことになっています。
ステップ数115。腕がめちゃくちゃ先細りになってます。
ステップ数5とか10の時とは別ですが、破綻しているという点では一緒ですね。
ステップ数120、今回の実験では最大のステップ数です。
襟布の不思議さはやや解消されましたが、腕の細さや襟布下に見える謎の領域など、
やはりイラストとしては破綻していると評価せざるを得ないでしょう。

おわりに

ほかの設定をすべて一緒にしていても、ステップ数を変更すると画質以外の部分でも結構細かな部分がいろいろと変わるということが確認できました。
高すぎても低すぎてもイラストとしては評価しづらいものが生成されるかな、という感じですね。個人的にはステップ数は65~90ぐらいでとどめておくのがベストなのかな、と感じました。この辺りはモデルや使用しているUIなどでも変化してくる可能性がありますので、あくまでも今回の実験を受けての個人的な見解、という感じになりますが…。

今後もこのような感じで、自分なりに気になったこと、試してみたいことなどをnoteでまとめていけたらな、と思っております。

いいなと思ったら応援しよう!