NMKD Stable Diffusion GUIでのStep変更による生成画像の差異検証

2022年10月31日 19:41

はじめに

noteでは初めまして、となります。画像生成AIのStable Diffusionを用いたP（Prompter：プロンプター、AIが画像を生成する元となるプロンプトを入力する人の意）をやっております、島田寒月と申します。一般的にはいわゆるAI絵師に分類されるのかもしれません。

画像生成AIについては様々な方がnoteやTwitterでご意見を述べられておりますので、私がいまさら記事を書いてそこに飛び込んでいこうというのはなかなか勇気がいります。とりあえず今回は最初の記事ですので、本日やってみた実験についてご報告させてください。

今回やってみたのは、Stable Diffusionにおける生成ステップ数が出力される画像にどの程度影響するか、ということについての実験です。
出力画像に最も影響を与えるのは当然ながら絵の内容を指定するプロンプトであり、またどのようなモデルを使用するかということなのですが、その他にもいくつか設定によって変わってくる部分があります。
例えばサンプラー（どのような方式でノイズを処理するか）、シード値、CFGスケール（どの程度プロンプトのみに忠実な絵を出力するか）などですが、これらの設定の中でも今回は特に生成ステップ数に焦点を当ててみました。というのも、私自身がステップ数については「高くすればより細部が描写された画像が出力される」「でもある一定以上のステップ数を超えるとそこまで大きな変化はなくなる」くらいのイメージしか持っていなかったからです。

生成条件

私は普段からStable Diffusionを通常のソフトウェアと同様にGUIで操作できる「NMKD Stable Diffusion GUI」のver.1.6.0を利用させていただいておりますので、今回もこちらで画像を生成しました。使用モデルはWaifu Diffusion v1-3（wd-v1-3-float16）です。CFGスケールは10、サンプラーはEuler Ancestrial、シード値は1333226591で生成しました。使用プロンプトは以下の通りです。

(masterpiece, high resolution, ultra-detailed), illustration, (1girl, solo), school uniform, long hair, black hair, dynamic angle, (beautidul detailed background, standing in school crassroom, sunset light), (hidden hand), (beautiful detailed eyes, perfect oval iris), look at viewer, [lowres, bad anatomy, bad hands, text, error, missing fingers, cropped, worst quality, blurry]

一部typoがありますが、実際これで出力してしまったのでそこはお目こぼしを戴けますと幸いです。イメージとしては夕日の差し込む教室の中にたたずむ制服の女の子を出したかったのですが…

生成条件。このうちGeneration Stepsのみを５刻みで動かしていきます。

それでは以下、実際に生成してみた画像をご覧ください。

ステップ数５～３０

ステップ数５。この時点ですでに顔っぽいのが生成されているのはある意味感動ですが、
少なくともイラストとして評価できるような画像ではないですね。

ステップ数１０。顔や手の角度が変わりました。
着ているのはセーラー服だったんですね。

ステップ数１５。セーラー服の色が陰影のついた白から紺色ベースのものへと変わったようです。
また、リボンの色が黒から赤へ変わり、長袖から半袖になりました。
ばっさばさだった髪も落ち着いた感じになりましたね。

ステップ数２０。髪が再び少し暴れだしました。
手が隠れたのはhidden handの影響でしょうか。

ステップ数２５。髪、ばっさばさです。
服がふたたび長袖になって、前面にリボンがつきました。

ステップ数３０。女の子の体の向きが変わりました。
制服のリボンがタイに変わり、校章っぽいワッペンが胸につきましたね。
また、背景に白い柵のようなものが出現しました。

ステップ数３５～６０

ステップ数３５。ワッペンがほぼ消え、髪飾りっぽいものがつきました。
背景の白い柵もなくなり、高台から街を見下ろしているような風景に。

ステップ数４０。体の向きがまたちょっと変わりました。
赤いタイが黒いリボンになり、胸にワッペン様のものが出現。
服前面のボタンが二列になりました。

ステップ数４５。ワッペンなどはほぼそのままですが、ボタンが再度一列に。個数は二個。
スカートのプリーツも細くなりました。

ステップ数５０。ワッペンが消え、リボンが赤に変わりました。
あと、背景が生垣っぽいものに覆われて遠景が見えなくなりましたね。

ステップ数５５。セーラー服のフロント布にマークが入りました。
ボタンも２個から３個に増えましたね。

ステップ数６０。フロント布のマークが消え、白線になりました。
ボタンも二列になりましたが、個数があっていません。
片腕が白地に紺の袖になっていますし、破綻の大きい画像です。

ステップ数６５～９０

ステップ数６５。体が横向きになり、腕を前で組むようになりました。
リボンは再びタイになったようです。ボタンは一列かな？

ステップ数７０。ボタンが消えました。
袖が白地に紺ラインと認識されてしまっているようです。

ステップ数７５。セーラー服の紺→白化がさらに進んでいます。
遠景にも何か建物のようなものが見えます。
ただ、全体的にあまり大きな変化は見られなくなってきました。

ステップ数８０。胸のところに光の反射のような点が見えますが、
これがないと正直ステップ数７５の絵との違いが分かりづらいです。

ステップ数８５。後襟がよく見えるようなポーズになりました。
腕は組んでいないようですが、それでもポーズの違いは微妙ですね。

ステップ数９０。顔つきというか、目の輪郭が変わった気がします。
背景に再び柵のようなものが登場。

ステップ数９５～１２０

ステップ数９５。ドーム状の屋根がついた建物が背景に登場しました。
あと、これまで閉じていた口が開きましたね。

ステップ数１００。建物は消え、柵が出現しました。
胸の部分に光の反射が見えますね。
しかしこのポーズ、なんかキュビスムっぽい感じが…

ステップ数１０５。ここへきてまさかの半袖化です。
なんならすこしお腹の部分も肌色に見えます。

ステップ数１１０。再び口が閉じました。
あと後襟がなんだか不思議なことになっています。

ステップ数１１５。腕がめちゃくちゃ先細りになってます。
ステップ数５とか１０の時とは別ですが、破綻しているという点では一緒ですね。

ステップ数１２０、今回の実験では最大のステップ数です。
襟布の不思議さはやや解消されましたが、腕の細さや襟布下に見える謎の領域など、
やはりイラストとしては破綻していると評価せざるを得ないでしょう。

おわりに

ほかの設定をすべて一緒にしていても、ステップ数を変更すると画質以外の部分でも結構細かな部分がいろいろと変わるということが確認できました。
高すぎても低すぎてもイラストとしては評価しづらいものが生成されるかな、という感じですね。個人的にはステップ数は６５～９０ぐらいでとどめておくのがベストなのかな、と感じました。この辺りはモデルや使用しているUIなどでも変化してくる可能性がありますので、あくまでも今回の実験を受けての個人的な見解、という感じになりますが…。

今後もこのような感じで、自分なりに気になったこと、試してみたいことなどをnoteでまとめていけたらな、と思っております。