NMKD Stable Diffusion GUIでのStep変更による生成画像の差異検証
はじめに
noteでは初めまして、となります。画像生成AIのStable Diffusionを用いたP(Prompter:プロンプター、AIが画像を生成する元となるプロンプトを入力する人の意)をやっております、島田寒月と申します。一般的にはいわゆるAI絵師に分類されるのかもしれません。
画像生成AIについては様々な方がnoteやTwitterでご意見を述べられておりますので、私がいまさら記事を書いてそこに飛び込んでいこうというのはなかなか勇気がいります。とりあえず今回は最初の記事ですので、本日やってみた実験についてご報告させてください。
今回やってみたのは、Stable Diffusionにおける生成ステップ数が出力される画像にどの程度影響するか、ということについての実験です。
出力画像に最も影響を与えるのは当然ながら絵の内容を指定するプロンプトであり、またどのようなモデルを使用するかということなのですが、その他にもいくつか設定によって変わってくる部分があります。
例えばサンプラー(どのような方式でノイズを処理するか)、シード値、CFGスケール(どの程度プロンプトのみに忠実な絵を出力するか)などですが、これらの設定の中でも今回は特に生成ステップ数に焦点を当ててみました。というのも、私自身がステップ数については「高くすればより細部が描写された画像が出力される」「でもある一定以上のステップ数を超えるとそこまで大きな変化はなくなる」くらいのイメージしか持っていなかったからです。
生成条件
私は普段からStable Diffusionを通常のソフトウェアと同様にGUIで操作できる「NMKD Stable Diffusion GUI」のver.1.6.0を利用させていただいておりますので、今回もこちらで画像を生成しました。使用モデルはWaifu Diffusion v1-3(wd-v1-3-float16)です。CFGスケールは10、サンプラーはEuler Ancestrial、シード値は1333226591で生成しました。使用プロンプトは以下の通りです。
(masterpiece, high resolution, ultra-detailed), illustration, (1girl, solo), school uniform, long hair, black hair, dynamic angle, (beautidul detailed background, standing in school crassroom, sunset light), (hidden hand), (beautiful detailed eyes, perfect oval iris), look at viewer, [lowres, bad anatomy, bad hands, text, error, missing fingers, cropped, worst quality, blurry]
一部typoがありますが、実際これで出力してしまったのでそこはお目こぼしを戴けますと幸いです。イメージとしては夕日の差し込む教室の中にたたずむ制服の女の子を出したかったのですが…
それでは以下、実際に生成してみた画像をご覧ください。
ステップ数5~30
ステップ数35~60
ステップ数65~90
ステップ数95~120
おわりに
ほかの設定をすべて一緒にしていても、ステップ数を変更すると画質以外の部分でも結構細かな部分がいろいろと変わるということが確認できました。
高すぎても低すぎてもイラストとしては評価しづらいものが生成されるかな、という感じですね。個人的にはステップ数は65~90ぐらいでとどめておくのがベストなのかな、と感じました。この辺りはモデルや使用しているUIなどでも変化してくる可能性がありますので、あくまでも今回の実験を受けての個人的な見解、という感じになりますが…。
今後もこのような感じで、自分なりに気になったこと、試してみたいことなどをnoteでまとめていけたらな、と思っております。