[StableDiffusionコラム]Denoising strengthについての肌感からAIとの相互理解論まで

このコラムについて

このコラムは筆者がstablediffsionを使っていくうちに感じた肌感を同じ利用者について「ちょっとこんなんだと思うんだけど?」程度にお伝えするコラムである
学術的な研究結果はほぼ含まない、まさに無知なる利用者の肌感なので、その程度のご理解で。
ただ、この感覚は知っておいていただけると、なるほどそうかというふうに思ってもらえるような内容を目指す
また、運用環境はSD WebUI Automatic1111環境での利用を前提とする
他の環境はよくわからない

Denoising strengthとは

img2imgの重要なる設定値で、有志による翻訳では「ノイズ除去強度」となるらしい
txt2imgにはない設定値なので、それしか使用しない利用者は、本記事は読む必要はないものと思われます

ノイズとは?ノイズ除去とは?と言った部分は学術的研究論文におまかせするとして、
筆者のざっくりした肌感で意訳するならば
「下絵の配合割合」とでも言おうか。
下絵としてAIに提供した画像をAiがどれだけ尊重して画像を錬成するかをこちらで指示することが出来る設定値と、筆者は理解しており、今後その前提で話をさせて頂く。

一般的には…と言っても諸説あるけれど、0~1の間の0.45~0.75の間が実用的な設定値と言われ、筆者の肌感も、まあそのくらいが順当と思う。
しかし、他の設定値を同じにしても、呪文の内容などで、この設定値にばらつきが生じるので、運用上、ある程度の呪文を絞り込んだら、XY plotのdenoising設定で、[0.4~0.8]くらいの値で連続生成をかけ、後述する[呪い]の適用範囲を目視しないといけない
しかし筆者はある目的を持って[0.4~1.0]の間で精査することにしている。

設定値のかかり具合に寄る、3つの状態

「下絵の配合割合」といったけれど
筆者の理解ではAIが下絵をどの程度参考にするかをこちらが指示することが出来る。
設定値が低いとAI君は実直に下絵を守ろうとするが、その分下絵の拘束を強く受け、自由に絵を描く事が出来ず、元絵の近似に過ぎない生成物になる。
逆に数値を上げると、その分AIは下絵の参考を参考程度にとどめ、自分のやりたいようにのびのびと描くようになり、ある一定値を超えると下絵をほとんど参考にしなくなる
AIから出力される画像の質は上がるが、元絵からは乖離するため、何処までを良しとするかは、利用者が確認しなければならない。
そしてついにはAI君がやりすぎてしまう設定値が存在する
その設定値空間から育成される画像は、およそ前衛的で下絵とは似ても似つかぬもので、多くの場合 閲覧者に不快感を伴う画像になることが多い。
筆者はそれを【呪われた画像】と勝手に呼んでいる
一般的な呼称でないため、他で利用する場合は注意をされたい。

さて、具体的な話をすると
先程述べた一般的な値[0.45~0.75]が実用値ならそれ以下と、それ以上と言う状況がもちろん存在する
0.45以下は、ほとんど原画下絵に対する誤差
対して変化がないので、生成し目視する価値はほぼ無い
0.75以上は先述の「呪われた設定値空間」である

呪われた画像生成の意義

呪われた画像は、実用上、ほぼ無価値な画像と言っても良いのではないか?
個人的な主観を言うと、グロ画像なので、それらの画像を趣味とする好事家でもない限り、コレクションの意味は無い。
けれど、筆者はそのその呪われた画像の生成をAIではなく、人間の学習のために、おすすめする

なぜかというと、先程も言ったように、何処から呪われて、何処までがAIが実力を発揮してくれる実用値なのかの敷居が曖昧なんだ
筆者の失敗談を述べると、筆者は値0.71の画像で必死に呪文の試行錯誤をしていたことがある。一般的に言う実用範囲内の数字だ。
けれど、これが筆者を大いに悩ませる。
画質は大変良く、仕上がりはかなり満足のだけれど、ちょっと複数の呪文が混在し始めると、女性の絵柄のいわゆるおっぱいが複数個化する
おっぱい六個とかそんな画像になる
呪いの概念をそこに想定してなかった時期で、否定語に複数おっぱいの否定を記載してやり過ごしていたのだけれど、完成に近づくに連れ、どうも腕が長い、肩の筋肉がごつすぎる等の許しがたい不具合を訂正しきれない事態になっていく
その時点で思い出したんだ
興味本位で出力していた呪われた画像が、胴体をいくつも節足動物のように繋いだ画像の種類があるということに。
ほぼ完成形という段取りでよく確認すると、私の作成していた画像は鳩尾から鎖骨にかけて2つか3つ存在する奇形画像だった。
もう一度、Denoisingを下から上に自動生成をかけなければいけないハメになる。

AIと人間の相互理解論

が、逆説的にこれに遅ればせながら気がつけたのは、筆者が興味本位で呪われた画像を見ていたからで、AIの出力する呪われた画像の【傾向を学習】していたからに他ならない
今回の設定値は0.71だ。特に何も意識せず、一般的に[0.45~0.75]と言う設定をしていて、まんまと引っかかるAI利用者は私だけではないはずなんだ

呪われた画像というのはある時急に「ばぁ!」と呪われるものだけれど、その前に、徐々に片鱗がある変化の薄い時期がある
先述の画像の場合、再精査をかけたら、実用と呪いの閾値は0.64と0.65の間だった。ぱっと見の印象は肩がいかり肩になるかならないか程度だけれど、よくみると、大胸筋が二重になっていた。おっぱい4つである。細かい精査をしていないけれど、0.65~0.71の間で、おっぱいが更に6つになっていると思われる
AIと相対するというのは、非AIと比べ特定の設定値では確実にこことここに影響があって、その積み上げてくる結果は揺るがない…とか、そういうものではない
向こうも知能なので、同じ設定値では同じ結果にはなるけれども、では、与える設定値に対して、それをどう理解し、画像に反映するかは、AI君の理解に寄るもので、人間同士のそれのような、誤解と齟齬と認識の違いが大きく現れる

与えられた結果を利用者である人間が理解するためにも、AIとは膝突き合せて、深い対話を繰り返し、人間とAIの相互理解を深め、よりよい関係になっていきたいものだ


【追記】
先述の通り、ある程度の奇形は呪文で対処できる場合がある
もちろん複雑すぎる奇形の場合は、もぐらたたきのようになって、対処に余ることになるけれど、ある程度技術で対処できる場合は、受け入れて、高画質の果実を甘受するという方法もある
利用者の術式展開の、腕の見せ所。
そこもAIとの付き合いの楽しいところでもあるといえよう♨

この記事が気に入ったらサポートをしてみませんか?