「waifu diffusion」の、danbooruタグは分割され、アングルが変わるなど、効き方がややこしい件
「waifu diffusion」が、danbooruの画像とタグを学習データとしているのは、データセットなどからわかるが、実際に入力してみると違っており、かなり混乱する。
例えば「full_body」というタグは、danbooru上では全身を描いた絵につけてあるわけだが、「waifu diffusion」に入力すると効かない。
いくつか試したところ下記のような現象が起こっており、使用する側が効くだろうと思っていることと異なる動作をしており混乱する。
「full_body」のようなアンダースコアで繋がった単語は、「waifu diffusion」上では分割される。
「full_body」と入力すると全身が描かえるコマンドと人の目から見えるが、「waifu diffusion」はそのように認識しない。
構図・アングルの制御に「full_body」は使えない。顔が描画されず、「eye」といった単語を入力すると、アングルが記載した内容に引きずられる。「eye」だと目と目の周囲だけ拡大される。
記載した単語にピントが引きずられる。「eye」と書くと目はピントがあっているが、口などは書いてない周囲はボケている。
danbooruに「1girl」というタグが一番多く、Twitterなど、他の人のpromptを見ると「1girl」がアニメ風の絵を描くコマンドと認識されているが、実際に使ってみると、下のような画像が出力される。
「イラストで1人の女性の上半身」といったことは認識されているようだ。
ただ「waifu diffusion」を使うようなアニメ調の描写とは異なっているものが多い。
それでは、「1girl, danbooru」と入力すると、上の画像のようになり、アニメ調の画像が多く、また肌面積が多い画像が表示される。
他に、ピンク髪、顔のアップが多い、カメラ目線、巨乳、目の描き方が似ているといった傾向がある。
「1girl, upper_body」とすると、上半身は認識されているようだが、全裸ばかりが描写される。
「upper_body」が示すのが上半身という単一の意味ではなく、「上半身」「裸」「胸を画面中央に置く構図」「巨乳」と複数を同時に変化しており、promptを書いていると、この辺りが混乱の元になる。
「1girl, full_body」とすると、全身が多くなる傾向はある。
頭の上から足先まで描写しているかというとそういうとそうではない。
これはbodyに裸という傾向があるのではないかということで、
「1girl, body」を入力すると、「1girl, upper_body」と似た「上半身」「裸」「胸を画面中央に置く構図」傾向の画像となった。
1girlを除き、「body」という単語だけで出すと、「裸」「巨乳」が既に含まれていることがわかる。
背景が実写っぽいのが混ざり、「1girl, body」ではアニメ調が多い傾向があったのと、「1girl」が全く効かないというわけではなさそうだ。
アニメ調のイラストでは、広がったスカートが描かれることが多く、「bubble_skirt」というタグを入れたくなる。
「1girl, bubble_skirt」で描いてみると実写を元にしたイラストっぽいものが多くなる。
また、シャボン玉が描かれることなどから、アンダースコアを分割されてしまっていることがわかる。
danbooruのタグで学習しているのであれば、danbooruにある「bubble_skirt」が描かれても良いはずだが描かれない。
danbooru上位にあるウマ娘が描けるのかも試してみた。
新しすぎるからなのか描けてなさそうだ。
カメラアングルを確認してみる。
「1girl, danbooru, High angle」だと、上からの描画が多くなっているようだ。ローアングルの画像もあり、必ず全部がハイアングルになるわけではなさそうである。
気になったのは、「1girl, danbooru」だけだとピンク髪だったり目の描き方に傾向があったのが、「High angle」を追加したことでキャラクターのスタイルが変わっているように見える。
「1girl, danbooru, High angle」で”ほぼ”意図通りのカメラアングルになったが、念のため「1girl, danbooru, angle」で他の意味合いがないか見てみる。
天使要素が入ってきて誤字をそのまま学習しているようだ。
「1girl, danbooru, High」の方はどうかというと、上記のようになる。
流石にカメラアングルは変わっていない。
「1girl, danbooru」だけの時より、肌面積が減っているような気もするが、有意差があるかまでは確認していない。
「1girl, danbooru, High angle view」と「view」を追加してみると、実写写真を元にした描写が見られた。
「1girl, danbooru, High angle shot」と「shot」を追加すると、写真よりにすると背景に実写が入ったり、顔の形状が崩れやすくなるようだ。
「1girl, danbooru, high position」としてみたが、ハイポジションではない。
ハイアングルが出来たならローアングルも出来るのではと、思うが、
「1girl, danbooru, low angle」は、どうも効かない。
danbooruに「from_below 」というタグがあり、ローアングルっぽいものについているタグだ。
「1girl, danbooru, from_below 」としたが、上手く効いてない。
angleがついてないから駄目なのか?と思い、
「1girl, danbooru, from_below angle」としてみたが、体の構造が崩れたものが出てきた。こちらもだめのようだ。
ハイポジションは効かないだけだったが、ローポジションは効かないだけでなくエロになる。
「1girl, danbooru, looking_down」とdanbooruのタグをつけてみる。
上から見下ろすような画像が出てきて欲しいが効いてない。
「cowboy_shot」という頭部から太ももまでを描画した構図を示すdanboorのタグがある。
「1girl, danbooru, cowboy_shot」は構図としては効いてるようだがカウボーイ要素が入り服装が変わるようだ。
「1girl, danbooru, cowboy shot」とスペースでわけると、一応構図は理解してくれているようだが、よりカウボーイ要素が強くなるようだ。
頭から太ももの構図はMedium full shotというが、
「1girl, danbooru, medium full shot」で試した所、どうも効いてない。
バストアップの構図について。
「1girl, danbooru, bust-up」について、よりズームされた画像が出てきていることから、おそらく正しく理解していないのだが、
バストという単語が入っていることで、そこまで描画しようとして、それっぽくなっているだけ。
promptに含まれている単語の範囲で、画面全体を埋め尽くそうとしているのではないだろうか。
顔が崩れて目が描画されない場合、promptで指定しているのをよく見かける。
「1girl, danbooru, eye, eyelashes」といったように描くと、構図まで変わる。
「1girl, danbooru, eye, eyelashes, mouth」と書くと顔のアップの構図になる。
目・まつげ・口しか記載してないので、上の図のように髪の毛のピントがあってないようなボケた描写になるようだ。
「1girl, danbooru, eye, eyelashes, mouth, kawaii face」は
「1girl, danbooru, eye, eyelashes, mouth」と変わってないようだ。
「1girl, danbooru, eye, eyelashes, mouth, beautiful face」
顔が崩れ易いので、調べると効くのでは?と取り敢えず入れてみる「 perfect symmetrical face」。
「 perfect symmetrical face」がなくても、顔が崩れないときは崩れないので、いまいち効果の判断が難しい。
顔の高さに対して目の大きさが小さくなり、年齢が上がるようだ。
シンメトリーと書いているが完全にシンメトリーとなるわけでもない。(上の髪の毛がそうだ)
「1girl, danbooru, eye, eyelashes, mouth, perfect symmetrical face」
perfectは効いているのか?ということで取ってみたもの。
先の結果と比べると崩れ易くなっているのか?判断しにくいところ。
「1girl, danbooru, eye, eyelashes, mouth, symmetrical face」
kawaiiを入れると幼くなる。
顔は崩れ易くなっているようだ。
kawaiiの入れる箇所の影響もあるのかもしれない。