【Anything-V3.0】凄いなりの活用方法を模索してみる

2022年11月16日 23:26

色々と物議を醸してはいるものの……

やっぱ凄いものは凄いです。
現状美少女イラストについては最高のクオリティで出力できるモデル（Stable Diffusionで使える学習データ）と言っていいでしょう。

既にGoogle Colabで試せる環境を構築済みで、先日までNovelAIで研究していたヴィクトリアスタイルのメイドさんのプロンプトを作って適当に画像を出力していたのですが、基本的に美少女イラストについてはNAIのほぼ上位互換なので特にプロンプトの練り直しをしなくてもこんな感じで安定した絵が出ます。

このようにポテンシャルは高め。
あと落ち着いた雰囲気のメイドさんよき。
一方でNAIの根源であるStable Diffusionからは更に離れてしまったので、写真や西洋画的な絵はかなり出すのにコツがいるようになった印象。

なおマスピ絵（NAIのデフォルトの絵柄）は更に強化されており、こんな適当なプロンプトでも非常に~~実用的な~~完成度が高い絵を出してくれます。

masterpiece, best quality, 美美美美美美美美美美美美美美美美祝祝祝祝祝祝祝祝祝祝祝祝祝祝祝祝笑笑笑笑笑笑笑笑笑笑笑笑笑笑笑笑
Negative: NAIのデフォルトを移植

補足:
NAIのデフォルト設定ではプロンプトには masterpiece, best quality が
UCには lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name が自動的に挿入されるので、stable diffusionでNAIに近づけたい場合はこれらのプロンプトを手動で入れる必要あり。

こんなアズールレーンのロード画面みたいな画像がほぼ作り放題ってのは凄い。あとキャラが複数いても顔が崩れにくいという強みがあり、サンプラーをDPM++ 2 karras系統にすると特にそれが強い感じです。
（残念ながらこのDPM++ 2 karrasはNAIでは使えません……）

この画面にちょくちょく映ってる謎生物（特に黄色いヒヨコみたいなの）ですが、おそらくアズールレーンの「饅頭」の成れの果てだと思われます。
ちょっとエッチめな絵のにぎやかしとして使われるマスコットキャラなので、おそらくちょっとエッチな絵の学習の際に紛れ込んでしまった説？あると思います。

まぁ傾向としてコミカルとか明るい絵以外には紛れ込まないので、実害がなければ放置してもいいんじゃないでしょうか。
（今度UCにmanjuu_(azur_lane) と入れて消えるかどうか試してみます）

Anything-V3.0の傾向

その他NAIとの違いを主軸に色々なプロンプトを試しつつ、数日ポチポチと弄ってみた感触としてはこんな感じです。

（１）特にクオリティタグを多用しなくてもマスピ絵に関しては品質が高い
（２）マスピ絵を保持できる限界値が高めなので、迂闊につけると絵柄が大きく変わってしまう唇や化粧系の語句を使っても絵柄がブレない
（３）NAIだと5以下は絵が崩れやすかったScaleの値が更に低めに設定でき、3,4でも絵柄にさほど影響がない。そこまで下げると絵の雰囲気が無彩色というよりは、暗い色使いかつタッチが荒々しい独特の絵柄になる。
（４）ライティングに関する指定がいまひとつ通りにくく、大胆な逆光のようなライティングの絵が作りづらい。（おそらく作家名などの組み合わせでカバーできる範囲だとは思われる）
（５）絵が破綻する率が低く、意図的に奇妙な絵を作りたい場合などにはやや難しい。

１は既に説明した通りですが個人的に２が面白いと思ってまして、NAIでは例えば「唇をちょっとうるっとさせたい」とか「軽くアイシャドウを入れたい」みたいな指定でも一気に絵柄が海外に吹っ飛ぶ傾向があって熟女系キャラの調整が非常に難しかったのですが、AV3では割とそのあたりは安全マージンが広い傾向にあります。

テーマカラーで作った笑顔が怖い系熟女キャラ
thick eyelashes（太い睫毛）, eye shadow（アイシャドウ）みたいなNAIでは扱いの難しい語句が調整なしで使える

３は更にAV3特有の絵柄が作れる可能性を秘めてます。
というか実際既に色々な画像を作ってる人はこの特性を生かして、派手かつ重厚な絵を作ってますね。

こんな感じの絵が……

Scaleを下げるごとに画面が暗くなっていき…

ここまで行くと髪の荒ぶりっぷりも含めてちょっと怖い絵になります（あくまで題材次第）
ただこういう絵柄は好きな人には刺さると思うので、似合う題材をみつけて是非積極的に活用したいところ。

４はまだ個人的な体感の域を出ませんが、標準の絵柄の範囲内だと大胆なライティングが効きづらい傾向にあります。以前の記事で作ったくっころ女騎士のプロンプトを移植してライティング系の語句を入れてもこんな感じ。

背景が白飛びするほどの強さでもいまいちリムライトや髪の透過光には反映されてないように見えます。あるいは強い逆光なのに人物がシルエット状にならないのが問題なのかも？（普通このくらい強い光が外から差し込む場合は人物はがっつり暗くなります）

sub surface scattering（表面化散乱）を強く指定して作った画

また表面化散乱（半透明な物体を光が通るときに光が拡散してぼうっと光る現象）が効いてる状態でも、髪がいまひとつそれっぽく光らないのは演出的に大変勿体ないので、もうちょっと上手くできる方法を研究したいですね。

なお５については欠点ではないです。
AV3は特に手については非常に強く、NAIではまだ不自然だった手がかなり自然に見えるようになりました。AI絵は手が描けない的なネタ（あとラーメン）で散々世間では擦られましたが、笑ってられるのはいまのうちです。

一方で例えばfusionを使って何かをぐねぐね歪ませた絵を作りたい場合などは案外まともな画ばかりが出てきて少々期待はずれな場面も。

上の画像はNAIでart nouveau style xeno spiral staircase（アール・ヌーヴォー建築様式の異形な螺旋階段）という背景指定で出てきた、空間としての整合性はともかく絵面としてはなかなか面白い画だったんですが、AV3ではこのような奇妙な絵はまだ出てません。

同様の背景指定をAV3に行って出した画
ぐねぐねした異世界感みたいな意味では物足りない

もっともそのお陰で破綻した人体なんかも明らかに出づらくなってるので、言うまでもなくメリットがデメリットを遥かに上回ってはいるんですが……。

img2imgで有効活用する

そのまま利用しても大変いい結果を出してくれるAV3君ですが、せっかくAUTOMATIC1111を利用してるんですから単にtext2imgだけではなく、更に踏み込んだ使い方として過去に作った画像をimg2imgで活用する方法をオススメします。

たぶんNAIとかWaifu diffusionを使っていた人なら「構図とか全体の雰囲気はいいんだけど細部（特に手と顔）が駄目でストレージの肥やしになってるんだよなぁ…」という画像があると思います。
それをAV3のimg2imgで復活させようという試みです。

これは先程の「アール・ヌーヴォー建築様式の異形な螺旋階段」で出てきた画像なんですが、ご覧の通り構図はユニークなものの完成度がまったく追いついてません。
これをAV3のimg2imgで全体的に手直しした結果が以下の通り。

螺旋階段の手摺り部分が作っていた面白い構図とか、傾き（かぶき）まくった髪飾りにも見えなくはない箇所が完全に消えて全体的にはやや台無しになってますが、絵としては非常に完成度が高まりました。

２枚目、今度は絵全体の構図を活かしつつ修正。
でも手が整ってないので更に手だけを整える必要あり。

こうやって納得がいくまでimg2imgしていけばいつか「これだ！」という絵になる筈です。このあたりは題材の良さを活かしつつ整えるノウハウがまだ不足しているので、inpaintの熟練も含めて今後の研究課題としたいです。

ともあれこういう感じで手直しできることは分かりました。もうひとつやってみましょう。

同様に螺旋階段で面白い構図なものの、~~ZUN感溢れる~~素朴すぎる顔のキャラクターや花の描き込みが追いついてない画像ですが……

割といい感じに。特に２枚目は適度に背景に歪みが残りつつ悪い笑顔でなんか強キャラ感があります。

謎の紋章？の上に横たわる少女。
同様に顔の描き込みが足りず、また構図全体を占める円形が悪い意味で歪んでて色々と惜しい画像ですが……

随分と整った感じなりました。
~~太ももが細めになってむちむち感が足りない点は残念ですが。~~
ちなみにこれらの画像は先日突然「メスガキとアール・ヌーヴォーを混ぜた何かを作れ」という電波を受信して思わず作ってしまったものです。

更に何をトチ狂ったのか、そのテンションのままAI画像コンテストにも応募してしまったので、良ければご覧になって感想なり罵倒なり頂ければ幸いです。（ちなみに応募画像はNAIで作成）

また既に述べたとおりにAV3ではやや西洋画みたいな重々しい（暗めの）ライティングの絵が出づらい傾向にあるのですが、例えばNAIなり他のモデルなりでそういった画像の構図やカラーラフ出しだけしてAV3側で仕上げるという使い方もできます。

これをAV3側でほぼ同プロンプトで仕上げ（顔に関するプロンプトだけは追加）

絵の雰囲気も少々変わってしまってますが、特に後者だけを見た人になら「元々こういう絵です」と自信満々に言えば普通にいけそうな感じがします。
やはり顔が整ってるのは強いです。（ちなみに顔のプロンプトにはアイシャドウとかを盛り盛り）

Anything-V3.0の用途は広い

こんな感じでAV3は弱点をカバーできる使い方ができればかなり戦力（？）になりそうな感じがします。
ローカル環境（高価なグラフィックカードが必要)あるいはColab環境が必須という点では敷居は一定の高さがありますが、既にstable-diffusion-webuiのGoogle Colabでの導入方法などを説明しているサイトは検索すれば結構あります。

というか特にどこかのサイトを参考にしなくてもAUTOMATIC1111氏のページで大変詳細な導入方法の解説がされているので、DeepL翻訳などを導入して試行錯誤してみるのもいいかもしれません。

現在このAUTOMATIC1111 webui版は日々様々な追加機能がエクステンションという形で追加・提供されており、ひょっとしたら近いうちにNVIDIAが発表した、「おおまかな画像とその注釈の言葉」で画像を生成できるpaint with wordsという機能の実装がされるかも？などと言われてます。

それ以外にも様々な絵柄の学習機能が既に機能として統合されており、AV3以外のモデルを(当然本家Stable Diffusion 1.5も)使うにしても大変強力なソフトですし、使いこなせれば~~凄い沼に嵌りそう~~大変面白い事ができそうではあります。
まだNAI以外を使った事がない人は、この期に挑戦してみてはどうでしょうか？

それではまた新たなネタやテーマができたら記事を更新しようと思いますので、その時はお付き合いいただけたらと思います。