PonyDiffusionV6で絵柄をできるだけスッキリさせるための方法論

akiraU

2024年4月17日 01:41

　SDXL界の2大巨頭といえば「Pony Diffusion」と「Animagine」。
　Ponyさんは「えっちい構図が異常なまでに上手いが、似たような絵柄を安定して出すのが難しいクセ強モデル」という特徴を持っています。

　そのクセの強さゆえに、ねらった絵をうまく出せずに使うのを止めた人も多いはず。
　また、Ponyベースで安定性向上かつ絵柄が日本人好みな派生モデル（momoiroとかAutismMixとか）に移行した人も多いでしょう。

　ただ派生モデルは優秀ですが、こと構図パワーに限って言うと本家の方が上で、派生だと描けなかったり、描けてもバリエーションが少なかったりということが少なくありません。

　そこで、Ponyを頑張って使うために「いかに絵柄を安定させるか」「ジャパニーズ好みのあっさり系絵柄を出すか」について、個人的に気をつけていることを紹介してみます。

　いつものように、がっつり検証とかしたわけではないただの経験則なので、間違っていることもあるかもしれないので、御了承ください。

１：LORAを適用する

　ponyはもともとが「ケモノのアレコレを生成する」ことが目的のモデルです。
　ジャパニーズアニメでよくみる「人の顔をしたケモノ娘」ではなく、アルゴニアンやロスガルみたいな「顔がケモノそのもの」なガチなケモノ種族に注力しています。

　そのため、そもそも「人間」を描くのが得意ではありません。
　それでも人気になっちゃうPonyのエロパワーすげぇとしかいいようがないわけですが…。

　そんなワケで、Ponyで日本アニメマンガチックな可愛い女の子を出すのは、そもそも論として難しいです。

　なので、絵柄に影響を与えるLORAを適用しましょう。

　画風LORAはもちろん、キャラLORAを0.3程度のうすい強度で掛けるのもアリです。
　複数のLORAを掛け合わせて絵柄を調整するのもおもしろいでしょう。

　LORAはcivitaで探してもいいですが、自分が好きな画像を特定の画風に偏らないように50～100枚ぐらいピックアップして、「自分好みの絵を集めたスタイルLORA」を作っておくと便利です。
　ざっくりした画風が出ればいいので、設定を煮詰める必要もなく手軽に作成できます。

　なお、SDXLはLORAの強度が高すぎると、画像が崩壊するのではなくて「イラストとしては成立してるけど想定している描写をしなくなる」ことがあります。
　複数のLORAを高めの強度で使うときは要注意です。

２：クオリティタグとネガティブプロンプト

　Ponyの画風が安定しないのは、プロンプト一つでガラっと絵柄が変わるからです。
　通常のプロンプトはもちろんネガティブプロンプトも、ちょっとした単語の違いで画風が変化することがあります。

　絵柄を調整するときに、プロンプトとネガティブをそれぞれ弄ってしまうと効果の検証が面倒くさいので、ネガティブは固定もしくは定番３つぐらいに絞ってしまい、プロンプトだけで調整すると捗りやすいです。

ネガティブプロンプト

　自分は、長めのプロンプトを３パターンほど作って適当に使い回しています。細かい検証はしていないので、たいした知見がありません…。

　今おもに使っているのは長めのネガティブで、定番のクオリティ（worst qualityなど）や人体補正（bad hand, bad anatomyなど）に加え、バタ臭い系の作品を山盛りにしています（dc comics, south park, marvel, powerpuff girls, league of legendsなどなど）。

クオリティタグ

　Pony定番クオリティタグは「score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up, source anime」。
　score～は、Ponyの制作者が学習時に独自基準で素材をランク付けしたタグとのこと。つまり「masterpiece」とか「best quality」のPony専用版ということです。

　どれを使うかで絵柄に変化があるのですが、公式で説明されているとおり、9～4まで全部付けてしまうのが一番安定する気がします。
　他のパターンだと「９だけ使う」「９～７まで使う」あたりも、日本のアニメ絵っぽく仕上げるには効果的な印象です。

scoreタグを少しずつ変えたもの。左端が全部入れ、右端はスコアタグ無し。
スッキリした感じがよければscoreタグは少なめに、質感を求める場合は全部入れた方がよさげ。

　masterpieceとbest qualityも導入推薦。
　好みに合わせて「high detailed」とか「optimal lightning」なども使って見るとよさげです。

　また、クオリティタグとして画風系のタグを使うのも効果が大きいです。
　画材系はもちろん、例えば「vtuber」みたいな大まかな概念モノも効果を発揮します。
　キャラや特定作家のタグは、そのまま使うと絵が固定されてしますので、重みを0.3以下ぐらいまで低くしてうすーーーーく掛けるのがおすすめです。

　あと、ネット上のAIイラストのメタデータを見ると、クオリティタグの後ろに「BREAK」が入っていることがあります。
　これは、タグをそこで区切るという宣言ワードで、単語自体に意味はありません。
　SDXLはプロンプトが長いと適当な部分で分割処理をします。変なところで分割されるぐらいなら、区切りがいいところであらかじめ区切っておこう！　ということでBREAKタグが使われます。
　あとは、シンプルにプロンプトが見易くなる点も大きいです。
　入れるとクオリティが向上するという類いのものではありません。プロンプトが長いときは入れておくといいかな…ぐらい。長くないときははお好みでどうぞって感じです。

３：その他のTIPS

Adetailerとhires.fix

　Ponyは人間のディテールがかなりいい加減です。
　とくに引いた絵の場合、顔や四肢が崩れるというかボヤけがち。
　そこを補うために、Adetailerを適用したりhires.fixを低倍率で掛けてアップスケール処理をすると、細部の書込が向上することがあります。

苦手な構図がある

　Ponyは明らかに苦手なタグ・構図があり、それを書こうとするととたんにクオリティが下がることがあります。
　これは解決が難しいので、ある程度調整しても根本的にどうしようもないと感じたときは、とっとと派生モデルを使った方がいいです。
　派生モデルでも構図は出にくいかもしれませんが、少なくとも絵柄の問題は解消されます。

3文字タグ

　Ponyには「ランダム3文字タグ」という隠しタグがあります。
　画風に影響を与えることができるのですが、そもそもそういう使い方を想定されていないと思われ、効果的かつ安定して使うのはかなり難しいです。
　研究すれば道が開けるかもしれませんが、個人的には諦めました（笑）。

サンプラー

　他のモデルと比べると、Ponyはサンプラーの影響が大きい気がします。
　個人的には、公式で推奨されている「EulerA」使ってます。
　他では「Restart」がわりと特徴がある絵作りでハマると良い感じ。ただEulerと比べるとグチャることも多い気がするので常用はしていません。

他のモデルでi2iする

　Ponyで出して、絵柄が好きなモデル、例えばAnimagineなどでi2iします。
　プロンプトはscoreタグだけ取って他はそのまま。CFGが6程度、Denoisingは7ぐらい（元絵が極端に変化しなければいいので適当でいいです）。
　絵柄への効果は大きいですが、手間がかかるので「めちゃめちゃいい構図になったので絵柄のクオリティも上げたい！」みたいな時に。

　似たようなアプローチでもう少し簡単な方法として、Refinerを使うという手もあります。
　ただ、Refinerは構図が複雑だと破綻することも珍しくないので、自分はあまり使っていません。

上の絵をanimagineでi2i。いろいろと向上する。
やっぱ背景が良くなると絵が締まるますね…

この記事が気に入ったらサポートをしてみませんか？