先日公開した現行 StableDiffusion と ControlNet を使った画像生成手順だが、元は個人プロダクトのマスコットキャラクターを擬人化してみると面白そうという思いつきと、アイコンにできるかもという思惑があって始めたことだった。
が、アイコンとしては微妙という結果だった (分かってはいたが少しショック)
気を取り直してアイコンを生成することにした。ついでに7月中旬に公開予定の SDXL 0.9 (StableDiffusion XL) の性能を量るため、そちらを使用することにした
SDXL 0.9 (StableDiffusion XL) について
先月の 6/23 に SDXL beta だけでなく 0.9 が発表された
記事で記述されているリサーチブログは以下
sdxl_report.pdf at main · Stability-AI/generative-models · GitHub
ちなみに SDXL 0.9 のフルリリースは研究目的なら今からでも申し込めば使えるらしい (審査にどれだけかかるか分からないけど、私は本日夕方に申し込んだ。もしかして申し込めば diffusers 経由で使えるのか?未検証)
Clipdrop などでは Web サービスとして利用可能
Hugging Face リンク
diffusers の使い方は リリースノートも分かりやすかった
プロンプトの手引き書
現時点で SDXL 0.9 が使えるWebサービスの一つである DreamStudio が公開しているドキュメントが分かりやすかった
今度これについてまとめようと思う
ロゴ制作
まず方向性から考える。
これを以下のプロンプトに落とし込んでいく
Prompt
Negative Prompt
なんか期待するものとは違う微妙な結果になった。絵のクオリティは高いが。
Beta でも同様
スマホでやったときは上手く行ったのだが
仕方がないので以下のような円を用意して input にした
諦めかけてたところで ClipDrop で試してみたら良い感じにできた
最終的に ClipDrop の No style の方が良い精度で生成できた。一日400枚までなら生成できるので、納得いくまで繰り返し生成した
試したプロンプトは以下
結果、以下のようなアイコンが誕生した
私の画像編集スキルが低いせいでケチを付け始めたら終わりないが、及第点くらいのできにはなったのではないだろうか。個人的にはそこそこ気に入っている
今回得た知見
SDXL 0.9 は、そのままでもプロンプトを始めとする入力値などの工夫次第では実用に耐えれそうだった
ClipDrop と DreamStudio では性能に差がありそう (特にプロンプトを適切に解釈して出力に反映する性能) だが、その要因がモデルなのか VAE なのか、はたまた別の違いなのかは分からなかった。今回のケースでは ClipDrop に軍配が上がる。
ただ、SDXL以前のモデルや学習済みモデルと比較すると、プロンプトの反映性能は高いように思える。
DreamStudio はネガティブプロンプトや入力設定値の細やかな設定が可能で、既存 SD の作業に慣れている人には馴染み深いかも。
おまけ: マスコットキャラクターを SDXL 0.9 で生成してみた結果