
【SDXL】 アニメオタクは辞書で賢くなる? 最新の noob_v_pencil-XL の系譜
はじめに
こんにちは、きまま / Easygoing です。
今回は Stable Diffusion XL のプロンプトの理解について考えます。
お題:遊園地のイルミネーション
さて、今回のお題は遊園地のイルミネーションです。

キラキラの LED とは少し違った、少し大人なシャンパンゴールドの灯りを再現してみます。
テキストエンコーダーは辞書
前回、テキストエンコーダーが入力したプロンプトを理解する辞書の働きをすることを紹介しました。
新しい 画像生成AI の Flux.1 と Stable Diffusion 3.5 は、ベースモデルと別にテキストエンコーダーを選べるので、簡単にアップグレードすることができました。
一方で、前世代モデルの SDXL はテキストエンコーダーはモデルと結合しています。

それでは、SDXL は Flux.1 と同じように、CLIP をアップグレードすることはできるのでしょうか?
CLIP をオリジナルに戻してみると・・・
まず、代表的なアニメモデルの CLIP が、オリジナルの CLIP からどのように変化しているのかを調べてみます。
左:アニメモデルの CLIP-L + CLIP-G
右:SDXL_Base の CLIP-L + CLIP-G
Animagine-XL 3.1

blue_pencil-XL_v7.0.0

anima_pencil-XL_v5.0.0

Pony Diffusion V6 XL

Illustrious-XL_v0.1

アニメモデルの CLIP は改造されている!
生成された画像を見ると、Pony Diffusion V6 XL と Illustrious-XL_v0.1 は CLIP に 高度な改造 が入っているようで、もとの CLIP とは互換性がなくイラストが崩壊しています。
Animagine-XL 3.1 はイラストは生成できますが、こちらも構造が歪んで彩度が落ちた微妙なイラストになります。
一方で、blue_pencil-XL_v7.0.0 と anima_pencil-XL_v5.0.0 はかなりオリジナルに近いイラストが生成されています。
自然言語入力が難しくなる
もともと SDXL の CLIP は、自然言語入力にも対応した幅広い理解力を持っています。
一方で、アニメモデルは Danbooru をはじめとした タグ付けで追加学習を繰り返した ことにより、自然言語入力に対する応答性は悪化していきます。

これは、学生が 1つの教科ばかり勉強した結果、他の教科の内容を忘れていく のに似ています。
一度忘れた内容は、例え高性能な辞書を与えても簡単に思い出すことはできません。
blue_pencil-XL シリーズは CLIP を巻き戻している!
先ほどの例では、blue_pencil-XL と anima_pencil-XL はオリジナルの CLIP でもかなり近いイラストができましたが、これには理由があります。
blue_pencil-XL シリーズは、膨大な数 のモデルを組み合わせたマージモデルで、初期の blue_pencil-XL_v1.0.0 は、そのマージレシピが公開されています。

blue_pencil-XL シリーズは初期バージョンで 実写系を含めた50種類以上 のモデルをマージしていることに驚きますが、さらに注目する点はマージの過程で 頻回にオリジナルの SDXL_Base (赤色)を混ぜている 点です。
この工程では、できる限り CLIP の巻き戻し を行っています。
blue_pencil-XL シリーズは、オリジナルの CLIP を維持することにより、SDXL 本来のプロンプトの理解力が保たれていて、自然言語のプロンプトを理解することができるのです。
自然言語入力は何が良いのか?
個人的には、プロンプトはいつも短いストーリーを自然言語で入力しています。
この方法だと、切り取った場面に応じて キャラクターの表情に変化 が生まれてきます。



タグ入力でもプロンプトで表情を指定することはできますが、繊細な表情を作ろうとすると 複数のキーワードを弱めて組み合わせる などの工夫が必要になってきます。
自然言語入力では、同じプロンプトでもストーリーに沿った様々な表情が生まれてきて、何より 生成している本人が楽しい のです。
blue_pencil-XL ファミリーは何を目指す?
blue_pencil-XL ファミリーは、新しいアニメモデルがリリースされると、それをマージした新しいシリーズが公開されています。

今回のイラストでも利用している anima_pencil-XL は、画像生成プラットフォームの Fooocus にも採用されている定番のアニメモデルです。
pony_pencil-XL, Illustrious_pencil-XL, noob_v_pencil-XL(試作中)シリーズは、それぞれのアニメモデルの良さを吸収しつつ、さらに使い勝手の向上を目指しています。

後から登場した illustrious-XL 及び NoobAI-XL シリーズは、CLIP が大きく変わっているので自然言語入力が難しくなっていますが、それでも Illustrious_pencil-XL, noob_v_pencil-XL シリーズのプロンプトの追従性はオリジナルより頭一つ優れています。
noob-v-pencil-XL シリーズ!
blue_pencil-XL ファミリーの最新作は 、noob-v-pencil-XL シリーズです。

noob-v-pencil-XL シリーズは、日々更新されている NoobAI-XL_V-pred シリーズをもとにマージされたモデルです。
E-pred:Epsilon prediction(ノイズ予測)
V-pred:Velocity Prediction(速度予測)

v-prediction はもともとは Stable Diffusion 1 の時代に Novel AI が開発した画像生成の予測法で、通常の ε-prediction と比べて収束が早く、少ない Step 数 で画像が生成できるとされています。

実際の使用感では、V-pred の最大の特徴はその 鮮やかな色彩 にあり、今までのモデルでは難しかった鮮明な色使いを表現することができます。
CLIP マージの試作品
さて、今回のテーマは SDXL の CLIP のアップグレードでした。
今回、私が自分用にマージしたレシピは次のとおりです。

noob_v_pencil-XL_v0.5.1_refined_r1
CLIP-G
noob_v_pencil-XL_v0.5.1 x 0.9
anima_pencil-XL_v5.0.0 x 0.1
CLIP-L
noob_v_pencil-XL_v0.5.1 x 0.9
マージしたものは、オリジナルより明るく柔らかい感じになりますが、イラストによっては全体が白っぽくなる場合があります。
ワークフロー
今回利用した CLIP のマージのワークフローはコチラです。

まとめ:モデルのマージは難しい
アニメモデルは、CLIP が改造されている
SDXL の CLIP はアップグレードが難しい
noob-v-pencil-XL シリーズは鮮やかな色彩が特徴
今回初めてモデルの一部のマージをしてみましたが、この作業は根気とセンスが必要なことを改めて実感しました。

blue_pencil-XL シリーズをはじめ、カスタムモデルを公開されている作者さんには感謝しかありません。
モデルのマージに手を出したことにより、これから沼にハマりそうな予感もしますが、それでも楽しみながら続けていきたいと思います。
最後までお読みいただきありがとうございます!