【SDXL】アニメオタクは辞書で賢くなる？　最新の noob_v_pencil-XL の系譜

きまま / Easygoing

2024年12月13日 17:31

はじめに

こんにちは、きまま / Easygoing です。

今回は Stable Diffusion XL のプロンプトの理解について考えます。

お題：遊園地のイルミネーション

さて、今回のお題は遊園地のイルミネーションです。

シャンパンゴールドのクリスマスイルミネーションの遊園地で女の子がプレゼントを配っているアニメイラスト — anima_pencil-XL -> AuraFlow & blue_pencil-flux1

キラキラの LED とは少し違った、少し大人なシャンパンゴールドの灯りを再現してみます。

テキストエンコーダーは辞書

前回、テキストエンコーダーが入力したプロンプトを理解する辞書の働きをすることを紹介しました。

新しい画像生成AI の Flux.1 と Stable Diffusion 3.5 は、ベースモデルと別にテキストエンコーダーを選べるので、簡単にアップグレードすることができました。

一方で、前世代モデルの SDXL はテキストエンコーダーはモデルと結合しています。

それでは、SDXL は Flux.1 と同じように、CLIP をアップグレードすることはできるのでしょうか？

CLIP をオリジナルに戻してみると・・・

まず、代表的なアニメモデルの CLIP が、オリジナルの CLIP からどのように変化しているのかを調べてみます。

左：アニメモデルの CLIP-L + CLIP-G
右：SDXL_Base の CLIP-L + CLIP-G

Animagine-XL 3.1

Animagune-XL 3.1 のアニメモデルのCLIPとSDXL_Base の CLIP のイラストの比較 — 構造が崩れて彩度が落ちる

blue_pencil-XL_v7.0.0

anima_pencil-XL_v5.0.0

Pony Diffusion V6 XL

Pony Diffusion V6 のアニメモデルのCLIPとSDXL_Base の CLIP のイラストの比較 — 完全に崩壊

Illustrious-XL_v0.1

アニメモデルの CLIP は改造されている！

生成された画像を見ると、Pony Diffusion V6 XL と Illustrious-XL_v0.1 は CLIP に 高度な改造 が入っているようで、もとの CLIP とは互換性がなくイラストが崩壊しています。

Animagine-XL 3.1 はイラストは生成できますが、こちらも構造が歪んで彩度が落ちた微妙なイラストになります。

一方で、blue_pencil-XL_v7.0.0 と anima_pencil-XL_v5.0.0 はかなりオリジナルに近いイラストが生成されています。

自然言語入力が難しくなる

もともと SDXL の CLIP は、自然言語入力にも対応した幅広い理解力を持っています。

一方で、アニメモデルは Danbooru をはじめとした タグ付けで追加学習を繰り返した ことにより、自然言語入力に対する応答性は悪化していきます。

シャンパンゴールドのクリスマスイルミネーションの遊園地で少し大人の女性がこちらを見て微笑んでいるアニメイラスト

これは、学生が １つの教科ばかり勉強した結果、他の教科の内容を忘れていく のに似ています。

一度忘れた内容は、例え高性能な辞書を与えても簡単に思い出すことはできません。

blue_pencil-XL シリーズは CLIP を巻き戻している！

先ほどの例では、blue_pencil-XL と anima_pencil-XL はオリジナルの CLIP でもかなり近いイラストができましたが、これには理由があります。

blue_pencil-XL シリーズは、膨大な数 のモデルを組み合わせたマージモデルで、初期の blue_pencil-XL_v1.0.0 は、そのマージレシピが公開されています。

blue_pencil-XL_v1.0.0 のマージのフローチャート — https://blue-pen5805.github.io/models/blue_pencil-XL-v1.0.0.html

blue_pencil-XL シリーズは初期バージョンで 実写系を含めた50種類以上 のモデルをマージしていることに驚きますが、さらに注目する点はマージの過程で 頻回にオリジナルの SDXL_Base （赤色）を混ぜている 点です。

この工程では、できる限り CLIP の巻き戻し を行っています。

blue_pencil-XL シリーズは、オリジナルの CLIP を維持することにより、SDXL 本来のプロンプトの理解力が保たれていて、自然言語のプロンプトを理解することができるのです。

自然言語入力は何が良いのか？

個人的には、プロンプトはいつも短いストーリーを自然言語で入力しています。

この方法だと、切り取った場面に応じて キャラクターの表情に変化 が生まれてきます。

シャンパンゴールドのクリスマスイルミネーションの遊園地で黒いコートを着た少し大人の女性がこちらを見て微笑んでいるアニメイラスト

シャンパンゴールドのクリスマスイルミネーションの遊園地で黒いコートを着た少し大人の女性が横目でこちらを見て微笑んでいるアニメイラスト

シャンパンゴールドのクリスマスイルミネーションの遊園地で黒いコートを着た少し大人の女性がこちらを見下ろして微笑んでいるアニメイラスト

タグ入力でもプロンプトで表情を指定することはできますが、繊細な表情を作ろうとすると 複数のキーワードを弱めて組み合わせる などの工夫が必要になってきます。

自然言語入力では、同じプロンプトでもストーリーに沿った様々な表情が生まれてきて、何より 生成している本人が楽しい のです。

blue_pencil-XL ファミリーは何を目指す？

blue_pencil-XL ファミリーは、新しいアニメモデルがリリースされると、それをマージした新しいシリーズが公開されています。

シャンパンゴールドのクリスマスイルミネーションの遊園地で黒いコートを着た女の子がこちらを見て微笑んでいるアニメイラスト

今回のイラストでも利用している anima_pencil-XL は、画像生成プラットフォームの Fooocus にも採用されている定番のアニメモデルです。

pony_pencil-XL, Illustrious_pencil-XL, noob_v_pencil-XL（試作中）シリーズは、それぞれのアニメモデルの良さを吸収しつつ、さらに使い勝手の向上を目指しています。

後から登場した illustrious-XL 及び NoobAI-XL シリーズは、CLIP が大きく変わっているので自然言語入力が難しくなっていますが、それでも Illustrious_pencil-XL, noob_v_pencil-XL シリーズのプロンプトの追従性はオリジナルより頭一つ優れています。

noob-v-pencil-XL シリーズ！

blue_pencil-XL ファミリーの最新作は、noob-v-pencil-XL シリーズです。

シャンパンゴールドのクリスマスイルミネーションの遊園地で黒い手袋をした少し大人の女性が少し涙で微笑んでいるアニメイラスト、色彩が鮮やか — noob_v_pencil-XL_v0.5.1

noob-v-pencil-XL シリーズは、日々更新されている NoobAI-XL_V-pred シリーズをもとにマージされたモデルです。

E-pred：Epsilon prediction（ノイズ予測）
V-pred：Velocity Prediction（速度予測）

v-prediction はもともとは Stable Diffusion 1 の時代に Novel AI が開発した画像生成の予測法で、通常の ε-prediction と比べて収束が早く、少ない Step 数で画像が生成できるとされています。

シャンパンゴールドのクリスマスイルミネーションの遊園地で黒い手袋をした少し大人の女性が少し涙で微笑んでいるアニメイラスト、色彩が鮮やかで明るい — noob_v_pencil-XL_v0.5.1_refined_r1

実際の使用感では、V-pred の最大の特徴はその 鮮やかな色彩 にあり、今までのモデルでは難しかった鮮明な色使いを表現することができます。

CLIP マージの試作品

さて、今回のテーマは SDXL の CLIP のアップグレードでした。

今回、私が自分用にマージしたレシピは次のとおりです。

CLIP改良前後の比較のイラスト、改良後のものの方が全体的に少し明るい — 左：今回マージしたもの　　右：noob_v_pencil-XL_v0.5.1

noob_v_pencil-XL_v0.5.1_refined_r1

CLIP-G
- noob_v_pencil-XL_v0.5.1 x 0.9
- anima_pencil-XL_v5.0.0 x 0.1
CLIP-L
- noob_v_pencil-XL_v0.5.1 x 0.9
- ViT-L-14-BEST-smooth-GmP-TE-only-HF-format x 0.1

マージしたものは、オリジナルより明るく柔らかい感じになりますが、イラストによっては全体が白っぽくなる場合があります。

ワークフロー

今回利用した CLIP のマージのワークフローはコチラです。

まとめ：モデルのマージは難しい

アニメモデルは、CLIP が改造されている
SDXL の CLIP はアップグレードが難しい
noob-v-pencil-XL シリーズは鮮やかな色彩が特徴

今回初めてモデルの一部のマージをしてみましたが、この作業は根気とセンスが必要なことを改めて実感しました。

シャンパンゴールドのクリスマスイルミネーションの遊園地で黒いコートを着た少し大人の女性が横を見ながら微笑んでいるアニメイラスト

blue_pencil-XL シリーズをはじめ、カスタムモデルを公開されている作者さんには感謝しかありません。

モデルのマージに手を出したことにより、これから沼にハマりそうな予感もしますが、それでも楽しみながら続けていきたいと思います。

【SDXL】アニメオタクは辞書で賢くなる？　最新の noob_v_pencil-XL の系譜

はじめに

お題：遊園地のイルミネーション

テキストエンコーダーは辞書