ComfyUIでSD 3.5 Large TurboとSDXLを利用したt2i2iのワークフロー

2024年12月7日 19:29

※ Last update 12-7-2024

■ 0. 概要

▼ 0-0. 本記事について

　新しい画像生成AI（前回の記事ではFLUX.1）の出力を、成熟したSDXLのi2iに通す試みを行っています。本記事では、生成の早いStable Diffusion 3.5 Large Turboを用いてみました。SDXL単一のアップスケールとは異なる構図等が出力できる可能性がありますので、興味のある方は挑戦してみてください。
　既にStable Diffusion 3.5用のText EncoderとVAEが設置されていることを前提としていますが、念のため1-4.にて簡単に手順を説明しています。
　本記事では生成を高速化するため、Stable Diffusion 3.5 Large Turboのほか、SDXL版のPCMを利用しています。

▼ 0-1. 前回の記事

■ 1. 準備

　ConfyUIが新規インストールされた状態からでも実行できるよう、全ての手順を説明しています。不要な箇所は読み飛ばしてください。

▼ 1-1. ComfyUIの準備

　プロンプトの文字列を結合するために「String Function 🐍」のカスタムノードを使用しています。もし、「ComfyUI\custom_nodes\ComfyUI-Custom-Scripts」のディレクトリがなければ、下記URLの拡張機能をインストールしてください。

ComfyUI-Custom-Scripts
https://github.com/pythongosssss/ComfyUI-Custom-Scripts

　コマンドプロンプトを開いてから「ComfyUI\custom_nodes」へ移動して、下記のコマンドを実行します（Gitが必要）。もちろん、ComfyUI-Managerを用いてGUI上でインストールしても構いません。

git clone https://github.com/pythongosssss/ComfyUI-Custom-Scripts

▼ 1-2. モデルの設置（SD 3.5 L Turbo）

　モデルの種類が混乱しないよう、Text Encoder以外はデフォルトの場所にディレクトリを作成して、その下に設置する方針をとっています。

　Stability AIが提供するStable Diffusion 3.5のモデルは、Text Encoderが含まれていません。筆者は設置場所を「checkpoints」から「unet」に変更していますので、予めご了承ください。

Stable Diffusion 3.5 Large Turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
Stable Diffusion 3.5シリーズでは唯一、4 Stepsで高速な生成ができるモデルです。ダウンロードの許可が必要なので、下記にて別のURLを紹介します。
sd3.5_large_turbo.safetensors
→ ComfyUI\models\unet\sd35l へ移動
Stable Diffusion 3.5 Large Turbo（Copy）
https://civitai.com/models/878645/stable-diffusion-35-large-turbo?modelVersionId=983611
Civitaiに掲載されたコピーです。こちら（Hash AUTOV1: 294D4BDF）は、筆者がオリジナルと同一であることを確認済みです。ファイル名がオリジナルとは異なるので、気になる場合は修正してください。
stableDiffusion35_largeTurbo.safetensors
→ ComfyUI\models\unet\sd35l へ移動

▼ 1-3. モデルの設置（SDXL）

　モデルの種類が混乱しないよう、ModelとLoRAはデフォルトの場所にディレクトリを作成して、その下に設置する方針をとっています。Pony系モデルは特有のタグを持つため「sdxl_p」として、「sdxl」とは区別しています。

EvaAnimeMix Pony XL v0.1
https://civitai.com/models/858270
今回利用するPony系のSDXLモデルです。もちろん、他のモデルを利用していただいても構いません。
evaanimemixPonyXL_v01.safetensors
→ ComfyUI\models\checkpoints\sdxl_p へ移動
PCM（Phased Consistency Model）
https://huggingface.co/wangfuyun/PCM_Weights
SDXL、SD1.5、SD3にて低Steps生成が行えます。扱いやすいSmallCFG版と、NegativePromptが使用できるNormalCFG版があります。通常は前者をおすすめします。ここでは8 Steps版を利用します。
pcm_sdxl_smallcfg_8step_converted.safetensors
pcm_sdxl_normalcfg_8step_converted.safetensors
→ ComfyUI\models\loras\sdxl へ移動

▼ 1-4. Text EncoderとVAEの設置（SD 3.5）

　Stable DIffusion 3.5向けのclip_g、clip_lやt5xxl、VAEを設置済みの方は読み飛ばしてください。Stable DIffusion 3.5はModel以外にも必要なファイルがあるので、設置方法を簡単に説明します。

　Text Encoderのt5xxlはいずれかのみでも構いません。ComfyUI開発元は、メインRAMが32GB以上であればfp16を勧めています。

Text Encoder
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8
text_encoders\clip_g.safetensors
text_encoders\clip_l.safetensors
text_encoders\t5xxl_*.safetensors （いずれか、メインRAMが十分ならfp16を選択）
→ ComfyUI\models\clip へ移動

　VAEも設置します。

VAE
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
ダウンロードの許可が必要なので、下記にて別のURLを紹介します。
vae\diffusion_pytorch_model.safetensors
→ ComfyUI\models\vae\sd35 へ移動
VAE（Copy）
https://civitai.com/models/880208?modelVersionId=986506
こちら（Hash AUTOV1: 36EEBF78）は、筆者がオリジナルと同一であることを確認済みです。ファイル名を変更するかどうかはお任せします。
sd35Fusion8StepsMergeFull_vae.safetensors
→ ComfyUI\models\vae\sd35 へ移動

▼ 1-5. SDXLのVAE

　一部のSDXLモデルは、VAEを別途適用しないと正しい出力が行えないようです。意図的な場合を除き共通のVAEを利用するので、常時適用することをおすすめします。

　参考まで、本家のSDXL 1.0のVAEには問題があったので、現在掲載されているのはSDXL 0.9のVAEです。

SDXL - VAE
https://huggingface.co/stabilityai/sdxl-vae
sdxl_vae.safetensors
→ ComfyUI\models\vae\sdxl へ移動

■ 2. ワークフローと出力

▼ 2-1. 概要

　Stable Diffusion 3.5 Large Turboによるt2iの生成を行い（デフォルトは1024x576）、指定の倍率（デフォルトは1.5倍）に拡大した上で、SDXLによるi2iの生成を行います。

SD 3.5 L Turboの画像も保存したい場合は、右上にある「Save Image」のノードをクリックして選択状態にしてから、Ctrl+Mを押してノードのミュートを解除してください。
右下にある「Save Image」のノードをミュートすると、SD 3.5 L Turbo側のみを回すことができます。前述の画像の保存とセットで活用できます。
上段の「KSampler」にある「control_after_generate」を「fixed」に変更すると、「seed」が固定されます。
例えば、良いと思う構図で出力された場合は、その画像をUIにドラッグ＆ドロップしてからseedを固定にすると、SDXL側のみを回すことができます。
SD 3.5は1段目で使用するため、SD 3.5 M/L Turboの記事で用いたNegative Prompt側の一部ノードを省いています。

▼ 2-2. PCM-SmallCFG版

　SDXL用のLoRAに「pcm_sdxl_smallcfg_8step_converted」を使うバージョンです。下記よりダウンロードできます。t5xxlはfp8を選択しているので、必要があればfp16に変更してください。　

　ワークフローの上側がSD 3.5 L Turboで、下側がSDXLです。SD 3.5 L Turbo側の出力がやや不安定なため、denoiseの値を0.7としています。

　メインのプロンプトは共通です。SD 3.5 L TurboとSDXLそれぞれで、メインの前後に異なるプロンプトを付けられます。デフォルトではそれぞれ「Japanese tv anime screencap, 」と「score_9, score_8_up, score_7_up, source_anime, 」を先頭に入れています。

生成した画像
irregular composition, view from below, face close up shot,
pre-teen 1girl, softly smile, orange eyes, joyful expression, blush cheeks, long sleeves, yellow frill blouse, red purple hair, twin ponytails, light gray mini skirt, socks, pink sneakers,
dynamic pose, running, snuggle up close, small black cat, green eyes cat, hillside grass, blue sky, distant lake, scattered clouds, colorful flower

▼ 2-3. PCM-NormalCFG版

　SDXL用のLoRAに「pcm_sdxl_normalcfg_8step_converted」を使うバージョンです。下記よりダウンロードできます。t5xxlはfp16を選択しているので、必要があればfp8に変更してください。

生成した画像
irregular composition, view from side, cowboy shot, face close up shot,
child 1girl, turn side, look at viewer, gray bustier dress, small floral pattern dress, sleeve less, black chest ribbon, white frill hem, necklace, brown medium long hair, side tied hair, blush cheek, green eyes, smile, sitting on rock, spread arms by side, barefoot,
pitch dark grassland, distant mountain, green tree, late night, starry night sky, black sky, twinkling stars, milkyway, even lighting, soft shadows,

■ 3. おまけ等

▼ 3-1. 画像とプロンプト

　前回の記事で使用したプロンプトを再利用しています。生成はSmallCFG版で行いました。先頭に付けるプロンプトは、ワークフローのデフォルトと同じです。

　1枚目は崩壊する場合が多く、出すのに苦労すると思います。SD 3.5側のSeedをランダムで出して、構図を選んで（Seedを固定して）一定数出してみて、良いのが出なければ粘らずにやり直した方が良さそうです。

pastel color palette, night-time scene, face close up shot, dutch angle, soft lighting,
large room, modern apartment interior, large floor-to-ceiling windows, skyscraper lights, white room lights, white walls, beige round rug, gray flooring, stylish curtains, one small potted plants,
pre-teen 1girl, lying on rug, long brown hair, loose waves, red eyes, blush cheeks, smile, purple night dress, yellow star pattern, short sleeve, white frills, barefoot,

view from below, upper body shot, pastel color,
1girl, gray long hair, smile, close mouth, white sailor uniform, navy blue pleat skirt, red ribbon tie, blue eyes, socks, without shoes, playful pose, swimming, weightless hair flow,
underwater, aquarium, colorful fish, floating jellyfish, coral reef, night, floating bubbles, water ripples,

pastel color palette, view from below, cowboy shot, perspective drawing,
shopping mall, glass dome ceiling, boutique, potted plants, many people,
child girl, smile, look down, close mouth, open gray eyes, hold out one hand, raise one leg, grab hem of skirt, medium brown hair, twin braids, white frilled socks, mary jane shoes, headband, sky blue gothic dress, frill hem, long sleeve, large chest ribbon,

irregular composition, pastel color palette, view from below, close up shot, detailed facial features,
child girl, softly smile, cute expression, close mouth, blush cheeks, light green plaid dress, frill hem, short sleeve, chest ribbon, light brown low pigtails, gray eyes, dynamic pose, hugging large golden retriever, cheek to cheek,
thin path, hillside grass, blue sky, distant lake, scattered clouds, colorful flower,

▼ 3-2. 所感

　Stable Diffusion 3.5 Large Turboは、思っていた以上に扱いづらいモデルでした。そもそもStable Diffusion自体が、追加のチューニングを前提とした設計でないかと思われます。Turboの生成速度は群を抜いて早いので、正確さは2段目のSDXLに任せて「数撃ちゃ当たる」作戦が良いかもしれません。

■ 4. その他

　私が書いた他の記事は、メニューよりたどってください。

　noteのアカウントはメインの@Mayu_Hiraizumiに紐付けていますが、記事に関することはサブアカウントの@riddi0908までお願いします。