ComfyUIでMiaoshouAI Taggerを利用したi2iのUpScale等を試す（SDXL編）

2024年9月18日 22:50

※ Last update 09-18-2024
※ (9-24) 続きの記事（FLUX.1編）を公開しました。
※ 5.にて、様々な画像でi2iを試みていますので、先にご覧いただければと思います。
※ CLIPとVAEを内蔵したモデルであれば、SDXL以外でも動く可能性があります。LoRA適用の箇所とKSamplerの設定を修正してください。
※ 画像のキャプションファイルを一括で作成する最小限のノード構成を、1-6.で紹介しています。
※ カスタムノードの導入方法は、Windows向けに書いてあります。

■ 0. 概要

▼ 0-0. 注意事項

　本記事ではi2i（image to image）を扱っています。i2iそのものが悪いわけではありませんが、他者の権利を侵害しない、ディープフェーク画像を作成しないなど、十分な注意を払ってください。

▼ 0-1. 本記事について

　ComfyUIでt2iのワークフローが自作できるようになり、次にi2i（image to image、画像を元に画像を生成する）を利用したリファインを試しているところです。

　任意の画像でi2iを効率よく実行するために、Tagger（画像をもとにキャプションを作成する）が必要であると考えました。幸い、今夏にComfyUI用のMiaoshouAI Tagger（Microsoft Florence-2モデルに基づく高度な画像キャプションツール）が登場したので、こちらを利用してみます。

▼ 0-2. Microsoft Florence-2について

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

■ 1. MiaoshouAI Taggerの導入

　Gitが導入済みであることを前提としています。MiaoshouAI Taggerの他にComfyUI-Custom-Scriptsも必要になるので、こちらも導入します。

▼ 1-1. ComfyUIへの準備1

　下記URLの拡張機能をインストールして、必要なパッケージを導入します。ComfyUIを終了した状態で始めてください。

MiaoshouAI Tagger for ComfyUI
https://github.com/miaoshouai/ComfyUI-Miaoshouai-Tagger

　コマンドプロンプトを開いてから「ComfyUI\custom_nodes」へ移動して、下記のコマンドを実行します。

git clone https://github.com/miaoshouai/ComfyUI-Miaoshouai-Tagger

　続いて、必要なパッケージをインストールします。下記のコマンドはポータブル版の場合です。筆者の環境では「accelerate」が不足して利用できなかったので追加しました。

..\..\python_embeded\python.exe ..\..\python_embeded\Scripts\pip.exe install -r ComfyUI-Miaoshouai-Tagger\requirements.txt
..\..\python_embeded\python.exe ..\..\python_embeded\Scripts\pip.exe install accelerate

　通常版の場合（ComfyUIのインストール先にvenvディレクトリがある）は、下記のコマンドを順に実行してください。

..\venv\Scripts\activate
pip install -r ComfyUI-Miaoshouai-Tagger\requirements.txt
pip install accelerate
deactivate

　手順が完了したらコマンドプロンプトを閉じます。なお、本当にすぐ閉じてしまう場合は、「deactivate」は不要です。

▼ 1-2. ComfyUIへの準備2（実行不要）

　MiaoshouAI Taggerが使用するモデルは、初回実行時にダウンロードされます。本項の手順で事前ダウンロードもできますが、無理に行う必要はありません（将来、モデルの更新でURLが変わる可能性があります）。

　コマンドプロンプトを開いてから「ComfyUI\models\LLM」へ移動して、下記のコマンドを実行します。モデルは少なくとも片方が必要です。ディスク占有量はbaseが1GB程度、largeが3GB程度です。

git clone https://huggingface.co/MiaoshouAI/Florence-2-base-PromptGen-v1.5
git clone https://huggingface.co/MiaoshouAI/Florence-2-large-PromptGen-v1.5

▼ 1-3. ComfyUIへの準備3

　もし、「ComfyUI\custom_nodes\ComfyUI-Custom-Scripts」のディレクトリがなければ、下記URLの拡張機能もインストールしてください。それなりに利用している方は、既に入っているかもしれません。

ComfyUI-Custom-Scripts
https://github.com/pythongosssss/ComfyUI-Custom-Scripts

　ComfyUIを終了した状態で、コマンドプロンプトを開いてから「ComfyUI\custom_nodes」へ移動して、下記のコマンドを実行します。その後、ComfyUIを起動します。

git clone https://github.com/pythongosssss/ComfyUI-Custom-Scripts

▼ 1-4a. 動作確認用のワークフロー

　簡単なワークフローでTaggerの動作確認を行います。ワークフローのファイルを載せておくので、面倒な方はこちらをComfyUIの画面にドラッグ＆ドロップしてください。なお、今後のMiaoshouAI Taggerのバージョンアップにより、実行前に設定の確認が必要な場合があります（実際に一度ありました）。

▼ 1-4b. ワークフローの作成

　ここからは、1-4a.に掲載したワークフローの作り方です。イメージは1-4c.を参照してください。

　まずはComfyUIを起動して「Clear」でワークフローを消去します。領域内でダブルクリックして検索欄に「load」と入力し、「Load Image」を選択するとノードが追加されます。

　次に、検索欄に「miao」か「miaos」まで入力して、「MiaoshouAI Tagger」を追加します。さらに「Show text」も同じように追加します。見つからない場合は1-3.に戻ってください。

　最後に、下記の画像のように「IMAGE」から「image」へドラッグ＆ドロップして線をつなぎます。「captions」から「text」も同様です。これでワークフローは完成です。

▼ 1-4c. ワークフローの実行

　「Load Image」のノードに画像ファイルをドラッグ＆ドロップするか、「choose file to upload」をクリックしてファイルを選択します。準備ができたらメニューの「Queue Prompt」をクリックします。モデルが無い場合は初回時にダウンロードが発生します。解析は数秒程度で終わり、画像のキャプションが表示されます。

　この先もTaggerの説明が続きますので、必要が無ければ読み飛ばして2.へ進んでいただいても構いません。

　それでは続きです。「caption method」を変更すると、解析後の出力形式が変化します。状況に応じて使い分けてください。下記は「promptgen_base_v1.5」を使用し、「num_beams=4」の場合です。

tagsの場合
1girl, solo, long hair, looking at viewer, blush, smile, bangs, black hair, dress, hair ornament, standing, full body, flower, ponytail, hairband, outdoors, sky, shoes, day, puffy sleeves, water, black footwear, black dress, tree, blue sky, grass, black shoes, dress with white trim, nature, grassy field, yellow flower, green dress, lake, green headband
simpleの場合
a cute girl in a green dress standing by a river surrounded by flowers
structuredの場合
a serene scene of a young girl standing by a calm lake surrounded by vibrant flowers, the girl, positioned in the center of the image, is facing the viewer with a gentle smile on her face, her brown eyes are locked onto the viewer, exuding a sense of calmness, her long, black hair cascades down her back, styled in a neat manner, she wears a green dress with white trim, black shoes, and a bow on her head, in the background, a serene lake and lush greenery create a peaceful atmosphere, while the flowers in the foreground add a touch of whimsy to the scene
detailedの場合
a digital illustration in an anime style, featuring a young girl with long, dark brown hair tied in a high ponytail with a green bow, she has large, expressive brown eyes and a gentle, inviting smile, she is dressed in a light green, short-sleeved dress with a white lace trim and puffed sleeves, the dress has a round neckline and a frilly hem, she wears black high-heeled shoes with white socks, the background depicts a serene, pastoral scene with a calm, blue lake in the foreground, surrounded by lush green foliage and colorful flowers in various stages of bloom, the sky is clear, with a few distant mountains visible in the distance, the overall mood of the illustration is peaceful and serene
mixedの場合
a digital illustration in an anime style, featuring a young girl with long, dark brown hair tied in a high ponytail with a green bow, she has large, expressive brown eyes and a gentle smile on her face, she is dressed in a light green, short-sleeved dress with a white lace trim and puffed sleeves, the dress has a frilly hem and a delicate lace trim around the neckline and hem, she wears black high-heeled shoes with white lace tops, the background depicts a serene, pastoral setting with a calm lake in the distance, surrounded by lush green trees and vibrant flowers in full bloom, the sky is clear with a few distant mountains, adding a sense of tranquility and natural beauty to the scene, the overall mood is serene and peaceful, with a touch of fantasy, the illustration is highly detailed, with smooth shading and a soft, pastel color palette, typical of modern digital anime art, the image exudes a whimsical and dreamlike quality, enhanced by the softness of the girl's delicate features and the serene nature of the setting

1girl, solo, long hair, looking at viewer, smile, bangs, black hair, dress, hair bow, standing, full body, flower, hairband, shoes, outdoors, sky, day, black footwear, water, black dress, tree, blue sky, grass, dress lift, green dress, grassy field, pink flower, yellow flower

▼ 1-5a. カスタムノードMiaoshouAI Taggerの説明

　「MiaoshouAI Tagger」のノードについて、扱い方を確認したので記載します。ただし、一部において厳密な確認ができていませんのでご了承ください。

▼ 1-5b. MiaoshouAI Taggerの説明（入力側）

　まずは入力側です。キャプションファイルを作成する場合を除き、通常は「images」のみを使用します。

images
解析をする画像のイメージを入力します。画像の入力はこちらのほかに、ノード内で「folder_path」を指定する方法もあります。
filenames
「images」に入力がある場合、保存するキャプションファイルの名前を指定できます。拡張子は付与されません。接続元から送られた内容が空の場合はエラーになります。こちらに接続しない場合のファイル名は「000.txt」から始まるようです。
captions
解析したキャプションの先頭に挿入したい文字列を指定します。後に紹介する「prefix_caption」よりも前に入ります。

▼ 1-5c. MiaoshouAI Taggerの説明（出力側）

　次に出力側です。通常は「captions」のみを使用します。

images
解析した画像のイメージが出力されます。
filenames
MiaoshouAI Save Tagsへ接続するためのもので、保存するキャプションファイル名が出力されます。Taggerへの入力や設定によって内容が変化し、入力側の「filenames」が出てくるか、自動的に「000.txt」等が出力されるか、「folder_path」から読み込まれた画像ファイル名を元にするかが決まるようです。
captions
画像のキャプション等が出力されます。内容は「入力のcaptions、prefix_caption、画像のキャプション、suffix_caption」が連結されたものです。
folder_path
ノード内の「folder_path」の内容が出力されるようです。
batch_size
解析した画像の数が出力されます。

▼ 1-5c. MiaoshouAI Taggerの説明（ノード内）

　次はノード内の上部の設定です。主に動作を指定します。

model
解析に利用するモデルを指定します。現在は二種類あります。
folder_path
画像を一括で入力したい場合は、画像ファイルのあるパス（ディレクトリ）を指定します。
caption_method
タグ付けの方法を指定します。1-4.にて出力例を記載しています。
max_new_tokens
この値を減らすと、captionsの出力長を制限できます。実際には、あふれた分が単純に削除されるように見えます。
num_beams
ビームサーチで考慮する候補の数で、デフォルトは4です。増やすと画像のキャプションの質が上がる可能性もありますが、万能ではありません。挙動の変化を逆手に取り、出力のキャプションを変える目的で利用できそうです。
random_prompt
詳細は不明です。値が「always」になっている場合、このノードが常に実行される可能性があるようです。現在のところ、キャプションの出力がランダム性を帯びることは無いようにみえます。ひとまず「never」にしておき、気にしないのが良いでしょう。

　最後にノード内の下部です。

prefix_caption
画像のキャプションの前に挿入したい文字列を指定します。入力のcaptionsの内容は、これよりも前に挿入されます。
suffix_caption
画像のキャプションの後に挿入したい文字列を指定します。
replace_tags
画像のキャプションを置換したい場合に指定します。基本フォーマットは「before1:after1;before2:after2;…」で、beforeの内容をafterに置換します。afterは空白にすることもできます。最後のセミコロンは省略してください。カンマやスペースを考慮して含めないと残ってしまうので注意してください。

▼ 1-6. 補足：画像ファイルの一括タグ付けを行う場合

　カスタムノード「MiaoshouAI Tagger」と「MiaoshouAI Save Tags」のみを利用して、複数の画像ファイルから一括でキャプションファイルを作成することができます。

　詳しい説明は行いませんが、実行可能な最小限のワークフローを掲載しておきます。下記の画面のように、入力する画像の場所と出力するキャプションファイルの場所を設定してください。

■ 2. 利用するモデルについて

　本記事のワークフローで利用したSDXLモデルを紹介します。これを利用することは必須ではありませんが、別のモデルの場合はKSamplerの設定を見直す必要があるかもしれません。

▼ 2-1. 利用するモデル（SDXL）

　SDXLモデルのJitQは出力のスタイルに特徴があります。また、Pony系でありながら、品質タグは「source_anime, best quality」のみで済みます。

JitQ / SDXL Pony
https://civitai.com/models/132246?modelVersionId=718280
jitq_pony.safetensors
ComfyUI\models\checkpoints へ移動

　SDXL Flash LoRAにより、6～9 Stepsでの高速な生成ができます。Negative Promptが使えませんので、どうしてもという場合はPCM（Phased Consistency Model） LoRAのNormalCFG版を検討するか、低Steps用のLoRAを外してください。

SDXL Flash LoRA
https://huggingface.co/sd-community/sdxl-flash-lora
sdxl-flash-lora.safetensors
ComfyUI\models\loras 下へ移動

■ 3. SDXL版のi2i（Taggerは表示のみ）

　シンプルなi2iのワークフローと実行例を掲載します。全体的な流れは本項に記載し、4.では簡略化します。

　ワークフローは、LoRAに気をつければSD 1.5等でも使用できるかもしれません。なお、i2iで処理する前に指定の画素数へリサイズする処理を入れています。出力の解像度を上げたい場合は変更してください。

▼ 3-1. 概要（ワークフロー、画像付）

　画像ファイルとプロンプトを入力して、単純なi2iを行います。表示されたキャプションを参考にプロンプトを編集して、調整しながら生成を続けることもできます。

　まずはワークフロー本体です。必要なカスタムノードが入っていないとエラーが出ますので、その場合は1.の手順を見直してください。

　こちらをComfyUIの画面にドラッグ＆ドロップすると、下記画像の状態になります。本記事で利用することを想定し、はじめからプロンプト（Positive Prompt）が入った状態になっています。

　次に、i2iで使用する画像です。XのGrok上で生成しました。下記よりダウンロードしてご利用いただけます。

　画像と生成時のプロンプトを掲載しておきます。

Japanese flat anime, face close up shot, infant girl, mint green, frilly Victorian-inspired dress, white lace trim, ruffled knee-length skirt, ribbon hairband, ankle socks, black mary jane shoes, long hair, smile, around lakeside, hand on cheek, blue sky, water ripples, colorful flower

▼ 3-2. フローの設定1

　そのままでは動作しないと思いますので、一つずつ見直します。無事動作したら、以降はワークフローのファイルの代わりに、生成した画像をドラッグ＆ドロップしてください。そのときの内容が復元されます。

　まずはモデルの選択です。名前の欄をクリックして一覧から選ぶか、左右の矢印で切り替えます。LoRAを変更した場合は強度を適宜変更してください。「Load VAE」は、接続していなければそのままで構いません。

　LoRAを利用しない場合の操作を説明します。まず、「LoraLoaderModelOnly」の左上にある「model」から、何もない箇所までドラッグ＆ドロップして接続を切ります。

Load CheckpointとLoraLoaderModelOnlyの接続を切る

　同じように「MODEL」のRerouteノードへの接続先を切ったあと、「Load Checkpoint」の「MODEL」からRerouteノードまでドラッグ＆ドロップして接続します。

　独自のVAEを利用したい場合も、同じ要領で接続を変更してください。

　Taggerによる解析が不要な場合は、Tagger本体と隣にあるキャプション表示のノードを選択してCtrl+'M'を押してください。下記画面のように半透過でミュートされた状態となり、動作を停止します。もう一度押すと解除されます。

▼ 3-3. 実行

　設定が正しければ、メニューの「Queue Prompt」をクリックするとフローが実行されます。うまくいかない場合は、該当するノードが目立つ色に変化しますので見直してください。

　処理が始まると、キャプションが表示された後でi2iの生成が行われます。低Stepsのため、それほど時間はかからないと思います。

　引き続き、ワークフローの説明や補足を行います。その前に、生成した画像を掲載しておきます。元の画像にだいたい似ていて、i2iを行ったことは明らかです。

source_anime, best quality, Japanese flat anime, face close up shot, infant girl, mint green, frilly Victorian-inspired dress, white lace trim, ruffled knee-length skirt, ribbon hairband, ankle socks, black mary jane shoes, long hair, smile, around lakeside, hand on cheek, blue sky, water ripples, colorful flower

▼ 3-4. フローの設定2

　入力画像をi2iで処理する前に「ImageScaleToTotalPixels」を通し、縦横比を維持したまま一定の画素数にリサイズしています。デフォルトは低めの1MPです。画素数を上げると品質も向上します（ある程度までは）ので、GPUメモリの使用量や実行時間を考慮しながら調整してください。

　その他、ImageScaleToTotalPixelsの代わりに利用できるノードもあります。そちらに差し替えたり、間に挟んだり、Cropを追加したりするのも良いと思います。ESRGAN等のアップスケールを入れたりKSamplerを多段にしたりすることで、さらに品質を上げられます。

▼ 3-5. フローの設定3

　残りの箇所についても説明します。

　生成に関する設定は、既に説明したモデルやアップスケールのほか、下記のものがあります。

Caption by Tagger
参考のため、画像のキャプションを表示します。生成には使用していません。
Positive Prompt
画像を生成するためのプロンプトです。入力画像に応じて適宜変更する必要がありますが、実際にはdenoiseが中程度か低ければプロンプトが無くてもそれなりに動作します。
入力画像に無い要素を故意に入れることもできます。ただし、何でも想定通りにいくわけではありません。入力画像に要素が入り込む余地があったり、denoiseの値が高かったりすると成功率は上がります。
Negative Prompt
空白にしています。SDXL Flashではネガティブプロンプトが効きません。効く場合は適宜入力することができます。
seed
シード値です。denoiseの値が低いと入力画像に近づくため、値ごとの変化が少なくなります。
control_after_generate
Queue Promptを押した後の挙動を設定します。increment、decrement、randomizeのいずれかの場合は、seedの値を変更します。fixedの場合は変更しません。
steps
生成時のステップを繰り返す回数です。低いと生成画像の品質が下がります。SDXL Flashの場合は6～9が推奨されています。
cfg
CFG Scaleの値です。SDXL Flashの場合は2.5～3.5が推奨されています。低Stepsではない場合、モデルにもよりますが7前後を基本とします。
sampler_name, scheduler
サンプラーとスケジューラーの選択です。モデルによって相性があるので、適した選択を行う必要があります。
低Steps生成の場合、「eulerやdpmpp_2m_sde等」と「sgm_uniform」の組み合わせが基本です。
denoise
入力画像にノイズを乗せる量で、i2iの場合はこれにより生成結果が変わります。基本は0.5前後で、0に近づくほど入力画像の影響が大きくなり、1に近づくほど小さくなります（構造等を無視されやすくなる）。

▼ 3-6. Tips

　ComfyUIは無駄な処理を行わない設計になっています。

処理内容が前回と同一になる場合（例：モデルの読み込み）、ComfyUIはそのノードの処理をしません。
最終出力のノードをミュートすると、途中にある実行不要なノードは処理しません。

　例えば、「Save Image」のノードをミュート（選択してCtrl+'M'）すると、生成を行わずにTaggerのみを動作させられます。この挙動は一見わかりにくいですが、様々な場面で応用できます（例：KSamplerの1段目のseedを固定にして、2段目のみを動作させる）。

■ 4. SDXL版のi2i（Taggerの出力を適用）

　説明を大幅に省略しているので、全体の流れは3.を参照してください。

▼ 4-1. 概要（ワークフロー）

　画像ファイルを入力して、画像のキャプションをi2iのプロンプトとして使用するバージョンです。画像は任意のものが使用できます。

▼ 4-2. フローの設定

　プロンプト（Positive Prompt）の代わりに「First caption」を設けました。モデルのクオリティタグ等を記述しておくことができます。

　出力されるキャプションの内容は、下記を連結したものです。

First captionの値
prefix captionの値
解析したキャプション（replace tagsの置換を反映）
suffix captionの値

　画像のキャプションを置換したい場合は、内容を見ながら「replace tags」に入力します。既に入っている入力例をすべて削除してから、下記の要領で記述を行ってください。

AAA:BBB
AAAをBBBに置換する
AAA:BBB;CCC:DDD
AAAをBBBに置換して、CCCをDDDに置換する
AAA:BBB;CCC:DDD;EEE:FFF;…
AAAをBBBに置換して、CCCをDDDに置換して、EEEを…

▼ 4-3. 実行例における設定

　実行例ではワークフローを読み込んだ後、設定を少し変更しています。本項ではその説明を行います。

　まず、「First caption」に、モデルのクオリティタグである「source_anime, best quality, 」を入力します。「prefix caption」へ入力しても構いません。

　次に「replace tags」を調整していきます。当初のプロンプトは下記の内容でした。

1girl, solo, long hair, looking at viewer, blush, smile, bangs, black hair, dress, hair ornament, standing, full body, flower, ponytail, hairband, outdoors, sky, shoes, day, puffy sleeves, water, black footwear, black dress, tree, blue sky, grass, black shoes, dress with white trim, nature, grassy field, yellow flower, green dress, lake, green headband

　ここでは、太字の箇所を下記のように置換します。入力画像の内容から、極端な変化を伴わないところがポイントです（成功率を上げるため）。