ComfyUIでMiaoshouAI Taggerを利用したi2iのUpScale等を試す(SDXL編)
※ Last update 09-18-2024
※ (9-24) 続きの記事(FLUX.1編)を公開しました。
※ 5.にて、様々な画像でi2iを試みていますので、先にご覧いただければと思います。
※ CLIPとVAEを内蔵したモデルであれば、SDXL以外でも動く可能性があります。LoRA適用の箇所とKSamplerの設定を修正してください。
※ 画像のキャプションファイルを一括で作成する最小限のノード構成を、1-6.で紹介しています。
※ カスタムノードの導入方法は、Windows向けに書いてあります。
■ 0. 概要
▼ 0-0. 注意事項
本記事ではi2i(image to image)を扱っています。i2iそのものが悪いわけではありませんが、他者の権利を侵害しない、ディープフェーク画像を作成しないなど、十分な注意を払ってください。
▼ 0-1. 本記事について
ComfyUIでt2iのワークフローが自作できるようになり、次にi2i(image to image、画像を元に画像を生成する)を利用したリファインを試しているところです。
任意の画像でi2iを効率よく実行するために、Tagger(画像をもとにキャプションを作成する)が必要であると考えました。幸い、今夏にComfyUI用のMiaoshouAI Tagger(Microsoft Florence-2モデルに基づく高度な画像キャプションツール)が登場したので、こちらを利用してみます。
▼ 0-2. Microsoft Florence-2について
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
■ 1. MiaoshouAI Taggerの導入
Gitが導入済みであることを前提としています。MiaoshouAI Taggerの他にComfyUI-Custom-Scriptsも必要になるので、こちらも導入します。
▼ 1-1. ComfyUIへの準備1
下記URLの拡張機能をインストールして、必要なパッケージを導入します。ComfyUIを終了した状態で始めてください。
MiaoshouAI Tagger for ComfyUI
https://github.com/miaoshouai/ComfyUI-Miaoshouai-Tagger
コマンドプロンプトを開いてから「ComfyUI\custom_nodes」へ移動して、下記のコマンドを実行します。
git clone https://github.com/miaoshouai/ComfyUI-Miaoshouai-Tagger
続いて、必要なパッケージをインストールします。下記のコマンドはポータブル版の場合です。筆者の環境では「accelerate」が不足して利用できなかったので追加しました。
..\..\python_embeded\python.exe ..\..\python_embeded\Scripts\pip.exe install -r ComfyUI-Miaoshouai-Tagger\requirements.txt
..\..\python_embeded\python.exe ..\..\python_embeded\Scripts\pip.exe install accelerate
通常版の場合(ComfyUIのインストール先にvenvディレクトリがある)は、下記のコマンドを順に実行してください。
..\venv\Scripts\activate
pip install -r ComfyUI-Miaoshouai-Tagger\requirements.txt
pip install accelerate
deactivate
手順が完了したらコマンドプロンプトを閉じます。なお、本当にすぐ閉じてしまう場合は、「deactivate」は不要です。
▼ 1-2. ComfyUIへの準備2(実行不要)
MiaoshouAI Taggerが使用するモデルは、初回実行時にダウンロードされます。本項の手順で事前ダウンロードもできますが、無理に行う必要はありません(将来、モデルの更新でURLが変わる可能性があります)。
コマンドプロンプトを開いてから「ComfyUI\models\LLM」へ移動して、下記のコマンドを実行します。モデルは少なくとも片方が必要です。ディスク占有量はbaseが1GB程度、largeが3GB程度です。
git clone https://huggingface.co/MiaoshouAI/Florence-2-base-PromptGen-v1.5
git clone https://huggingface.co/MiaoshouAI/Florence-2-large-PromptGen-v1.5
▼ 1-3. ComfyUIへの準備3
もし、「ComfyUI\custom_nodes\ComfyUI-Custom-Scripts」のディレクトリがなければ、下記URLの拡張機能もインストールしてください。それなりに利用している方は、既に入っているかもしれません。
ComfyUI-Custom-Scripts
https://github.com/pythongosssss/ComfyUI-Custom-Scripts
ComfyUIを終了した状態で、コマンドプロンプトを開いてから「ComfyUI\custom_nodes」へ移動して、下記のコマンドを実行します。その後、ComfyUIを起動します。
git clone https://github.com/pythongosssss/ComfyUI-Custom-Scripts
▼ 1-4a. 動作確認用のワークフロー
簡単なワークフローでTaggerの動作確認を行います。ワークフローのファイルを載せておくので、面倒な方はこちらをComfyUIの画面にドラッグ&ドロップしてください。なお、今後のMiaoshouAI Taggerのバージョンアップにより、実行前に設定の確認が必要な場合があります(実際に一度ありました)。
▼ 1-4b. ワークフローの作成
ここからは、1-4a.に掲載したワークフローの作り方です。イメージは1-4c.を参照してください。
まずはComfyUIを起動して「Clear」でワークフローを消去します。領域内でダブルクリックして検索欄に「load」と入力し、「Load Image」を選択するとノードが追加されます。
次に、検索欄に「miao」か「miaos」まで入力して、「MiaoshouAI Tagger」を追加します。さらに「Show text」も同じように追加します。見つからない場合は1-3.に戻ってください。
最後に、下記の画像のように「IMAGE」から「image」へドラッグ&ドロップして線をつなぎます。「captions」から「text」も同様です。これでワークフローは完成です。
▼ 1-4c. ワークフローの実行
「Load Image」のノードに画像ファイルをドラッグ&ドロップするか、「choose file to upload」をクリックしてファイルを選択します。準備ができたらメニューの「Queue Prompt」をクリックします。モデルが無い場合は初回時にダウンロードが発生します。解析は数秒程度で終わり、画像のキャプションが表示されます。
この先もTaggerの説明が続きますので、必要が無ければ読み飛ばして2.へ進んでいただいても構いません。
それでは続きです。「caption method」を変更すると、解析後の出力形式が変化します。状況に応じて使い分けてください。下記は「promptgen_base_v1.5」を使用し、「num_beams=4」の場合です。
tagsの場合
1girl, solo, long hair, looking at viewer, blush, smile, bangs, black hair, dress, hair ornament, standing, full body, flower, ponytail, hairband, outdoors, sky, shoes, day, puffy sleeves, water, black footwear, black dress, tree, blue sky, grass, black shoes, dress with white trim, nature, grassy field, yellow flower, green dress, lake, green headbandsimpleの場合
a cute girl in a green dress standing by a river surrounded by flowersstructuredの場合
a serene scene of a young girl standing by a calm lake surrounded by vibrant flowers, the girl, positioned in the center of the image, is facing the viewer with a gentle smile on her face, her brown eyes are locked onto the viewer, exuding a sense of calmness, her long, black hair cascades down her back, styled in a neat manner, she wears a green dress with white trim, black shoes, and a bow on her head, in the background, a serene lake and lush greenery create a peaceful atmosphere, while the flowers in the foreground add a touch of whimsy to the scenedetailedの場合
a digital illustration in an anime style, featuring a young girl with long, dark brown hair tied in a high ponytail with a green bow, she has large, expressive brown eyes and a gentle, inviting smile, she is dressed in a light green, short-sleeved dress with a white lace trim and puffed sleeves, the dress has a round neckline and a frilly hem, she wears black high-heeled shoes with white socks, the background depicts a serene, pastoral scene with a calm, blue lake in the foreground, surrounded by lush green foliage and colorful flowers in various stages of bloom, the sky is clear, with a few distant mountains visible in the distance, the overall mood of the illustration is peaceful and serenemixedの場合
a digital illustration in an anime style, featuring a young girl with long, dark brown hair tied in a high ponytail with a green bow, she has large, expressive brown eyes and a gentle smile on her face, she is dressed in a light green, short-sleeved dress with a white lace trim and puffed sleeves, the dress has a frilly hem and a delicate lace trim around the neckline and hem, she wears black high-heeled shoes with white lace tops, the background depicts a serene, pastoral setting with a calm lake in the distance, surrounded by lush green trees and vibrant flowers in full bloom, the sky is clear with a few distant mountains, adding a sense of tranquility and natural beauty to the scene, the overall mood is serene and peaceful, with a touch of fantasy, the illustration is highly detailed, with smooth shading and a soft, pastel color palette, typical of modern digital anime art, the image exudes a whimsical and dreamlike quality, enhanced by the softness of the girl's delicate features and the serene nature of the setting
1girl, solo, long hair, looking at viewer, smile, bangs, black hair, dress, hair bow, standing, full body, flower, hairband, shoes, outdoors, sky, day, black footwear, water, black dress, tree, blue sky, grass, dress lift, green dress, grassy field, pink flower, yellow flower
▼ 1-5a. カスタムノードMiaoshouAI Taggerの説明
「MiaoshouAI Tagger」のノードについて、扱い方を確認したので記載します。ただし、一部において厳密な確認ができていませんのでご了承ください。
▼ 1-5b. MiaoshouAI Taggerの説明(入力側)
まずは入力側です。キャプションファイルを作成する場合を除き、通常は「images」のみを使用します。
images
解析をする画像のイメージを入力します。画像の入力はこちらのほかに、ノード内で「folder_path」を指定する方法もあります。filenames
「images」に入力がある場合、保存するキャプションファイルの名前を指定できます。拡張子は付与されません。接続元から送られた内容が空の場合はエラーになります。こちらに接続しない場合のファイル名は「000.txt」から始まるようです。captions
解析したキャプションの先頭に挿入したい文字列を指定します。後に紹介する「prefix_caption」よりも前に入ります。
▼ 1-5c. MiaoshouAI Taggerの説明(出力側)
次に出力側です。通常は「captions」のみを使用します。
images
解析した画像のイメージが出力されます。filenames
MiaoshouAI Save Tagsへ接続するためのもので、保存するキャプションファイル名が出力されます。Taggerへの入力や設定によって内容が変化し、入力側の「filenames」が出てくるか、自動的に「000.txt」等が出力されるか、「folder_path」から読み込まれた画像ファイル名を元にするかが決まるようです。captions
画像のキャプション等が出力されます。内容は「入力のcaptions、prefix_caption、画像のキャプション、suffix_caption」が連結されたものです。folder_path
ノード内の「folder_path」の内容が出力されるようです。batch_size
解析した画像の数が出力されます。
▼ 1-5c. MiaoshouAI Taggerの説明(ノード内)
次はノード内の上部の設定です。主に動作を指定します。
model
解析に利用するモデルを指定します。現在は二種類あります。folder_path
画像を一括で入力したい場合は、画像ファイルのあるパス(ディレクトリ)を指定します。caption_method
タグ付けの方法を指定します。1-4.にて出力例を記載しています。max_new_tokens
この値を減らすと、captionsの出力長を制限できます。実際には、あふれた分が単純に削除されるように見えます。num_beams
ビームサーチで考慮する候補の数で、デフォルトは4です。増やすと画像のキャプションの質が上がる可能性もありますが、万能ではありません。挙動の変化を逆手に取り、出力のキャプションを変える目的で利用できそうです。random_prompt
詳細は不明です。値が「always」になっている場合、このノードが常に実行される可能性があるようです。現在のところ、キャプションの出力がランダム性を帯びることは無いようにみえます。ひとまず「never」にしておき、気にしないのが良いでしょう。
最後にノード内の下部です。
prefix_caption
画像のキャプションの前に挿入したい文字列を指定します。入力のcaptionsの内容は、これよりも前に挿入されます。suffix_caption
画像のキャプションの後に挿入したい文字列を指定します。replace_tags
画像のキャプションを置換したい場合に指定します。基本フォーマットは「before1:after1;before2:after2;…」で、beforeの内容をafterに置換します。afterは空白にすることもできます。最後のセミコロンは省略してください。カンマやスペースを考慮して含めないと残ってしまうので注意してください。
▼ 1-6. 補足:画像ファイルの一括タグ付けを行う場合
カスタムノード「MiaoshouAI Tagger」と「MiaoshouAI Save Tags」のみを利用して、複数の画像ファイルから一括でキャプションファイルを作成することができます。
詳しい説明は行いませんが、実行可能な最小限のワークフローを掲載しておきます。下記の画面のように、入力する画像の場所と出力するキャプションファイルの場所を設定してください。
■ 2. 利用するモデルについて
本記事のワークフローで利用したSDXLモデルを紹介します。これを利用することは必須ではありませんが、別のモデルの場合はKSamplerの設定を見直す必要があるかもしれません。
▼ 2-1. 利用するモデル(SDXL)
SDXLモデルのJitQは出力のスタイルに特徴があります。また、Pony系でありながら、品質タグは「source_anime, best quality」のみで済みます。
JitQ / SDXL Pony
https://civitai.com/models/132246?modelVersionId=718280
jitq_pony.safetensors
ComfyUI\models\checkpoints へ移動
SDXL Flash LoRAにより、6~9 Stepsでの高速な生成ができます。Negative Promptが使えませんので、どうしてもという場合はPCM(Phased Consistency Model) LoRAのNormalCFG版を検討するか、低Steps用のLoRAを外してください。
SDXL Flash LoRA
https://huggingface.co/sd-community/sdxl-flash-lora
sdxl-flash-lora.safetensors
ComfyUI\models\loras 下へ移動
■ 3. SDXL版のi2i(Taggerは表示のみ)
シンプルなi2iのワークフローと実行例を掲載します。全体的な流れは本項に記載し、4.では簡略化します。
ワークフローは、LoRAに気をつければSD 1.5等でも使用できるかもしれません。なお、i2iで処理する前に指定の画素数へリサイズする処理を入れています。出力の解像度を上げたい場合は変更してください。
▼ 3-1. 概要(ワークフロー、画像付)
画像ファイルとプロンプトを入力して、単純なi2iを行います。表示されたキャプションを参考にプロンプトを編集して、調整しながら生成を続けることもできます。
まずはワークフロー本体です。必要なカスタムノードが入っていないとエラーが出ますので、その場合は1.の手順を見直してください。
こちらをComfyUIの画面にドラッグ&ドロップすると、下記画像の状態になります。本記事で利用することを想定し、はじめからプロンプト(Positive Prompt)が入った状態になっています。
次に、i2iで使用する画像です。XのGrok上で生成しました。下記よりダウンロードしてご利用いただけます。
画像と生成時のプロンプトを掲載しておきます。
▼ 3-2. フローの設定1
そのままでは動作しないと思いますので、一つずつ見直します。無事動作したら、以降はワークフローのファイルの代わりに、生成した画像をドラッグ&ドロップしてください。そのときの内容が復元されます。
まずはモデルの選択です。名前の欄をクリックして一覧から選ぶか、左右の矢印で切り替えます。LoRAを変更した場合は強度を適宜変更してください。「Load VAE」は、接続していなければそのままで構いません。
LoRAを利用しない場合の操作を説明します。まず、「LoraLoaderModelOnly」の左上にある「model」から、何もない箇所までドラッグ&ドロップして接続を切ります。
同じように「MODEL」のRerouteノードへの接続先を切ったあと、「Load Checkpoint」の「MODEL」からRerouteノードまでドラッグ&ドロップして接続します。
独自のVAEを利用したい場合も、同じ要領で接続を変更してください。
Taggerによる解析が不要な場合は、Tagger本体と隣にあるキャプション表示のノードを選択してCtrl+'M'を押してください。下記画面のように半透過でミュートされた状態となり、動作を停止します。もう一度押すと解除されます。
▼ 3-3. 実行
設定が正しければ、メニューの「Queue Prompt」をクリックするとフローが実行されます。うまくいかない場合は、該当するノードが目立つ色に変化しますので見直してください。
処理が始まると、キャプションが表示された後でi2iの生成が行われます。低Stepsのため、それほど時間はかからないと思います。
引き続き、ワークフローの説明や補足を行います。その前に、生成した画像を掲載しておきます。元の画像にだいたい似ていて、i2iを行ったことは明らかです。
▼ 3-4. フローの設定2
入力画像をi2iで処理する前に「ImageScaleToTotalPixels」を通し、縦横比を維持したまま一定の画素数にリサイズしています。デフォルトは低めの1MPです。画素数を上げると品質も向上します(ある程度までは)ので、GPUメモリの使用量や実行時間を考慮しながら調整してください。
その他、ImageScaleToTotalPixelsの代わりに利用できるノードもあります。そちらに差し替えたり、間に挟んだり、Cropを追加したりするのも良いと思います。ESRGAN等のアップスケールを入れたりKSamplerを多段にしたりすることで、さらに品質を上げられます。
▼ 3-5. フローの設定3
残りの箇所についても説明します。
生成に関する設定は、既に説明したモデルやアップスケールのほか、下記のものがあります。
Caption by Tagger
参考のため、画像のキャプションを表示します。生成には使用していません。Positive Prompt
画像を生成するためのプロンプトです。入力画像に応じて適宜変更する必要がありますが、実際にはdenoiseが中程度か低ければプロンプトが無くてもそれなりに動作します。
入力画像に無い要素を故意に入れることもできます。ただし、何でも想定通りにいくわけではありません。入力画像に要素が入り込む余地があったり、denoiseの値が高かったりすると成功率は上がります。Negative Prompt
空白にしています。SDXL Flashではネガティブプロンプトが効きません。効く場合は適宜入力することができます。seed
シード値です。denoiseの値が低いと入力画像に近づくため、値ごとの変化が少なくなります。control_after_generate
Queue Promptを押した後の挙動を設定します。increment、decrement、randomizeのいずれかの場合は、seedの値を変更します。fixedの場合は変更しません。steps
生成時のステップを繰り返す回数です。低いと生成画像の品質が下がります。SDXL Flashの場合は6~9が推奨されています。cfg
CFG Scaleの値です。SDXL Flashの場合は2.5~3.5が推奨されています。低Stepsではない場合、モデルにもよりますが7前後を基本とします。sampler_name, scheduler
サンプラーとスケジューラーの選択です。モデルによって相性があるので、適した選択を行う必要があります。
低Steps生成の場合、「eulerやdpmpp_2m_sde等」と「sgm_uniform」の組み合わせが基本です。denoise
入力画像にノイズを乗せる量で、i2iの場合はこれにより生成結果が変わります。基本は0.5前後で、0に近づくほど入力画像の影響が大きくなり、1に近づくほど小さくなります(構造等を無視されやすくなる)。
▼ 3-6. Tips
ComfyUIは無駄な処理を行わない設計になっています。
処理内容が前回と同一になる場合(例:モデルの読み込み)、ComfyUIはそのノードの処理をしません。
最終出力のノードをミュートすると、途中にある実行不要なノードは処理しません。
例えば、「Save Image」のノードをミュート(選択してCtrl+'M')すると、生成を行わずにTaggerのみを動作させられます。この挙動は一見わかりにくいですが、様々な場面で応用できます(例:KSamplerの1段目のseedを固定にして、2段目のみを動作させる)。
■ 4. SDXL版のi2i(Taggerの出力を適用)
説明を大幅に省略しているので、全体の流れは3.を参照してください。
▼ 4-1. 概要(ワークフロー)
画像ファイルを入力して、画像のキャプションをi2iのプロンプトとして使用するバージョンです。画像は任意のものが使用できます。
▼ 4-2. フローの設定
プロンプト(Positive Prompt)の代わりに「First caption」を設けました。モデルのクオリティタグ等を記述しておくことができます。
出力されるキャプションの内容は、下記を連結したものです。
First captionの値
prefix captionの値
解析したキャプション(replace tagsの置換を反映)
suffix captionの値
画像のキャプションを置換したい場合は、内容を見ながら「replace tags」に入力します。既に入っている入力例をすべて削除してから、下記の要領で記述を行ってください。
AAA:BBB
AAAをBBBに置換するAAA:BBB;CCC:DDD
AAAをBBBに置換して、CCCをDDDに置換するAAA:BBB;CCC:DDD;EEE:FFF;…
AAAをBBBに置換して、CCCをDDDに置換して、EEEを…
▼ 4-3. 実行例における設定
実行例ではワークフローを読み込んだ後、設定を少し変更しています。本項ではその説明を行います。
まず、「First caption」に、モデルのクオリティタグである「source_anime, best quality, 」を入力します。「prefix caption」へ入力しても構いません。
次に「replace tags」を調整していきます。当初のプロンプトは下記の内容でした。
1girl, solo, long hair, looking at viewer, blush, smile, bangs, black hair, dress, hair ornament, standing, full body, flower, ponytail, hairband, outdoors, sky, shoes, day, puffy sleeves, water, black footwear, black dress, tree, blue sky, grass, black shoes, dress with white trim, nature, grassy field, yellow flower, green dress, lake, green headband
ここでは、太字の箇所を下記のように置換します。入力画像の内容から、極端な変化を伴わないところがポイントです(成功率を上げるため)。
black hair → purple hair
ponytail → wavy hair
black dress → frill sailor dress
yellow flower → colorful rose
この置換を行うために、「replace tags」へ下記の内容を入力します。
black hair:purple hair;ponytail:wavy hair;black dress:frill sailor dress;yellow flower:colorful rose
最終的には下記画面のようになっているはずです。
▼ 4-4. 実行
4-3.の設定を行った場合の実行結果です。
下記の画像のとおり、髪の色が少し変わり、髪型が少し変わり、咲いている花も変わりました。
■ 5. 画像のリファインを試す
▼ 5-1. 既存リソースの再活用(?)
本記事で利用したモデルがイラスト向けなので、今回はイラスト調に限定しています。FLUX.1で本記事と同じことをやる予定なので、そちらでは色々と試すつもりです。
▼ 5-2. 2年前の生成画像を入力する
2022年の8月下旬よりStable Diffusionで生成を行っているので、当時の画像も残っています。まずは初期の頃の画像を用いてみます。Taggerの出力を適用するワークフローを使用します。
生成した画像の解像度は、ワークフローの初期値の1MP(1024x1024)です。denoiseが0.5程度であれば、モデルによる強力な補正が入るようです。ここで生成された画像を入力に用いると、denoiseの値にもよりますが、多少の変化を伴いながら収束に向かうようです。
▼ 5-3. 1年半前の生成画像を入力する
元画像に記録が無いためモデルは不明ですが、一応Dreamboothの学習が混じっています。
品質に不足を感じたので、生成画像の解像度を1.5MP(1176x1328)に引き上げています。胸の大きさが変わっているのは、キャプションを置換すれば直ると思います。
もちろん、モデルを変えたりスタイルタグを入れたりすると出力が変わります。下記の画像はcocoamixXL v7.1を利用しました。ぱっと見だけでもリアル調に近づいているのが分かります。
▼ 5-4. DALL-E3の生成画像を入力する
ChatGPTで生成した未公開の画像が大量にあるので、その中から適当に選んでみました。
この例では大体うまくいきました。i2iの生成はSDXL自体やモデルの能力に依存しますので、含まれる要素(複雑さも含む)によっては再現性が落ちます。生成画像の解像度は1.5MP(1656x944)に引き上げています。
▼ 5-5. 自分で描いた画像を入力する
下記の画像を入力してみました。なお、入力はここまで厳密でなくても良く、それっぽい形に色を塗った画像や、元画像に対して大雑把に色を塗って修正した画像でも構いません。その場合は、希望する内容をプロンプトに含めると良いでしょう。
少し変な箇所がありますが、気にしないでください。筆者はi2iを行うことがほとんど無かったので、モデルの能力で修正された結果を見るのは興味深いです。再現性を上げるため「, pink chest ribbon」を加えました。
モデルを変えると結果も少しずつ変化しましたが、そのあたりは割愛します。
■ 6. Tips
▼ 6-1. WebブラウザのプラグインSimple Translate
キャプションはすべて英語なので、それをすぐに翻訳できる機能があると便利です。おすすめは「Simple Translate」です。文章を選択するとアイコンが出てくるのでクリックすると、その場で翻訳結果が表示されます。デフォルトはGoogleを使い、DeepLにも対応しています。
Simple Translate (Google Chrome, Microsoft Edge)
https://chromewebstore.google.com/detail/simple-translate/ibplnjkanclpjokhdolnendpplpjiaceSimple Translate (Firefox)
https://addons.mozilla.org/ja/firefox/addon/simple-translate/
■ 7. あとがきっぽいもの
▼ 7-1. 記事について
予定ではFLUX.1を用いるワークフローも掲載するつもりでしたが、先にSDXLのみで出すことにしました。FLUX.1は別の記事にします。
▼ 7-2. 所感
実際にワークフローを使用して、Taggerの意外な欠点と、i2iの性質を再認識させられました。
Taggerをプロンプトに用いると、元の画像に無い要素が入っていた場合に悪影響を及ぼす恐れがある。
denoiseが0.5程度であれば、プロンプトが一切無くても大きな問題は無い。
Taggerをプロンプトに用いつつdenoiseを上げたりt2iを行ったりすると、内容が似ていて異なる画像が生成できる。
▼ 7-3. 結論
記事に載せた以外にも多数の画像で試してみたので、最終的な結論をまとめて終わりにします。
i2iにより、モデルの能力を用いて既存の画像を作り直すような効果が得られる。
SDXLの場合、Taggerの効果は限定的かもしれない。
低解像度や低クオリティの画像はリファインがある程度有効である。ただし、スタイルや内容の変化が許容できることが条件。
■ 8. その他
私が書いた他の記事は、メニューよりたどってください。
noteのアカウントはメインの@Mayu_Hiraizumiに紐付けていますが、記事に関することはサブアカウントの@riddi0908までお願いします。
この記事が気に入ったらサポートをしてみませんか?