見出し画像

ComfyUIでMiaoshouAI Taggerを利用したi2iのUpScale等を試す(SDXL編)

※ Last update 09-18-2024
※ (9-24) 続きの記事(FLUX.1編)を公開しました。
5.にて、様々な画像でi2iを試みていますので、先にご覧いただければと思います。
※ CLIPとVAEを内蔵したモデルであれば、SDXL以外でも動く可能性があります。LoRA適用の箇所とKSamplerの設定を修正してください。
※ 画像のキャプションファイルを一括で作成する最小限のノード構成を、1-6.で紹介しています。
※ カスタムノードの導入方法は、Windows向けに書いてあります。




■ 0. 概要

▼ 0-0. 注意事項

 本記事ではi2i(image to image)を扱っています。i2iそのものが悪いわけではありませんが、他者の権利を侵害しない、ディープフェーク画像を作成しないなど、十分な注意を払ってください。

▼ 0-1. 本記事について

 ComfyUIでt2iのワークフローが自作できるようになり、次にi2i(image to image、画像を元に画像を生成する)を利用したリファインを試しているところです。

 任意の画像でi2iを効率よく実行するために、Tagger(画像をもとにキャプションを作成する)が必要であると考えました。幸い、今夏にComfyUI用のMiaoshouAI TaggerMicrosoft Florence-2モデルに基づく高度な画像キャプションツール)が登場したので、こちらを利用してみます。

▼ 0-2. Microsoft Florence-2について

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks



■ 1. MiaoshouAI Taggerの導入

 Gitが導入済みであることを前提としています。MiaoshouAI Taggerの他にComfyUI-Custom-Scriptsも必要になるので、こちらも導入します。

▼ 1-1. ComfyUIへの準備1

 下記URLの拡張機能をインストールして、必要なパッケージを導入します。ComfyUIを終了した状態で始めてください。

 コマンドプロンプトを開いてから「ComfyUI\custom_nodes」へ移動して、下記のコマンドを実行します。

git clone https://github.com/miaoshouai/ComfyUI-Miaoshouai-Tagger

 続いて、必要なパッケージをインストールします。下記のコマンドはポータブル版の場合です。筆者の環境では「accelerate」が不足して利用できなかったので追加しました。

..\..\python_embeded\python.exe ..\..\python_embeded\Scripts\pip.exe install -r ComfyUI-Miaoshouai-Tagger\requirements.txt
..\..\python_embeded\python.exe ..\..\python_embeded\Scripts\pip.exe install accelerate

 通常版の場合(ComfyUIのインストール先にvenvディレクトリがある)は、下記のコマンドを順に実行してください。

..\venv\Scripts\activate
pip install -r ComfyUI-Miaoshouai-Tagger\requirements.txt
pip install accelerate
deactivate

 手順が完了したらコマンドプロンプトを閉じます。なお、本当にすぐ閉じてしまう場合は、「deactivate」は不要です。

▼ 1-2. ComfyUIへの準備2(実行不要)

 MiaoshouAI Taggerが使用するモデルは、初回実行時にダウンロードされます。本項の手順で事前ダウンロードもできますが、無理に行う必要はありません(将来、モデルの更新でURLが変わる可能性があります)。

 コマンドプロンプトを開いてから「ComfyUI\models\LLM」へ移動して、下記のコマンドを実行します。モデルは少なくとも片方が必要です。ディスク占有量はbaseが1GB程度、largeが3GB程度です。

git clone https://huggingface.co/MiaoshouAI/Florence-2-base-PromptGen-v1.5
git clone https://huggingface.co/MiaoshouAI/Florence-2-large-PromptGen-v1.5

▼ 1-3. ComfyUIへの準備3

 もし、「ComfyUI\custom_nodes\ComfyUI-Custom-Scripts」のディレクトリがなければ、下記URLの拡張機能もインストールしてください。それなりに利用している方は、既に入っているかもしれません。

 ComfyUIを終了した状態で、コマンドプロンプトを開いてから「ComfyUI\custom_nodes」へ移動して、下記のコマンドを実行します。その後、ComfyUIを起動します。

git clone https://github.com/pythongosssss/ComfyUI-Custom-Scripts

▼ 1-4a. 動作確認用のワークフロー

 簡単なワークフローでTaggerの動作確認を行います。ワークフローのファイルを載せておくので、面倒な方はこちらをComfyUIの画面にドラッグ&ドロップしてください。なお、今後のMiaoshouAI Taggerのバージョンアップにより、実行前に設定の確認が必要な場合があります(実際に一度ありました)。

▼ 1-4b. ワークフローの作成

 ここからは、1-4a.に掲載したワークフローの作り方です。イメージは1-4c.を参照してください。

 まずはComfyUIを起動して「Clear」でワークフローを消去します。領域内でダブルクリックして検索欄に「load」と入力し、「Load Image」を選択するとノードが追加されます。

 次に、検索欄に「miao」か「miaos」まで入力して、「MiaoshouAI Tagger」を追加します。さらに「Show text」も同じように追加します。見つからない場合は1-3.に戻ってください。

 最後に、下記の画像のように「IMAGE」から「image」へドラッグ&ドロップして線をつなぎます。「captions」から「text」も同様です。これでワークフローは完成です。

▼ 1-4c. ワークフローの実行

 「Load Image」のノードに画像ファイルをドラッグ&ドロップするか、「choose file to upload」をクリックしてファイルを選択します。準備ができたらメニューの「Queue Prompt」をクリックします。モデルが無い場合は初回時にダウンロードが発生します。解析は数秒程度で終わり、画像のキャプションが表示されます。

画像を解析してキャプションが表示された

 この先もTaggerの説明が続きますので、必要が無ければ読み飛ばして2.へ進んでいただいても構いません。

 それでは続きです。「caption method」を変更すると、解析後の出力形式が変化します。状況に応じて使い分けてください。下記は「promptgen_base_v1.5」を使用し、「num_beams=4」の場合です。

  • tagsの場合
    1girl, solo, long hair, looking at viewer, blush, smile, bangs, black hair, dress, hair ornament, standing, full body, flower, ponytail, hairband, outdoors, sky, shoes, day, puffy sleeves, water, black footwear, black dress, tree, blue sky, grass, black shoes, dress with white trim, nature, grassy field, yellow flower, green dress, lake, green headband

  • simpleの場合
    a cute girl in a green dress standing by a river surrounded by flowers

  • structuredの場合
    a serene scene of a young girl standing by a calm lake surrounded by vibrant flowers, the girl, positioned in the center of the image, is facing the viewer with a gentle smile on her face, her brown eyes are locked onto the viewer, exuding a sense of calmness, her long, black hair cascades down her back, styled in a neat manner, she wears a green dress with white trim, black shoes, and a bow on her head, in the background, a serene lake and lush greenery create a peaceful atmosphere, while the flowers in the foreground add a touch of whimsy to the scene

  • detailedの場合
    a digital illustration in an anime style, featuring a young girl with long, dark brown hair tied in a high ponytail with a green bow, she has large, expressive brown eyes and a gentle, inviting smile, she is dressed in a light green, short-sleeved dress with a white lace trim and puffed sleeves, the dress has a round neckline and a frilly hem, she wears black high-heeled shoes with white socks, the background depicts a serene, pastoral scene with a calm, blue lake in the foreground, surrounded by lush green foliage and colorful flowers in various stages of bloom, the sky is clear, with a few distant mountains visible in the distance, the overall mood of the illustration is peaceful and serene

  • mixedの場合
    a digital illustration in an anime style, featuring a young girl with long, dark brown hair tied in a high ponytail with a green bow, she has large, expressive brown eyes and a gentle smile on her face, she is dressed in a light green, short-sleeved dress with a white lace trim and puffed sleeves, the dress has a frilly hem and a delicate lace trim around the neckline and hem, she wears black high-heeled shoes with white lace tops, the background depicts a serene, pastoral setting with a calm lake in the distance, surrounded by lush green trees and vibrant flowers in full bloom, the sky is clear with a few distant mountains, adding a sense of tranquility and natural beauty to the scene, the overall mood is serene and peaceful, with a touch of fantasy, the illustration is highly detailed, with smooth shading and a soft, pastel color palette, typical of modern digital anime art, the image exudes a whimsical and dreamlike quality, enhanced by the softness of the girl's delicate features and the serene nature of the setting

    1girl, solo, long hair, looking at viewer, smile, bangs, black hair, dress, hair bow, standing, full body, flower, hairband, shoes, outdoors, sky, day, black footwear, water, black dress, tree, blue sky, grass, dress lift, green dress, grassy field, pink flower, yellow flower

▼ 1-5a. カスタムノードMiaoshouAI Taggerの説明

 「MiaoshouAI Tagger」のノードについて、扱い方を確認したので記載します。ただし、一部において厳密な確認ができていませんのでご了承ください。

MiaoshouAI Taggerのノード

▼ 1-5b. MiaoshouAI Taggerの説明(入力側)

 まずは入力側です。キャプションファイルを作成する場合を除き、通常は「images」のみを使用します。

  • images
    解析をする画像のイメージを入力します。画像の入力はこちらのほかに、ノード内で「folder_path」を指定する方法もあります。

  • filenames
    「images」に入力がある場合、保存するキャプションファイルの名前を指定できます。拡張子は付与されません。接続元から送られた内容が空の場合はエラーになります。こちらに接続しない場合のファイル名は「000.txt」から始まるようです。

  • captions
    解析したキャプションの先頭に挿入したい文字列を指定します。後に紹介する「prefix_caption」よりも前に入ります。

▼ 1-5c. MiaoshouAI Taggerの説明(出力側)

 次に出力側です。通常は「captions」のみを使用します。

  • images
    解析した画像のイメージが出力されます。

  • filenames
    MiaoshouAI Save Tagsへ接続するためのもので、保存するキャプションファイル名が出力されます。Taggerへの入力や設定によって内容が変化し、入力側の「filenames」が出てくるか、自動的に「000.txt」等が出力されるか、「folder_path」から読み込まれた画像ファイル名を元にするかが決まるようです。

  • captions
    画像のキャプション等が出力されます。内容は「入力のcaptions、prefix_caption、画像のキャプション、suffix_caption」が連結されたものです。

  • folder_path
    ノード内の「folder_path」の内容が出力されるようです。

  • batch_size
    解析した画像の数が出力されます。

▼ 1-5c. MiaoshouAI Taggerの説明(ノード内)

 次はノード内の上部の設定です。主に動作を指定します。

  • model
    解析に利用するモデルを指定します。現在は二種類あります。

  • folder_path
    画像を一括で入力したい場合は、画像ファイルのあるパス(ディレクトリ)を指定します。

  • caption_method
    タグ付けの方法を指定します。1-4.にて出力例を記載しています。

  • max_new_tokens
    この値を減らすと、captionsの出力長を制限できます。実際には、あふれた分が単純に削除されるように見えます。

  • num_beams
    ビームサーチで考慮する候補の数で、デフォルトは4です。増やすと画像のキャプションの質が上がる可能性もありますが、万能ではありません。挙動の変化を逆手に取り、出力のキャプションを変える目的で利用できそうです。

  • random_prompt
    詳細は不明です。値が「always」になっている場合、このノードが常に実行される可能性があるようです。現在のところ、キャプションの出力がランダム性を帯びることは無いようにみえます。ひとまず「never」にしておき、気にしないのが良いでしょう。

 最後にノード内の下部です。

  • prefix_caption
    画像のキャプションの前に挿入したい文字列を指定します。入力のcaptionsの内容は、これよりも前に挿入されます。

  • suffix_caption
    画像のキャプションの後に挿入したい文字列を指定します。

  • replace_tags
    画像のキャプションを置換したい場合に指定します。基本フォーマットは「before1:after1;before2:after2;…」で、beforeの内容をafterに置換します。afterは空白にすることもできます。最後のセミコロンは省略してください。カンマやスペースを考慮して含めないと残ってしまうので注意してください。

▼ 1-6. 補足:画像ファイルの一括タグ付けを行う場合

 カスタムノード「MiaoshouAI Tagger」と「MiaoshouAI Save Tags」のみを利用して、複数の画像ファイルから一括でキャプションファイルを作成することができます。

 詳しい説明は行いませんが、実行可能な最小限のワークフローを掲載しておきます。下記の画面のように、入力する画像の場所と出力するキャプションファイルの場所を設定してください。

画像の一括タグ付けを行うためのワークフロー例



■ 2. 利用するモデルについて

 本記事のワークフローで利用したSDXLモデルを紹介します。これを利用することは必須ではありませんが、別のモデルの場合はKSamplerの設定を見直す必要があるかもしれません。

▼ 2-1. 利用するモデル(SDXL)

 SDXLモデルのJitQは出力のスタイルに特徴があります。また、Pony系でありながら、品質タグは「source_anime, best quality」のみで済みます。

 SDXL Flash LoRAにより、6~9 Stepsでの高速な生成ができます。Negative Promptが使えませんので、どうしてもという場合はPCM(Phased Consistency Model) LoRAのNormalCFG版を検討するか、低Steps用のLoRAを外してください。



■ 3. SDXL版のi2i(Taggerは表示のみ)

 シンプルなi2iのワークフローと実行例を掲載します。全体的な流れは本項に記載し、4.では簡略化します。

 ワークフローは、LoRAに気をつければSD 1.5等でも使用できるかもしれません。なお、i2iで処理する前に指定の画素数へリサイズする処理を入れています。出力の解像度を上げたい場合は変更してください。

▼ 3-1. 概要(ワークフロー、画像付)

 画像ファイルとプロンプトを入力して、単純なi2iを行います。表示されたキャプションを参考にプロンプトを編集して、調整しながら生成を続けることもできます。

 まずはワークフロー本体です。必要なカスタムノードが入っていないとエラーが出ますので、その場合は1.の手順を見直してください。

 こちらをComfyUIの画面にドラッグ&ドロップすると、下記画像の状態になります。本記事で利用することを想定し、はじめからプロンプト(Positive Prompt)が入った状態になっています。

ワークフローを読み込んだところ

 次に、i2iで使用する画像です。XのGrok上で生成しました。下記よりダウンロードしてご利用いただけます。

 画像と生成時のプロンプトを掲載しておきます。

Japanese flat anime, face close up shot, infant girl, mint green, frilly Victorian-inspired dress, white lace trim, ruffled knee-length skirt, ribbon hairband, ankle socks, black mary jane shoes, long hair, smile, around lakeside, hand on cheek, blue sky, water ripples, colorful flower

▼ 3-2. フローの設定1

 そのままでは動作しないと思いますので、一つずつ見直します。無事動作したら、以降はワークフローのファイルの代わりに、生成した画像をドラッグ&ドロップしてください。そのときの内容が復元されます。

 まずはモデルの選択です。名前の欄をクリックして一覧から選ぶか、左右の矢印で切り替えます。LoRAを変更した場合は強度を適宜変更してください。「Load VAE」は、接続していなければそのままで構いません。

 LoRAを利用しない場合の操作を説明します。まず、「LoraLoaderModelOnly」の左上にある「model」から、何もない箇所までドラッグ&ドロップして接続を切ります。

Load CheckpointとLoraLoaderModelOnlyの接続を切る

 同じように「MODEL」のRerouteノードへの接続先を切ったあと、「Load Checkpoint」の「MODEL」からRerouteノードまでドラッグ&ドロップして接続します。

MODELからRerouteノードへ接続する

 独自のVAEを利用したい場合も、同じ要領で接続を変更してください。

 Taggerによる解析が不要な場合は、Tagger本体と隣にあるキャプション表示のノードを選択してCtrl+'M'を押してください。下記画面のように半透過でミュートされた状態となり、動作を停止します。もう一度押すと解除されます。

Taggerの動作を停止させたところ

▼ 3-3. 実行

 設定が正しければ、メニューの「Queue Prompt」をクリックするとフローが実行されます。うまくいかない場合は、該当するノードが目立つ色に変化しますので見直してください。

 処理が始まると、キャプションが表示された後でi2iの生成が行われます。低Stepsのため、それほど時間はかからないと思います。

ワークフローの実行結果(設定は実際のもの)

 引き続き、ワークフローの説明や補足を行います。その前に、生成した画像を掲載しておきます。元の画像にだいたい似ていて、i2iを行ったことは明らかです。

source_anime, best quality, Japanese flat anime, face close up shot, infant girl, mint green, frilly Victorian-inspired dress, white lace trim, ruffled knee-length skirt, ribbon hairband, ankle socks, black mary jane shoes, long hair, smile, around lakeside, hand on cheek, blue sky, water ripples, colorful flower

▼ 3-4. フローの設定2

 入力画像をi2iで処理する前に「ImageScaleToTotalPixels」を通し、縦横比を維持したまま一定の画素数にリサイズしています。デフォルトは低めの1MPです。画素数を上げると品質も向上します(ある程度までは)ので、GPUメモリの使用量や実行時間を考慮しながら調整してください。

入力画像を1MPにリサイズしている(出力のサイズも同じ)

 その他、ImageScaleToTotalPixelsの代わりに利用できるノードもあります。そちらに差し替えたり、間に挟んだり、Cropを追加したりするのも良いと思います。ESRGAN等のアップスケールを入れたりKSamplerを多段にしたりすることで、さらに品質を上げられます。

標準で利用できる他のアップスケール機能

▼ 3-5. フローの設定3

 残りの箇所についても説明します。

Tagger、キャプションとプロンプト、KSamplerの部分

 生成に関する設定は、既に説明したモデルやアップスケールのほか、下記のものがあります。

  • Caption by Tagger
    参考のため、画像のキャプションを表示します。生成には使用していません。

  • Positive Prompt
    画像を生成するためのプロンプトです。入力画像に応じて適宜変更する必要がありますが、実際にはdenoiseが中程度か低ければプロンプトが無くてもそれなりに動作します。
    入力画像に無い要素を故意に入れることもできます。ただし、何でも想定通りにいくわけではありません。入力画像に要素が入り込む余地があったり、denoiseの値が高かったりすると成功率は上がります。

  • Negative Prompt
    空白にしています。SDXL Flashではネガティブプロンプトが効きません。効く場合は適宜入力することができます。

  • seed
    シード値です。denoiseの値が低いと入力画像に近づくため、値ごとの変化が少なくなります。

  • control_after_generate
    Queue Promptを押した後の挙動を設定します。increment、decrement、randomizeのいずれかの場合は、seedの値を変更します。fixedの場合は変更しません。

  • steps
    生成時のステップを繰り返す回数です。低いと生成画像の品質が下がります。SDXL Flashの場合は6~9が推奨されています。

  • cfg
    CFG Scaleの値です。SDXL Flashの場合は2.5~3.5が推奨されています。低Stepsではない場合、モデルにもよりますが7前後を基本とします。

  • sampler_name, scheduler
    サンプラーとスケジューラーの選択です。モデルによって相性があるので、適した選択を行う必要があります。
    低Steps生成の場合、「eulerやdpmpp_2m_sde等」と「sgm_uniform」の組み合わせが基本です。

  • denoise
    入力画像にノイズを乗せる量で、i2iの場合はこれにより生成結果が変わります。基本は0.5前後で、0に近づくほど入力画像の影響が大きくなり、1に近づくほど小さくなります(構造等を無視されやすくなる)。

▼ 3-6. Tips

 ComfyUIは無駄な処理を行わない設計になっています。

  • 処理内容が前回と同一になる場合(例:モデルの読み込み)、ComfyUIはそのノードの処理をしません。

  • 最終出力のノードをミュートすると、途中にある実行不要なノードは処理しません。

 例えば、「Save Image」のノードをミュート(選択してCtrl+'M')すると、生成を行わずにTaggerのみを動作させられます。この挙動は一見わかりにくいですが、様々な場面で応用できます(例:KSamplerの1段目のseedを固定にして、2段目のみを動作させる)。



■ 4. SDXL版のi2i(Taggerの出力を適用)

 説明を大幅に省略しているので、全体の流れは3.を参照してください。

▼ 4-1. 概要(ワークフロー)

 画像ファイルを入力して、画像のキャプションをi2iのプロンプトとして使用するバージョンです。画像は任意のものが使用できます。

▼ 4-2. フローの設定

 プロンプト(Positive Prompt)の代わりに「First caption」を設けました。モデルのクオリティタグ等を記述しておくことができます。

 出力されるキャプションの内容は、下記を連結したものです。

  • First captionの値

  • prefix captionの値

  • 解析したキャプション(replace tagsの置換を反映)

  • suffix captionの値

Taggerの設定等の画面

 画像のキャプションを置換したい場合は、内容を見ながら「replace tags」に入力します。既に入っている入力例をすべて削除してから、下記の要領で記述を行ってください。

  • AAA:BBB
    AAAをBBBに置換する

  • AAA:BBB;CCC:DDD
    AAAをBBBに置換して、CCCをDDDに置換する

  • AAA:BBB;CCC:DDD;EEE:FFF;…
    AAAをBBBに置換して、CCCをDDDに置換して、EEEを…

▼ 4-3. 実行例における設定

 実行例ではワークフローを読み込んだ後、設定を少し変更しています。本項ではその説明を行います。

 まず、「First caption」に、モデルのクオリティタグである「source_anime, best quality, 」を入力します。「prefix caption」へ入力しても構いません。

 次に「replace tags」を調整していきます。当初のプロンプトは下記の内容でした。

1girl, solo, long hair, looking at viewer, blush, smile, bangs, black hair, dress, hair ornament, standing, full body, flower, ponytail, hairband, outdoors, sky, shoes, day, puffy sleeves, water, black footwear, black dress, tree, blue sky, grass, black shoes, dress with white trim, nature, grassy field, yellow flower, green dress, lake, green headband

 ここでは、太字の箇所を下記のように置換します。入力画像の内容から、極端な変化を伴わないところがポイントです(成功率を上げるため)。

  • black hair → purple hair

  • ponytail → wavy hair

  • black dress → frill sailor dress

  • yellow flower → colorful rose

 この置換を行うために、「replace tags」へ下記の内容を入力します。

black hair:purple hair;ponytail:wavy hair;black dress:frill sailor dress;yellow flower:colorful rose

 最終的には下記画面のようになっているはずです。

Taggerの設定等の画面(変更後)

▼ 4-4. 実行

 4-3.の設定を行った場合の実行結果です。

ワークフローの実行結果(設定は実際のもの)

 下記の画像のとおり、髪の色が少し変わり、髪型が少し変わり、咲いている花も変わりました。

生成した画像



■ 5. 画像のリファインを試す

▼ 5-1. 既存リソースの再活用(?)

 本記事で利用したモデルがイラスト向けなので、今回はイラスト調に限定しています。FLUX.1で本記事と同じことをやる予定なので、そちらでは色々と試すつもりです。

▼ 5-2. 2年前の生成画像を入力する

 2022年の8月下旬よりStable Diffusionで生成を行っているので、当時の画像も残っています。まずは初期の頃の画像を用いてみます。Taggerの出力を適用するワークフローを使用します。

生成日は 8-26-2022

 生成した画像の解像度は、ワークフローの初期値の1MP(1024x1024)です。denoiseが0.5程度であれば、モデルによる強力な補正が入るようです。ここで生成された画像を入力に用いると、denoiseの値にもよりますが、多少の変化を伴いながら収束に向かうようです。

前の画像をリファインした

▼ 5-3. 1年半前の生成画像を入力する

 元画像に記録が無いためモデルは不明ですが、一応Dreamboothの学習が混じっています。

生成日は3-4-2023

 品質に不足を感じたので、生成画像の解像度を1.5MP(1176x1328)に引き上げています。胸の大きさが変わっているのは、キャプションを置換すれば直ると思います。

前の画像をリファイン(1)

 もちろん、モデルを変えたりスタイルタグを入れたりすると出力が変わります。下記の画像はcocoamixXL v7.1を利用しました。ぱっと見だけでもリアル調に近づいているのが分かります。

前の画像をリファイン(2)

▼ 5-4. DALL-E3の生成画像を入力する

 ChatGPTで生成した未公開の画像が大量にあるので、その中から適当に選んでみました。

生成日は1-29-2024

 この例では大体うまくいきました。i2iの生成はSDXL自体やモデルの能力に依存しますので、含まれる要素(複雑さも含む)によっては再現性が落ちます。生成画像の解像度は1.5MP(1656x944)に引き上げています。

前の画像をリファインした

▼ 5-5. 自分で描いた画像を入力する

 下記の画像を入力してみました。なお、入力はここまで厳密でなくても良く、それっぽい形に色を塗った画像や、元画像に対して大雑把に色を塗って修正した画像でも構いません。その場合は、希望する内容をプロンプトに含めると良いでしょう。

描いたのは2年前

 少し変な箇所がありますが、気にしないでください。筆者はi2iを行うことがほとんど無かったので、モデルの能力で修正された結果を見るのは興味深いです。再現性を上げるため「, pink chest ribbon」を加えました。

前の画像をリファインした

 モデルを変えると結果も少しずつ変化しましたが、そのあたりは割愛します。



■ 6. Tips

▼ 6-1. WebブラウザのプラグインSimple Translate

 キャプションはすべて英語なので、それをすぐに翻訳できる機能があると便利です。おすすめは「Simple Translate」です。文章を選択するとアイコンが出てくるのでクリックすると、その場で翻訳結果が表示されます。デフォルトはGoogleを使い、DeepLにも対応しています。

Simple Translateでキャプションを翻訳



■ 7. あとがきっぽいもの

▼ 7-1. 記事について

 予定ではFLUX.1を用いるワークフローも掲載するつもりでしたが、先にSDXLのみで出すことにしました。FLUX.1は別の記事にします。

▼ 7-2. 所感

 実際にワークフローを使用して、Taggerの意外な欠点と、i2iの性質を再認識させられました。

  • Taggerをプロンプトに用いると、元の画像に無い要素が入っていた場合に悪影響を及ぼす恐れがある。

  • denoiseが0.5程度であれば、プロンプトが一切無くても大きな問題は無い。

  • Taggerをプロンプトに用いつつdenoiseを上げたりt2iを行ったりすると、内容が似ていて異なる画像が生成できる。

▼ 7-3. 結論

 記事に載せた以外にも多数の画像で試してみたので、最終的な結論をまとめて終わりにします。

  • i2iにより、モデルの能力を用いて既存の画像を作り直すような効果が得られる。

  • SDXLの場合、Taggerの効果は限定的かもしれない。

  • 低解像度や低クオリティの画像はリファインがある程度有効である。ただし、スタイルや内容の変化が許容できることが条件。



■ 8. その他

 私が書いた他の記事は、メニューよりたどってください。

 noteのアカウントはメインの@Mayu_Hiraizumiに紐付けていますが、記事に関することはサブアカウントの@riddi0908までお願いします。

この記事が気に入ったらサポートをしてみませんか?