MiaoshouAI taggerによるプロンプト生成が凄い便利な件について@ComfyUI

2024年10月9日 13:00

まゆひらさんが公開されているこの記事を見て、MiaoshouAI taggerについて試してみました。個人的に凄い機能だと実感しました。

まゆひらさんの記事では、初めてComfyUIやこのカスタムノードを使用される方から、内容を詳しく知りたい方まで全てに対応されている丁寧な記事を書かれていてとても勉強になりました。

この記事ではかなり端折った内容になりますので、詳細はぜひまゆひらさんの記事を参照してください。

さて、カスタムノードのインストールはComfyUI Managerで「Mia」と入れていくと出てきますのでそれをインストールします。

実際にこのカスタムノードをpaperspaceで使用を試みるとエラーが出ました。ComfyUIの環境をインストールした影響と思われます。
とりあえずaccelerateのアップグレードをすると解決します。

!pip install 'accelerate>=0.26.0'

とりあえず作成してみたフローは下の通りです。Loraとか追加すると良いかと思います。

このフローはimg2imgではなく、画像をキャプションしたものをそのままポジティブプロンプトに入れたものです。
品質系のプロンプトをポジティブプロンプト・ネガティブプロントに入れていますので、生成する画像に合わせて調整します。

まゆひらさんの記事にある画像を参照として作成してみました。

作成結果は以下です。似た雰囲気の画像が出来上がりました。

＜このカスタムノートで使用しているモデルについて＞
このカスタムノートで使用しているモデルはFlorence-2をファインチューニングしたモデルになります。
ノード内で選択できるモデルはbaseとlargeの2種類あります。
baseの方がプロンプトの生成時間が短く、largeはやや時間がかかりますが、精度が高めな印象です。個人的にはlargeで良い気がします。

一度生成したら、そのプロンプトは固定されますので、通常生成と同じ感じになります。

今回使用されているモデルとFlorence-2の違いについてですが、以下のHuggingfaceのサイトに説明がされています。以下は一部抜粋です。
以下の部分は注目に値する記載になります(英語をGPTで翻訳しています)。

ということで、このモデルだと「Civitai」にあるような画像がキャプション出来る可能性があるということになります。凄いですね。
これ以上は、個人で遊んでみて試されると良いかと思います。

ちなみに、「caption method」という部分で出力されるプロンプトを変えることが出来ます。
「tags」で良い感じの画像が出ますが、「detailed」にする方が効果的な場合もあります。

Civitaiでは、モデルを選択したら、その下の方にそのモデルで作成された画像がたくさん掲載されています。参考まで。

この記事が気に入ったらサポートをしてみませんか？