見出し画像

画像のプロンプトまるごと再現できる! I2T(画像からテキスト抽出)を最高精度に高める新モデル3選

残り64

こんにちは、クリエイター兼エンジニアの星森です。 小説編集者や作家を仕事にしつつ、生産性向上ツールを開発して企業に提供しています。

画像生成の要点となるプロンプトですが、civitAIやchichipuiで気になる画像を見つけたのに、プロンプトが非公開でがっかりしたことはありませんか?
Stable DiffusionのWD14 Tagger を活用することで画像からプロンプトを再現するI2T(Image to Text)は以前からできましたが、問題となるのはその精度です。

タグ解析モデルがたくさん出ていますが、速度や精度はけっこうまばらなので、あまり参考にならないこともあります。
そこで今回は最新の高性能タグ解析モデルを3つ紹介します!

onnxという形式のファイルですが、解析モデルはけっこうマニアックな情報なので、Xでも見かける機会が少ないかと思います。

ぜひここで最新情報をキャッチアップしていってください!!
2024年の5月ごろまでは以下のモデルが最優秀だったと思います。

SmilingWolf/wd-swinv2-tagger-v3
https://huggingface.co/SmilingWolf/wd-swinv2-tagger-v3
上記モデルでも十分実用的なので、用途によってはほとんど問題ないと思います。

ここから紹介するモデルは、最新でより高精度な解析モデルを試してみたいという人向けです。

よりしっかりとタグを解析して画像生成の参考にしたい人や、LoRA作成の精度を上げたい人など、ワンランク上を目指すための参考になさってください。
詳しくは有料部分にて公開いたします。

ここから先は

7,875字 / 4画像

¥ 100 (数量限定:残り 64 / 100)

この記事が気に入ったらチップで応援してみませんか?