画像のプロンプトまるごと再現できる！　I2T（画像からテキスト抽出）を最高精度に高める新モデル3選

残り64

2025年2月1日 16:02

こんにちは、クリエイター兼エンジニアの星森です。小説編集者や作家を仕事にしつつ、生産性向上ツールを開発して企業に提供しています。

画像生成の要点となるプロンプトですが、civitAIやchichipuiで気になる画像を見つけたのに、プロンプトが非公開でがっかりしたことはありませんか？
Stable DiffusionのWD14 Tagger を活用することで画像からプロンプトを再現するI2T(Image to Text)は以前からできましたが、問題となるのはその精度です。

タグ解析モデルがたくさん出ていますが、速度や精度はけっこうまばらなので、あまり参考にならないこともあります。
そこで今回は最新の高性能タグ解析モデルを3つ紹介します！

onnxという形式のファイルですが、解析モデルはけっこうマニアックな情報なので、Xでも見かける機会が少ないかと思います。

ぜひここで最新情報をキャッチアップしていってください！！
2024年の5月ごろまでは以下のモデルが最優秀だったと思います。

SmilingWolf/wd-swinv2-tagger-v3
https://huggingface.co/SmilingWolf/wd-swinv2-tagger-v3
上記モデルでも十分実用的なので、用途によってはほとんど問題ないと思います。

ここから紹介するモデルは、最新でより高精度な解析モデルを試してみたいという人向けです。

よりしっかりとタグを解析して画像生成の参考にしたい人や、LoRA作成の精度を上げたい人など、ワンランク上を目指すための参考になさってください。
詳しくは有料部分にて公開いたします。

ここから先は

7,875字 / 4画像

¥ 100 （数量限定：残り 64 / 100）

ログイン

この記事が気に入ったらチップで応援してみませんか？

画像のプロンプトまるごと再現できる！ I2T（画像からテキスト抽出）を最高精度に高める新モデル3選

ここから先は

画像のプロンプトまるごと再現できる！　I2T（画像からテキスト抽出）を最高精度に高める新モデル3選