
画像のプロンプトまるごと再現できる! I2T(画像からテキスト抽出)を最高精度に高める新モデル3選
こんにちは、クリエイター兼エンジニアの星森です。 小説編集者や作家を仕事にしつつ、生産性向上ツールを開発して企業に提供しています。
画像生成の要点となるプロンプトですが、civitAIやchichipuiで気になる画像を見つけたのに、プロンプトが非公開でがっかりしたことはありませんか?
Stable DiffusionのWD14 Tagger を活用することで画像からプロンプトを再現するI2T(Image to Text)は以前からできましたが、問題となるのはその精度です。
タグ解析モデルがたくさん出ていますが、速度や精度はけっこうまばらなので、あまり参考にならないこともあります。
そこで今回は最新の高性能タグ解析モデルを3つ紹介します!
onnxという形式のファイルですが、解析モデルはけっこうマニアックな情報なので、Xでも見かける機会が少ないかと思います。
ぜひここで最新情報をキャッチアップしていってください!!
2024年の5月ごろまでは以下のモデルが最優秀だったと思います。
SmilingWolf/wd-swinv2-tagger-v3
https://huggingface.co/SmilingWolf/wd-swinv2-tagger-v3
上記モデルでも十分実用的なので、用途によってはほとんど問題ないと思います。
ここから紹介するモデルは、最新でより高精度な解析モデルを試してみたいという人向けです。
よりしっかりとタグを解析して画像生成の参考にしたい人や、LoRA作成の精度を上げたい人など、ワンランク上を目指すための参考になさってください。
詳しくは有料部分にて公開いたします。
ここから先は
¥ 100 (数量限定:残り 64 / 100)
この記事が気に入ったらチップで応援してみませんか?