見出し画像

NoobAI-XLについてのメモ的なもの

最近になって、NoobAIのモデルを触ってみましたので記事にしてみました。
上のリンクにある榊さんが作成された記事に詳細がありますが、「商用利用禁止」が原則のモデルになります。
個人で楽しむ範囲で使用するのが原則ということですね。

下がCivitaiのモデルのサイトです。

このモデルは、Laxhar Labが、Illustrious-xlを元に追加学習したものとのことです。追加学習することで、タグの再現性やクオリティタグなどの分類でより良い画像が出せるかもという感じのようです。

<ComfyUIなどで使用する際に注意すること>
マージモデルなどでは通常生成で、期待する画像を生成できますが、NoobAI-XL-V-Pred-0.5-Versionだとぼやけた画像のみ生成されます。
詳細は別記事にありますので時間がある方は参照してください。

v予測(v_prediction)について勉強してみた話@NoobAI-XL-Pred-0.5-Version|shiba*2

以下のようにv_predictionを追加することで、画像生成が成功します。ワークフローを添付しておきます。解説のサイトのリンクは以下です。
ただ、マージモデルだとこの方法では画像が生成できない場合があるので、使い分けが必要になります。

NovelAI Diffusion V3 の改善点

Caption
<1girl/1boy/1other/...>, <character>, <series>, <artists>, <special tags>, <general tags>

クオリティタグは以下

95th      masterpiece
85th, <= 95th  best quality
60th, <= 85th  good quality
30th, <= 60th  normal quality
<= 30th      worst quality

実際に以下のリンクで、いろいろとテストした結果が公開されています。中国語ですが。。。。

https://nx9nemngdhk.feishu.cn/docx/XcAddUhDOo57U7x7MbXcE6VNnYc

<上のサイトで使用されていたネガティブプロント>

(lowres, (bad), error, fewer, missing, extra, worst quality, jpeg artifacts, bad quality, watermark, unfinished, displeasing, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract])

ポジティブプロンプトはタグのみで書いていたりしているので、MiaoshouAI taggerだと、「tag」で生成したものを使用すると効果的なのかなという印象。

<wildcardについて>
Civitaiをあさってみると2つほど引っ掛かりました。
アーティストタグは良く分かりませんが、ponyのwildcardにあるもので試してみるのも良いかなと思っています。
追記:一番上のものはillustriousのwildcardになります。アーティストタグがたくさんありました。キャラクターは作品ごとに分けてあるようです。

<おまけ的なもの>
ただの紹介だと芸はないので、prompt injectionの効果も確認してみました。
「illustrious pencil」で試してものです。

「空プロンプト」で画像に変化が見られたのは以下の3項目

input_8:わずかな変化
output_0:構図と人物が変化
output_1:服が大きく変化

上の設定で強調後

<Illustriousについて>
NoobAIのもとになったillustriousについては論文があり、要約を紹介しておきます

[2409.19946] Illustrious: an Open Advanced Illustration Model

題名: "Illustrious: an Open Advanced Illustration Model"
発行年: 2024年

どんなもの?
この論文は、アニメイラストの生成に特化したテキストから画像への生成モデル「Illustrious」を紹介しています。Illustriousは、アニメスタイルの画像生成において既存のモデルを凌駕する性能を持ち、キャラクターの解剖学的な正確さや高解像度の生成を実現しています。また、生成画像のカスタマイズやパーソナライズも可能で、オープンソースとしての公開予定があります。
先行研究と比べてどこがすごい?
Illustriousは、高解像度な画像生成(20MP超)や詳細な色彩の表現が可能で、他の生成モデルが苦手とするアニメスタイルの画像生成において顕著な性能を示しています。特に、複数キャラクターや複雑なポーズの描写において優れた制御性を発揮し、生成結果の解像度やキャプションの精度向上も特徴としています。
技術や手法のキモはどこ?
Illustriousのキモは、以下の3つの点にあります:
①バッチサイズとドロップアウト制御 - 効率的な学習とトークン制御の向上のための調整。
②画像の解像度向上 - 高解像度での学習が可能で、詳細なキャラクター表現を実現。
③マルチレベルキャプション - タグや自然言語のキャプションを多層的に組み合わせることで、より高度な生成制御を実現。
どうやって有効だと検証した?
評価は、EloレーティングシステムやTrueSkillアルゴリズムを用いたユーザー評価、そしてキャラクターの視覚的特徴の一致度を測るCCIP(Contrastive Anime Character Image Pre-Training)によって行われました。これにより、生成画像の視覚的品質やキャラクターの認識精度が高いことが確認されています。
議論はある?
Illustriousにはいくつかの限界が指摘されています。CLIPテキストエンコーダの性能制限により、特定のキャラクターや詳細な動作の識別が不十分である点や、使用されるデータセット(Danbooru)のタグベースのメタデータにより、キャラクターの位置や背景、複数キャラクターの関係性の詳細な制御が難しい点などが課題とされています。

<IllustriousのHuggingfaceのHP>

OnomaAIResearch/Illustrious-xl-early-release-v0 · Hugging Face

サイトに注意点の記載がありました。
構図のタグを重ねると変な画像が出るよとのことでした。
'close-up', 'upside-down', or 'cowboy shot'とかを一緒に入れるのは良くないみたいなことのようですね。
サンプリング方法とかはモデルごとに調整してねという感じでした。

いいなと思ったら応援しよう!