見出し画像

【ComfyUI】 Kwai-Kolorsに待望のIP Adapterが追加!基本的な使い方を解説

この記事が役立つ方

  • ComfyUIの基本的な使い方を知っている方

  • IP Adapterの基本的な使い方を知っている方

  • 高精度・高品質の画像を生成したい方

Summary

  • KolorsにIP Adapterが追加され、強力な画像特徴抽出器と高品質なトレーニングデータにより、SDXLやMidjourneyと比較して高い性能を示した。

  • 実際の使用では、洋服の参照やアニメ化など、参照元画像の特徴をよく捉えた画像生成が可能であり、Kolorsの高精度・高品質な画像生成に参照機能が加わることで生成の幅が大きく広がった。

  • 今後のIP Adapter FaceIDやControlNet対応に期待が高まり、Kolorsがオープンソースの画像生成AIの主要な選択肢になる可能性がある。

はじめに

以前に以下の記事でプロンプトの理解力の高いモデル「Kolors」を紹介しました。

このKolorsに待望のIP Adapterが追加されました!
今回は、このIP Adapterの使用方法と使ってみた感触を述べたいと思います。


1. Kwai-KolorsのIP Adapterの特徴

以下のページにKolorsのIP Adapterの詳細が記載されておりますので、こちらの内容から気になる点を抜粋します。

まず、KolorsのIP Adapterは、以下の点で改良を加えています。

- より強力な画像特徴抽出器: 私たちは画像エンコーダーとしてOpenai-CLIP-336モデルを採用し、参照画像の詳細をより多く保持できるようにしています。
- より多様で高品質なトレーニングデータ:他の作品のデータ戦略に触発され、大規模かつ高品質なトレーニングデータセットを構築しました。ペアリングされたトレーニングデータがパフォーマンスを効果的に向上させると信じています。

https://github.com/Kwai-Kolors/Kolors/blob/master/ipadapter/README.md

この改良を加えたIP Adapterの性能を独自の基準で検証し、その結果をSDXLとMidjourneyと比較しています。表からは、テキストの忠実度がMidjourneyより低いだけで、他の項目においては両者を上回っています。

評価のために、200以上の参照画像とテキストプロンプトからなるテストセットを作成します。いくつかの画像専門家を招き、異なるモデルの生成結果に対して公平な評価を提供してもらいます。専門家は生成された画像を以下の四つの基準に基づいて評価します:視覚的な魅力、テキストの忠実度、画像の忠実度、そして全体的な満足度。画像の忠実度は参照画像に対するIP-Adapterの意味的な保存能力を測定するもので、その他の基準はBaseModelの評価基準に従います。具体的な結果は以下の表にまとめられており、Kolors-IP-Adapter-Plusが全体的な満足度で最高のスコアを達成しています。

https://github.com/Kwai-Kolors/Kolors/blob/master/ipadapter/README.md
SDXL, Midjourney, KolorsのIP Adapterの性能比較

各IP Adapterの比較結果が以下になります。猫の画像を見ると、KolorsのIP Adapterが参照元画像に最も近いように感じます。

SDXL, Midjourney, KolorsのIP Adapterの比較結果

2. 使用準備

カスタムノード

以下のカスタムノードをComfyUI Managerからインストールしてください。

  • ComfyUI-Kolors-MZ

    • KolorsのIP Adapterをサポートしているカスタムノード

  • ComfyUI-KwaiKolorsWrapper

    • ComfyUI-Kolors-MZは、このカスタムノードを参照しているため、こちらもインストールが必要

  • ComfyUI_IPAdapter_plus

    • こちらのカスタムノードをwrapperしているようなので、インストールが必要になります。

モデル

ComfyUI-Kolors-MZのRead Meに記載のある手順を以下に示します。

  1. KolorsのUNETモデルをダウンロードし、"ComfyUI/models/unet"フォルダに格納します。モデルのダウンロードはこちら

  2. ChatGLM3のモデルをダウンロードし、"ComfyUI/models/LLM"フォルダに格納します。モデルのダウンロードはこちら

  3. KolorsのIP Adapterのモデルをダウンロードし、"ComfyUI/models/ipadapter"フォルダに格納します。モデルのダウンロードはこちら

  4. KolorsのCLIPのモデルをダウンロードし、"ComfyUI/models/clip_vision"フォルダに格納します。モデルのダウンロードはこちら

3. workflow

今回使用するworkflowは、ComfyUI-Kolors-MZが提供するサンプルを使用します。以下のリンクよりworkflow_ipa.pngをダウンロードし、ComfyUIの画面にドラッグ&ドロップしてください。

以下がworkflowの全体像です。操作する箇所をピックアップして説明します。

  1. IP Adapterで使用する参照元画像を選択する箇所

  2. IP Adapterの設定

  3. ポジティブプロンプトの入力

  4. ネガティブプロンプトの入力

  5. サンプリングの設定

workflowの全体像

4. 生成結果の確認

洋服を参照

以下の左の画像を参照し、右の画像を生成しました。この時のポジティブプロンプトは"a Japanese girl"、ネガティブプロンプトは無しです。
若干形状が異なりますが、しっかり参照されていることが分かります。IP Adapterのパラメータの設定で、さらに参照元画像に近づけることは可能だと思います。しかし、IP Adapterのstrengthを強くすると、参照元画像に引きづられて、顔が日本人ではなくなることがありますので、パラメータの調整は慎重に行う必要があります(これはSDXLのIP Adapterでも同様)。

KolorsのIP Adapterを使った生成結果
左: 参照元画像
右: 生成画像

参照元画像をアニメ化

次に、左の画像を参照し、右のアニメ絵を生成しました。この時のポジティブプロンプトは以下になります。IP Adapterの強度は、若干弱目の0.65に設定しました。

Create an avatar, anime style, rich colors, beautiful scenery, fresh and bright, mottled light and shadow, best quality, ultra-detailed, 8K quality.

髪型が若干異なりますが、参照元画像の雰囲気を継承してアニメ絵を生成できています。IP Adapterの強度を弱めると、よりアニメ的な絵に近づけられますが、元の人物の特徴が薄まるので、こちらも慎重に調整が必要ですね。

KolorsのIP Adapterを使った生成結果
左: 参照元画像
右: 生成画像

5. まとめ: Kolorsの高精度・高品質+参照で生成の幅が広がった

KolorsのIP Adapterを試してみましたが、SDXLのIP Adapterと同様に、しっかり参照元画像の特徴を継承して画像生成が可能になっています。SDXLとの差は、そこまで強く感じられませんでした。生成結果がIP Aadapterのパラメータに依存する面があり、パラメータの調整次第では、良くも悪くもなるので、一概にどちらが優れているかを決めるのは難しいです。
しかし、Kolorsの高精度・高品質の画像生成に、さらにIP Adapterでの参照が加わると、画像生成の幅が飛躍的に広がります。今後は、IP Adapter FaceIDも追加するとのことなので、Kolorsで出来ることがさらに広がります。ControlNetにも対応したら、KolorsがOSSの画像生成AIのメジャーになるかもしれません。今後も目を離せませんね。


この記事でご紹介したAI技術の応用方法について、もっと詳しく知りたい方や、実際に自社のビジネスにAIを導入したいとお考えの方、私たちは、企業のAI導入をサポートするAIコンサルティングサービスを提供しています。以下のようなニーズにお応えします。

  • AIを使った業務効率化の実現

  • データ分析に基づくビジネス戦略の立案

  • AI技術の導入から運用までの全面サポート

  • 専門家によるカスタマイズされたAIソリューションの提案

初回相談無料ですので、お気軽にご相談ください。以下のリンクからお問い合わせください。


この記事が気に入ったらサポートをしてみませんか?