Memeplexの利用(2) AIモデル依存性
0. 更新履歴
ver.0(2023.7.13)
ver.1(2023.8.8) SDXL1.0のデータを追加
1. はじめに
この記事はMemeplexを用いた生成画像のAIモデル依存性に関する記事です。「Memeplexの利用(1)」で記したDiffusionモデルの私の理解に基づいて、同じ条件の画像を10枚単位で生成して比較考察を行います。ただ、何事もある一定以上の水準でなければ “意味がある” と感じられないと思うので、ある程度洗練されたプロンプトを使用することにしました。作成したプロンプトはこのサイトを参考にしました。
Memeplexで画像を生成する際に指定する項目は主に以下の5つです。
(1) AIに描かせたい絵の説明(「プロンプト」や「呪文」と呼ばれます)
→ この資料で使用したプロンプトは後ほど与えます。
(2) 画風指定
→ 現在のMemeplex(2023.7.13)では、「CG」「アニメ」「アメコミ」「イラスト」「キャラクター」「ゲーム画面」「コメディドラマの一場面」「サイケデリック」「テレビ番組の一場面」「ドット絵風」「ニュース番組の一場面」「映画のポスター」「映画の一場面」「写真」「水彩画」「特撮」「浮世絵」「漫画」「油絵」の19種類です。
→ この資料では「イラスト」で固定しました。
(3) スタイル指定
→ 現在のMemeplex(2023.7.13)では、「ハイファンタジー風」「サイバーパンク風」「スチームパンク風」「日本のアニメ風」「日本のSFアニメ風」「ハリウッド映画風」「インド映画風」「ハリウッドSF風」の8種類です。
→ この資料では「日本のアニメ風」で固定しました。
(4) 作風指定
→ 現在のMemeplex(2023.7.13)では、「ローポリゴン風」「4K風」「UnrealEngine5風」「アルフォンシュ・ミュシャ風」「ルノワール風」「エミール・ガレ風」「ダリ風」「カディンスキー風」「ピカソ風」「NASA風」の10種類です。
→ この資料では「4K風」で固定しました。
(5) AIモデル
→ 現在のMemeplex(2023.7.13)では、「BraV5」「Counterfeit-v2」「mitsua-diffusion」「Muse_v1」「OpenJourney-v4」「OpenJourney2」「photorealistic-fuen-v1」「Prtogen_v5_OfficialRelease」「Redshift」「SDHK」「StableDiffusion_v1.5/Inpainting」「StableDiffusion_v2.0」「StableDiffusion-Depth」「trinart」「vintedois-diffusion-v0-1」「WaifuDiffusion1.2」「SDXL1.0 (2023.8.5 追加)」の16種類です。
→ この資料では、全16種類のAIモデルについて比較検討を行います。
【条件の整理】
・プロンプト
[best quality] [masterpiece] [ultra high resolution] [16K resolution] [8K wallpaper] [best light] [dynamic lighting] [extremely cute girl] [smaller face] [big eyes] [detailed face] [detailed skin] [fine finger] [shiny skin] [blue eyes] [gold hair] [smile] [fur trench coat] [orange gloves] [fur hat] [yellow scarf] [snow Christmas] [Christmas tree](入力として、[ ]ごとに改行したプロンプトを与えました)
・画風設定:「イラスト」
・スライル指定:「日本のアニメ風」
・作風指定:「4K風」
・AIモデル:全16種類
・文章の強さ:0.75
・その他:翻訳不要
・備考:同じ条件で画像を10枚ずつ、合計160枚の画像の生成にブーストモードを使用しました。
結果1:StableDiffusion_v2.0
結果2:StableDiffusion_v1.5/Inpainting
結果3:BraV5(Beautiful Realistic Asians)
結果4:SDHK
結果5:Counterfeit-v2
結果6:OpenJourney-v4
結果7:Protogen_v5_Official_Release
結果8:mitsua-diffusion
結果9:vintedois-diffusion-v0-1
結果10:trinart
結果11:WaifuDiffusion1.2
結果12:Redshift
結果13:photorealistic-fuen-v1
結果14:StableDiffusion-Depth
結果15:OpenJourney2
結果16:Muse_v1
結果17:SDXL1.0(2023.8.8 追記)
【考察】
・AIモデルに応じて、ヒトの表現の種類(2次元的か3次元的か)や画像の質(画像を見ていて違和感を覚えるか否か)が異なることがわかりました。個人的に、3次元的よりも2次元のアニメ的な絵に興味があり、CounterfeitやSDHKあたりが相当すると思います。
・AIモデルに応じて、[gold hair (金髪)] [blue eyes (碧眼)] などのプロンプトの反映確率が変化することがわかります。これは、学習データに金髪・碧眼の画像をどの程度含むかに依存すると思われます。
・画像ファイルサイズのAIモデル依存性を図17に示します。特徴として、生成する画像ファイルの種類はjpgとpngの2種類であり、pngファイルの方が10倍ほどファイルサイズであることがわかります。また、jpgファイルの中でも、AIモデルに応じて40〜65KBと画像サイズに違いがあり、これは、AIモデルによる画像サイズの違いが生じる可能性を示唆しています。
(*)SDXL1.0(1024×1024)は画像サイズが他のもの(512×512)の4倍であり、jpeg画像だがファイルサイズが大きくなっている。
2023年8月にMemeplexに追加されたSDXL1.0モデルは他の画像と比べて背景も詳細に描かれており、一線を画する画像を生成できていることがわかります。shi3zさん、ありがとう!!