Memeplexの利用(2) AIモデル依存性

2023年7月13日 02:07

0. 更新履歴

ver.0（2023.7.13）
ver.1（2023.8.8） SDXL1.0のデータを追加

1. はじめに

この記事はMemeplexを用いた生成画像のAIモデル依存性に関する記事です。「Memeplexの利用(1)」で記したDiffusionモデルの私の理解に基づいて、同じ条件の画像を10枚単位で生成して比較考察を行います。ただ、何事もある一定以上の水準でなければ “意味がある” と感じられないと思うので、ある程度洗練されたプロンプトを使用することにしました。作成したプロンプトはこのサイトを参考にしました。

Memeplexで画像を生成する際に指定する項目は主に以下の5つです。

(1) AIに描かせたい絵の説明（「プロンプト」や「呪文」と呼ばれます）
→ この資料で使用したプロンプトは後ほど与えます。

(2) 画風指定
→ 現在のMemeplex（2023.7.13）では、「CG」「アニメ」「アメコミ」「イラスト」「キャラクター」「ゲーム画面」「コメディドラマの一場面」「サイケデリック」「テレビ番組の一場面」「ドット絵風」「ニュース番組の一場面」「映画のポスター」「映画の一場面」「写真」「水彩画」「特撮」「浮世絵」「漫画」「油絵」の19種類です。
→ この資料では「イラスト」で固定しました。

(3) スタイル指定
→ 現在のMemeplex（2023.7.13）では、「ハイファンタジー風」「サイバーパンク風」「スチームパンク風」「日本のアニメ風」「日本のSFアニメ風」「ハリウッド映画風」「インド映画風」「ハリウッドSF風」の8種類です。
→ この資料では「日本のアニメ風」で固定しました。

(4) 作風指定
→ 現在のMemeplex（2023.7.13）では、「ローポリゴン風」「4K風」「UnrealEngine5風」「アルフォンシュ・ミュシャ風」「ルノワール風」「エミール・ガレ風」「ダリ風」「カディンスキー風」「ピカソ風」「NASA風」の10種類です。
→ この資料では「4K風」で固定しました。

(5) AIモデル
→ 現在のMemeplex（2023.7.13）では、「BraV5」「Counterfeit-v2」「mitsua-diffusion」「Muse_v1」「OpenJourney-v4」「OpenJourney2」「photorealistic-fuen-v1」「Prtogen_v5_OfficialRelease」「Redshift」「SDHK」「StableDiffusion_v1.5/Inpainting」「StableDiffusion_v2.0」「StableDiffusion-Depth」「trinart」「vintedois-diffusion-v0-1」「WaifuDiffusion1.2」「SDXL1.0 (2023.8.5 追加)」の16種類です。
→ この資料では、全16種類のAIモデルについて比較検討を行います。

【条件の整理】

・プロンプト
[best quality] [masterpiece] [ultra high resolution] [16K resolution] [8K wallpaper] [best light] [dynamic lighting] [extremely cute girl] [smaller face] [big eyes] [detailed face] [detailed skin] [fine finger] [shiny skin] [blue eyes] [gold hair] [smile] [fur trench coat] [orange gloves] [fur hat] [yellow scarf] [snow Christmas] [Christmas tree]（入力として、[ ]ごとに改行したプロンプトを与えました）

・画風設定：「イラスト」

・スライル指定：「日本のアニメ風」

・作風指定：「4K風」

・AIモデル：全16種類

・文章の強さ：0.75

・その他：翻訳不要

・備考：同じ条件で画像を10枚ずつ、合計160枚の画像の生成にブーストモードを使用しました。

結果1：StableDiffusion_v2.0

結果2：StableDiffusion_v1.5/Inpainting

結果3：BraV5（Beautiful Realistic Asians）

結果4：SDHK

結果5：Counterfeit-v2

結果6：OpenJourney-v4

結果7：Protogen_v5_Official_Release

図7. Protogen_v5_Official_Releaseで生成した10枚の画像

結果8：mitsua-diffusion

結果9：vintedois-diffusion-v0-1

結果10：trinart

結果11：WaifuDiffusion1.2

結果12：Redshift

結果13：photorealistic-fuen-v1

結果14：StableDiffusion-Depth

結果15：OpenJourney2

結果16：Muse_v1

結果17：SDXL1.0（2023.8.8 追記）

【考察】

・AIモデルに応じて、ヒトの表現の種類（2次元的か3次元的か）や画像の質（画像を見ていて違和感を覚えるか否か）が異なることがわかりました。個人的に、3次元的よりも2次元のアニメ的な絵に興味があり、CounterfeitやSDHKあたりが相当すると思います。

・AIモデルに応じて、[gold hair (金髪)] [blue eyes (碧眼)] などのプロンプトの反映確率が変化することがわかります。これは、学習データに金髪・碧眼の画像をどの程度含むかに依存すると思われます。

・画像ファイルサイズのAIモデル依存性を図17に示します。特徴として、生成する画像ファイルの種類はjpgとpngの2種類であり、pngファイルの方が10倍ほどファイルサイズであることがわかります。また、jpgファイルの中でも、AIモデルに応じて40〜65KBと画像サイズに違いがあり、これは、AIモデルによる画像サイズの違いが生じる可能性を示唆しています。
（＊）SDXL1.0（1024×1024）は画像サイズが他のもの（512×512）の4倍であり、jpeg画像だがファイルサイズが大きくなっている。

2023年8月にMemeplexに追加されたSDXL1.0モデルは他の画像と比べて背景も詳細に描かれており、一線を画する画像を生成できていることがわかります。shi3zさん、ありがとう！！