PixAIのVAEモデルとは?初めてでもわかる画像生成AIガイド(前編)
みなさん初めまして!最近PixAIを通じてAIイラスト生成を始めた ikarush(イカラッシュ) です。
この記事(前編)では、このほどPixAIに新たに導入された「VAEモデル」について、概要や特色についてをご紹介。
そして(後編)の記事では、シード値を使い生成した画像の差分データをご覧いただき、より具体的にどんな違いがあるのかを確認いただきたいと思います。
なお今回は初めてのnote記事、さらにPixAIを始めて1ヶ月程度の初心者な私のため拙い文章・内容になるかもしれません。
しかし可能な限り分かりやすく「PixAIのVAEモデル」について詳述しますので、この記事があなたのお役に立てたら嬉しい限りです!
それではまずはVAEモデルの概要についてから見ていきましょう!
そもそもPixAIにおけるVAEモデルとは何か?
本日10月28日のPixAIの更新にて、「SDXL モデルの VAE 選択機能」の追加のお知らせがあり、「SDXLモデル使用時のVAE選択に対応しました。これにより、高品質で複雑な画像を生成することができます。」とアナウンスがありました。
実際にSDXLモデル利用時にパラメーター一覧の最後列を見ると、「VAEモデル」項目が登場、デフォルトを含め6種類の項目が選択できるようになっています。
とは言え普段からStable Diffusion(以下、SD)を触っているならともかく、いきなりVAEモデルと言われてもよく分からない。(汗
という事で、Chat-GPTにPixAIにおけるVAEモデルについて確認してみました。
Stable DiffusionにおけるVAEモデルの2つの効果
chat-GPTに「PixAIにおけるVAEモデルとは何か」を聞いたところ、以下の回頭がありました。(以下、全文転載)
VAEモデル(変分オートエンコーダ、Variational Autoencoder)は、機械学習の分野で用いられる生成モデルの一種です。
特に画像生成や特徴抽出において、データの確率分布に基づいて新しいデータを生成するために使われます。Stable Diffusionのような画像生成モデルでは、VAEが役立つ役割は主に次の2つです。
1. 画像のエンコードとデコード
VAEモデルは、画像を潜在空間と呼ばれる低次元の特徴ベクトルに変換し、そこから再び画像を生成することができます。
このエンコードとデコードのプロセスにより、データの重要な特徴を抽出し、圧縮することが可能です。
生成モデルにおいては、潜在変数を操作することで、画像のスタイルや特徴を変えることができ、さまざまなバリエーションの画像を生成することが可能です。
2. ノイズ除去・補正
Stable Diffusionでは、生成した画像に対してノイズを取り除き、細部の品質を向上させるためにVAEが使用されることがあります。
VAEモデルが画像を潜在空間に変換する際、ノイズを除去する役割を果たし、再構築された画像はより滑らかで自然な表現になります。
・・・しょ、正直よく分からんw
特に1.の画像のエンコードとデコードについて全くピンの来なかったため、もうちょっとわかりやすく解説してもらいました。
「画像のエンコードとデコード(1.)」についての、かみ砕いた解説
エンコード(圧縮)の役割
VAEのエンコードは、画像の情報を「特徴の要約」にして、重要な部分だけを取り出す作業です。
たとえば、学校の制服を着たキャラクターの画像があったとしましょう。
この画像には顔の特徴・服の色・背景などの情報が含まれていますが、エンコードの過程で「顔の形」・「髪の色」・「服のスタイル」など、画像の見た目に関わる重要な特徴が選ばれ数字で表現されます。
すると元の画像全体ではなく、この「特徴のセット」だけを使って元の画像をおおまかに表現できるようになります。
エンコードされた情報は「潜在変数(潜在空間)」と呼ばれ、画像の特徴が詰まった圧縮データとして保存されます。このデータは容量が小さいため、効率よくデータを取り扱えます。
デコード(再構築)の役割
デコードは、エンコードされた特徴から「元の画像っぽい」画像を再構築する作業です。
潜在変数には、たとえば「髪の色は青」・「スカートがある」・「背景は無地」といった特徴が含まれています。
デコードの際に、この情報を使って、元の画像に似た画像が再現されるのです。
具体例
簡単に言えば、「エンコード」は画像をデータの圧縮ファイルにするようなもので、「デコード」はその圧縮データから元に戻す操作です。
たとえば、JPEG形式の圧縮画像も、元の画像の全情報は残っていませんが、見た目はほぼ同じように見えます。
同じように、VAEのエンコード・デコードも、ある程度の情報を持った「似た画像」を再構築するために使われます。
この圧縮・再構築のプロセスにより、データがコンパクトになり、画像生成や特徴操作がしやすくなるのが、VAEの特徴です。
・・・んー、ぶっちゃけこれでもよく分かりません(苦笑
ただ何となくのイメージとしては以下のような印象を受けました。
なお、ここまででよく分からなくても、VAEモデルを使えば「VAEモデルなしで画像生成するよりチョット良くなる」程度に捉えれば良いと思います!(雑
PixAIに新規追加されたVAEモデル6種(デフォルト含む)の効果
PixAIにおけるVAEモデルの総評としては、以下のような効果が顕れます。
上記効果を念頭に置いたうえで、PixAIのVAEモデルそれぞれの違いをご確認ください。
またそれぞれのVAEモデル効果の説明後に、当方で出力した画像を掲載しました。こちら参考イメージとしてご覧ください。
なお上記総評と以下のVAEモデル別の特徴については、先のChat-GPTにより回答あったものを転載しています。
1. Liquid9745VAE
【特徴】
ディテール強調と鮮明さが増し、アニメ調のキャラクター表現が豊かになります。特に輪郭や髪の毛の細部を際立たせるために適しています。
【生成効果】
全体的に鮮やかでシャープな表現が得られやすいですが、過度に強調するとノイズや不自然な陰影が出る場合もあるため、シャープな描写が好まれる場面に適しています。
2. PPPAnimix VAE
【特徴】
アニメキャラクターに特化しており、自然で柔らかい表現をしやすく、色のバランスが取りやすいのが特徴です。
【生成効果】
色合いや影の表現が滑らかになるため、過度なシャープさや陰影を避けた柔らかなイメージが得られます。アニメキャラクターやファンタジー風のキャラクターに適しています。
3. Pony Enhanced VAE Pastels
【特徴】
明るい色調とパステルカラーを得意とし、より幻想的でカラフルな表現に向いています。主に、パステル調や淡い色合いが多いイラスト向けです。
【生成効果】
明るく淡い色合いが強調され、全体的にソフトなタッチが特徴。特にポップで優しい雰囲気のイラストに適していますが、コントラストが低くなりやすいため、ディテールを強調したい場合には別のVAEが良い場合があります。
4. Pony Standard VAE
【特徴】
Pony Enhanced VAEよりもややナチュラルで、パステルカラーを含むアニメイラスト全般に適しています。基本的な色再現に強く、明るさとコントラストのバランスが取れた表現が可能です。
【生成効果】
パステル調ながら、Enhancedより少し色の深みが増すため、柔らかいが視覚的に少し引き締まった印象を与えられます。キャラクター表現に柔らかさを持たせたい場合に適しています。
5. SharpSpectrumVAEXL
【特徴】
鮮明でくっきりとしたディテール表現が得意で、特に大判の高解像度画像に対応した調整がされています。輪郭や影のディテールを際立たせたい場合に最適です。
【生成効果】
鮮明でディテールが多い画像を生成するため、リアルな風景や写真に近いアニメ表現に適しています。コントラストも強く、特に印象的なビジュアルを作りたいときに有効です。
6. デフォルト(Default)
【特徴】
全体のバランスを重視した調整で、特定の効果を強調せずに幅広いスタイルに対応しています。特別な調整が施されていないため、使い方が広く汎用的です。
【生成効果】
過度なディテールやシャープさはなく、自然でニュートラルな表現に向いています。カスタマイズなしの安定した画像生成をしたい場合や、汎用的なスタイルに使うのに適しています。
まとめ:PixAIのVAEモデルはコントラストの色味によって使い分けると良い
いかがでしたでしょうか?
今回は、PixAIでSDXLモデル使用時に利用できるVAEモデルの概要と特徴について、実際に出力した画像と共に紹介してみました。
実際に画像生成して個人的に感じたのは、VAEモデルによる生成される画像の違いはそれほどなく、コントラストを強く/弱くしたいかで捉えると良いだろうという感触です。
なお6.のデフォルトに関しては、コントラストの中間もしくはコントラストの表現を行わないようなニュアンス。
それこそ従来通りの、PixAIのSDXL画像出力に順じた印象でした。
まとめとしてはVAEモデルの総評に記載したように、VAEモデルの選択は「色の表現」・「シャープさ」・「ディテールの細かさ」・「対象物の特化」を重視して使い分けると良いでしょう。
今回のこの記事が、あなたのPixAIライフの一助となれば嬉しいです!
また次回(後編)はシード値を使い、VAEモデルのみの差分でどれほどの違いが出るのかという、より具体的なところにフォーカスしたいと思います。
それではまた!