AI技術の変遷3 オートエンコーダからVAE、GAN、テキストからの画像生成

2024年7月23日 13:32

前回のブログでは、ニューラルネットワークとディープラーニングの基礎についてお話しました。
畳み込みニューラルネットワーク（CNN）は、画像検出の精度向上に大きく貢献しています。では、画像生成に関してはどうでしょうか。今回は、画像生成に関連するオートエンコーダというアルゴリズムについて解説します。

オートエンコーダとは？

目的

オートエンコーダは、データの圧縮やノイズの除去を目的としたアルゴリズムです。初期のオートエンコーダは1980年代後半にジェフリー・ヒントンによって提唱され、2006年にはディープビリーフネットワーク内で改良されたバージョンが紹介されました。

特徴

オートエンコーダは、ニューラルネットワークを使用して特徴を抽出し、それをもとに元の画像を復元します。このプロセスでは、データの圧縮とノイズ除去を行います。

形態

オートエンコーダは、入力と出力が同じ形をしており、真ん中の層（潜在空間）のニューロン数が少なくなっています。この層で情報が圧縮され、特徴が抽出されます。

オートエンコーダの働きを会社の例で説明

オートエンコーダの働きを理解するために、会社の例を使って説明します。この会社には、「エンコーダー部」と「デコーダー部」という2つの部門があります。

エンコーダー部

社員（入力層 + 畳み込み層 + プーリング層）
- 最初に画像をピクセルごとに分割します。例えば、大きな写真を256個の正方形に分け、それぞれを社員256人に配ります。
- 画像と一緒に、特徴を抽出するフィルターを各社員が受け取り、フィルターを通して特徴を抽出し、重要な部分を残します（プーリング）。
（課長や部長）
社員同様
社長（潜在空間）
- 部長からの情報を集約し、非常にコンパクトな形で画像の重要な特徴を保持します。この段階では、元の画像に含まれる重要な情報が圧縮されています。

デコーダー部

社長（潜在空間）
- 社長が保持している圧縮された情報から、デコーダー部長に復元の指示を出します（最初は適当な指示になることが多い）。
デコーダー部長（逆畳み込み層 + 逆プーリング層）
- 部長は社長から受け取った情報を基に、元の画像を復元するためのざっくりとしたデータを作成します。
デコーダー社員（逆畳み込み層）
- 最終的に、社員たちは課長からの指示を受けて、元の画像をピクセルごとに再構成します。各社員が自分の持ち場で画像を作成し、最初の画像と比較して修正を行います。

フィードバック（バックプロパゲーション）

デコーダー部の各社員は再構成した画像を最初の画像と比較し、間違いがあればフィードバックを行います。各社員は「ここを修正しましょう」と課長に伝え、課長は復元の方法を修正します。最終的には、社長がエンコーダー部門の部長にフィードバックを伝え、全体で修正を行い、より精度の高い復元が可能になります。

変分オートエンコーダー（VAE）とは？

オートエンコーダーは、画像から特徴を抽出し、それをもとに元の画像を再現することでノイズ除去やサイズ圧縮を実現しました。しかし、オートエンコーダーには一つの課題がありました。それは、抽出された特徴がどのように保存されているかが明確でないため、特徴を少し変えて新しい画像を生成するのが難しいという点です。この課題を克服するために登場したのが、変分オートエンコーダー（Variational Autoencoder：VAE）です。

VAEの登場

VAEは、オートエンコーダーで特徴を圧縮して保持する際に、特徴の平均値とばらつき（偏差値）の情報も保持します。これにより、特徴がどれくらい広がっているかを示せるようになりました。

VAEの利点：新しい画像の生成

VAEの最大の利点は、新しい画像の生成が可能になることです。具体的には、抽出された特徴に対して偏差値を設定し、その値を変化させることで新しい画像を生成できます。

具体例

例えば、「猫の耳が尖っている」という特徴が抽出された場合、その特徴の平均値とばらつきを保持します。これにより、この特徴の値を変化させることで、耳が丸い猫の画像を生成することができます。

VAEで、女性の髪の色を変化＆サングラスをかけるよう変化させた画像https://www.compthree.com/blog/autoencoder/

敵対的生成ネットワーク（GAN）の登場とその革新

VAEの限界

2013年に登場した変分オートエンコーダー（VAE）は、画像生成の分野に大きな進歩をもたらしました。しかし、VAEにはいくつかの限界がありました。

潜在空間が低次元であり、限られた情報しか保存できない。
デコーダーのシンプルな構造により、細かい部分がうまく表現できない。

このような限界を克服し、さらに高度な画像生成を実現するために、2014年に新たなアプローチが登場しました。それが、敵対的生成ネットワーク（Generative Adversarial Networks：GAN）です。

GAN（Generative Adversarial Networks：敵対的生成ネットワーク）の登場

GANの仕組み

GANは、画像生成のジェネレーターと、生成された画像が本物か偽物かを見破るディスクリミネータを競わせることで、画像生成の精度を向上させる仕組みです。この競争的な学習プロセスによって、両者の性能が互いに高まっていきます。

例え話：ニセ札作り屋と警察

GANの仕組みを理解するために、ニセ札作り屋と警察の例え話を使います。

ニセ札作り屋（ジェネレーター）：
画像を生成する役割を持ちます。VAEのデコーダーのような仕組みで、違いは最初にランダムなノイズを入力として使う点です。このノイズから徐々にリアルな画像を生成します。
警察（ディスクリミネータ）：
畳み込みニューラルネットワーク（CNN）の仕組みを利用して、画像が本物か偽物かを識別します。警察は、生成された画像が本物と偽物を区別する訓練を受けます。

GANの競争的学習

GANでは、ジェネレーターとディスクリミネータが互いに競い合うことで、両者の性能が向上します。具体的には、以下のように進行します。

ジェネレーターはランダムなノイズから画像を生成します。
ディスクリミネータは、その画像が本物か偽物かを識別します。
ジェネレーターは、ディスクリミネータを欺くために、よりリアルな画像を生成するように学習します。
ディスクリミネータは、より正確に偽物を見破るために学習します。

この対話的な学習プロセスにより、画像生成の精度が大幅に向上します。この点で、GANの学習は強化学習と似ています。

GANの革新

GANの登場により、画像生成の分野に革命が起こりました。特に、以下の点でVAEを超える成果を上げています。

高次元の潜在空間を持ち、より豊富な情報を保存できる。
複雑なデコーダー構造により、細部までリアルな画像を生成できる。

GANは、生成された画像のクオリティが非常に高いため、アートの創作やデータの拡張、さらには映像制作など多岐にわたる分野で応用されています。

拡散モデル（Diffusion Models）の登場とその仕組み

オートエンコーダーや変分オートエンコーダー（VAE）、そして敵対的生成ネットワーク（GAN）の登場により、画像生成技術は飛躍的に進化しました。しかし、これらの技術にも限界がありました。これを補完する新たなアプローチとして、2015年に拡散モデル（Diffusion Models）が発表されました。拡散モデルは、特にオートエンコーダーのデコーダー部分の仕組みを理解していると、その動作原理が分かりやすいです。

ノイズの付加と保存

拡散モデルの基本的な考え方は、精密な絵に段階的にノイズを加え、そのノイズの度合いを段階ごとに保存することにあります。このプロセスを逆方向に進めることで、元の精密な絵を再現することが可能になります。

段階的なノイズの付加

以下のように、各段階でノイズが増えていきます。

0段階目：ノイズ無し
1段階目：ノイズ少し
2段階目：ノイズぼちぼち
3段階目：ノイズ結構
4段階目：ほぼノイズ
5段階目：全部ノイズ

ノイズの除去プロセス

このモデルでは、最もノイズが多い状態（5段階目）からスタートし、段階的にノイズを除去していく方法を学習します。具体的には、以下のように進行します。

5段階目（全部ノイズ） → 4段階目（ほぼノイズ）
4段階目（ほぼノイズ） → 3段階目（ノイズ結構）
3段階目（ノイズ結構） → 2段階目（ノイズぼちぼち）
2段階目（ノイズぼちぼち） → 1段階目（ノイズ少し）
1段階目（ノイズ少し） → 0段階目（ノイズ無し）

この逆プロセスを通じて、元の画像を精密に再現することが可能になります。

拡散モデルとGANの比較

拡散モデルは、GANと比較すると精度の点ではやや劣るものの、非常に安定した生成プロセスを提供します。GANは高精度な画像生成が可能ですが、その学習プロセスは不安定になることが多く、トレーニングが難しいという課題があります。一方、拡散モデルはより安定して学習を進めることができ、安定した結果を得やすいという利点があります。

テキストから画像生成

最新の画像生成技術はどのようにテキストから画像を生成しているのでしょうか？

CLIP（Contrastive Language–Image Pre-training）の仕組み

CLIPは、大量の画像とその画像を説明したテキストの組み合わせを使用して学習します。この膨大なデータセットにより、モデルは画像とテキストの関連性を学習します。

画像の特徴抽出

CLIPはまず画像を分解し、その特徴を抽出します。これにより、画像内の重要な要素やパターンを認識することが可能になります。

テキストとの組み合わせ

次に、抽出された画像の特徴と対応するテキストを組み合わせて保持します。この過程を通じて、画像とテキストの関連性を理解するモデルが作成されます。CLIPはこの方法で、テキストから適切な画像を生成する能力を獲得します。

生成の流れ（拡散モデルの場合）

テキストから画像を生成する際の具体的な流れを、拡散モデルを用いた例で説明します。

1. ユーザーのテキスト情報の入力

ユーザーがテキスト情報を入力します。例えば、「野原に犬が走っている」というテキスト情報を入力します。

2. 特徴の抽出と生成

キーワードの抽出

モデルは、入力されたテキストからキーワードを抽出します。この例では「野原」「犬」「走る」といったキーワードが抽出されます。

潜在空間の形成

抽出されたキーワードから、画像の元となる特徴のかたまり（潜在空間）が形成されます。これは、画像生成の基本的な構造となる部分です。

画像の生成

形成された潜在空間を基に、徐々に特徴を整えて画像を生成します。このプロセスでは、拡散モデルが利用され、段階的にノイズを取り除くようにして、最終的にリアルな画像が作り出されます。

「青い空の下に広がる緑の草原に、一匹の黒い犬が走っている」と紐づけされた画像
→
「青い空」＝青色の広がり
「緑の草原」＝緑色の広がり
「黒い犬」＝特定の形状と動き

まとめ

画像生成技術は大きく進化してきました。オートエンコーダはデータの圧縮とノイズ除去を行い、変分オートエンコーダ（VAE）は新しい画像の生成を可能にしました。2014年には、ジェネレーターとディスクリミネータが競い合うことでリアルな画像を生成する敵対的生成ネットワーク（GAN）が登場しました。2015年には拡散モデルが導入され、安定して高品質な画像を生成できるようになりました。最近では、CLIPを使ってテキストから直接画像を生成する技術も登場し、ますます多様で精度の高い画像生成が可能になっています。

次回は、テキスト生成、Transformerやアテンション機構ついてご紹介します。