【生成AIとは？～生成AIについて学ぶシリーズ～】第10弾「生成AIの仕組みとは？～画像生成AI編～」

2023年11月2日 07:12

【生成AIとは？～生成AIについて学ぶシリーズ～】第10弾！

生成AIの仕組みとは？
画像生成AIがどのように動作しているのか、その仕組みについてわかりやすく説明していきます！

〈画像生成AI概要〉

「画像が信頼できる時代は終わった」
そんな言葉を聞いたことはあるでしょうか。
最近話題になっている生成AI。生成AIと言えばChatGPTのような文章生成AIを思い浮かべる人も多いと思いますが、画像生成AIも大きく注目されている分野の一つです。MidjourneyやStable Diffusion、Dall-Eなどが代表的な画像生成AIサービスですが、これらの画像生成AIを使えば、写真のような画像や、画家が描いた絵画のような画像、漫画家が描いたようなイラスト画像を、誰でも簡単に短時間で作成することが可能です。近年、生成する画像の精度はとても高くなっており、人間が作成した・撮影した画像なのか、AIが生成した画像なのか見分けがつかないほどになりました。有名な漫画家が描いたと嘘をついて生成AIに生成させた画像（漫画）を公開しSNSで話題を集める、特定の人物が実際にはしていない行為をしている写真を生成して評判を貶めるなど、生成AIに生成させた偽物の画像を使ったトラブルも起こっています。冒頭の「画像が信頼できる時代は終わった」という言葉は、そのような画像生成AIの発展に対する皮肉のような言葉で、AIによって誰でも簡単に偽物の画像を作り出すことができる現代を表しています。
では一体、画像生成AIはどのようにして、本物のような画像を生成しているのでしょうか。その仕組みについて解説していきます。

〈画像生成の仕組み〉

前回の記事でも紹介した通り、AIとは入力されたデータを学習し、学習をもとになんらかの出力を行うというのが基本構造の一つでした。この仕組みは画像を扱うAIでも同じです。
例えば、画像認識AIならば、「猫」の画像をたくさん学習して猫の特徴を把握し、新しく入力された画像が「猫」なのか、猫ではないのかを判断しています。画像認識の技術は今では日常的に使われており、スマートフォンの顔認証や自動運転技術、カメラを使った翻訳システムなどに応用されています。（自分の顔が学習されているのは少しコワいかも、、）
画像生成AIでは、入力されたデータをもとに、画像を出力していきます。出力される画像の精度を上げるために様々なアルゴリズムが開発されていますが、代表的なものをいくつか紹介していきます。

〈代表的な画像生成モデル〉

VAE（変分オートエンコーダ）
一つ目に紹介するのはVAE（変分オートエンコーダ）と呼ばれるモデルです。
VAEでは、はじめに入力された画像からいくつかの特徴を抽出します。次に、抽出した特徴を組み合わせて元の画像を再現していきます。さらに、再現した画像と元の画像を比べて差分として学習し、何度も生成を繰り返していくことで精度を高めていきます。
例えば、人の顔の画像を入力した場合、まず「目」「鼻」「口」などのパーツを特徴として抽出し、次に抽出したパーツを組み合わせて顔の画像を生成します。はじめは再限度の低い画像が生成されますが、元の画像と比較し学習する（例えば「目」は二つ横並びで、その下に「鼻」があって、さらに下に「口」があって、、、）ことで、次第に再限度の高い画像を生成することが可能になります。無料で使える生成AIサービスの一つであるStable DiffusionなどでもこのVAEの技術は活用されています。

GAN（敵対的生成ネットワーク）
二つ目に紹介するのはGAN（敵対的生成ネットワーク）と呼ばれるモデルです。名前に「敵対的」と含まれているため、何か争っているようなイメージを受けますが、、
実はこのモデル内には二つの組織（GeneratorとDiscriminator）が存在していて、まさにそれらが競うように働き、生成する画像の精度を高めていくのです。
Generatorの役割は入力データから「偽」の画像を生成すること、Discriminatorの役割はGeneratorが生成した「偽」の画像と「本物」の画像を見分けることです。モデル内で画像の生成と識別を何度も繰り返していきます。
当然、初めはGeneratorの画像は簡単に偽物だと見抜かれてしまいますが、Discriminatorを欺くために何度も生成を繰り返していくと、やがて本物と見分けのつかない「偽」の画像を生成することができるようになります。GANでは、内部でこのような敵対的な構造を保持することによって、生成する画像の精度を高めています。
GANについては、人の顔を生成する研究が盛んに行われており、本当に実在しそうな人の顔を生成することや、元の写真の顔の表情を変えることなどが可能になっています。

〈おわりに〉

ここまで、画像生成AIの仕組みについて紹介してきました。今回は代表的なモデルとして、VAEとGANを紹介しましたが、その他にもたくさんの画像生成モデルが存在しています。今後これらのモデルの精度はさらに進化していき、いずれは画像のみならず、精度の高い動画なども生成することができるようになると考えられます。生成AIがより身近な存在になりうる将来を見据えて、生成AIの技術をよく理解し、その魅力・活用方法・リスクなどについて認識する必要があるかもしれませんね。

これまで全10回にわたり、「生成AIとは？」シリーズを展開してきましたが、この第10弾をもって、一旦シリーズ終了となります。ここまでご愛読いただきありがとうございました。

このアカウントではデロイトトーマツコンサルティングの有志メンバーが生成AIに関するあれこれをつぶやいています。ぜひフォローしてください！

#aiart #ai #art #aiアート #aiイラスト #stablediffusion #デロイトai #デロイトAIスポーツコンテスト　開催中！ #スポーツ #コンテスト #賞金100万円