
画像生成AIのDALL·EとStable Diffusionについて比較してみた
ブログ記事や学会での発表、論文などで著作権フリーの画像入手に困ったことはないでしょうか。私自身、数多く発表していく中で”目的とする画像がない”、”著作権が心配”という問題に直面してきました。
AIを用いて画像を作成する方法はこの問題を解決してくれる素晴らしい方法と思います。今回代表的な2つのサイトと、作成した画像についてご紹介します。
今回の要約
・Stable DiffusionとDALL·Eはテキストから画像を作成するAIです。
・現状DALL·Eの精度が高いのですが、今後を注視する必要があります。
DALL·Eとは
ChatGPTで話題になっているOpenAIが開発した画像生成のAIです。
自然言語で記述された文章から画像を生成するAI。Transformerモデルの1つとして米国企業のOpenAIにより開発され、2021年1月に発表された。「スカートを履いた赤ちゃん大根が犬を散歩させているイラスト」「アボカドの形をした肘掛椅子」などの文章から、その画像を生成する。
DALL·E」は、「文章による指示」(プロンプト)を元にリアルな画像やアートを生成する人工知能システム。元の画像をもとに、さまざまなバリエーションを作成することもできる。
DALL·EはGPT-3を自然に拡張したもので、テキストプロンプトを解析し、言葉ではなく絵で応答する。例えば、OpenAIのブログからの一例では、プロンプトに入力された「2つの白い肘掛け椅子とコロシアムの絵があるリビングルーム」のようなテキストから以下のような画像をレンダリングする
現在ではDALL·Eを改良したDALL·E2が使用可能です。
・昨年発表されたDALL·E言語解釈能力と生成画像の品質を更に高めたDALL·E 2が発表された
・DALL·Eの画像は少し稚拙な画像もあったがDALL·E 2は人が書いたものと見分けがつかない
・画像内に要素を追加/削除したり特定の画像を元にその派生画像を作り出す事もできる
DALL·E2になったことで画像のクオリティが劇的に向上したことが伺えます。
Stable Diffusionとは
一方でStable Diffusionはいかがでしょうか。
Stable Diffusionは「入力されたテキスト」をもとに画像を生成する「訓練済のAIモデル(Diffusion Model)」を搭載した画像生成AIで、ユーザーは作成したい画像のイメージ(例えば、アマゾンのジャングル、高層ビルが建ち並ぶ都会、など)を英単語で区切って入力することで、様々な画像を作成できます。
Stable Diffusionで作られる画像は、システムに搭載された「潜在拡散モデル」というアルゴリズムによって生成されています。ユーザーはその潜在拡散モデルが訓練済モデルとして搭載されたシステムを利用するため、アルゴリズムを理解したり、Google Colaboratoryなどの環境でプログラムコードを記述したりすることなく、テキスト入力の操作だけで様々な画像を生み出せます。
Satble Diffusionでは潜在拡散モデル、テキストエンコーダーという方法を用いてテキスト沿った画像を作成しています。
DALL·EとStable Diffusionで画像を作成して比較してみた
試しに"knee joint swelling in elderly women"と両者で入力して出力された画像を比較しました。
⒈ DALL·Eで作成した画像

⒉ Stable DIffusionで作成した画像

いかがでしょうか。DALL·Eで出力された画像は自然なのに対しStable DIffusionは構造が人体と異なっており違和感を感じると思います。
promtの内容で調整できるのでしょうが、現状の精度としてはDALL·Eに軍配が上がると感じました。
まとめ
テキストから画像を作成するAIの代表的な2つであるDALL·EとStable Diffusionで画像を作成して比較をしてみました。
発展途上の分野であり、今後について注視する必要があります。