OpenAIが9月20日に発表した新画像生成AIのDALL-E 3がついに筆者のところにもやって来ました。
そこで、ChatGPTに統合されたDALL-E 3に何ができるのか、実際に試してみました。
1.DALL-E 3の特徴
このDALL-E 3の主な特徴は以下の2点です。
複雑なプロンプトにも忠実で正確な画像を生成できる。
ChatGPTとの対話を踏まえて画像を生成することができる。
ChatGPTによると、Stable DiffusionとDALL-E 3の画像生成の仕組みの違いは以下の通りです。
Stable Diffusionの拡散プロセスは、生成画像を段階的にプロンプトに近づけていくために、テキストの詳細やニュアンスの一部が失われることがありますが、DALL-E 3のモデルは、テキストの意味を把握する能力が高く、より直接的にテキストから画像を生成するため、これらが失われることが少ないということのようです。
2.DALL-E 3の仕組み
(1) 馬に乗る宇宙飛行士
以下のように「馬に乗る宇宙飛行士を描いてください。」と依頼すると、4枚の画像が生成されます。
このとき、少しずつ異なる4種類の英語のプロンプトをChatGPTが生成し、それぞれのプロンプトに基づいてDALL-E 3が画像を生成します。
(2) 喜怒哀楽を表わす4人の美しい女神
ChatGPTが入力したテキストの指示に従ってプロンプトを生成するため、似たような画像だけでなく、全く異なる4種類の画像を生成することもできます。
なお、ChatGPTの特徴として、人種の多様性を考慮したプロンプトが生成されます。
(3) 中国の神話における四神
「四神と美しい背景のイラストを描いてください。」と入力して生成された4枚の画像。
四神とは、中国の神話上の方角を司る霊獣で、青龍、朱雀、白虎、玄武の四匹で構成されています。
(4) 究極の美女
美女を描いてもらおうとすると、なぜか一定の割合で男性が描かれます。
しかも、今回は、全て白黒画像になってしまいました。
左上の画像のプロンプトは、「洗練された顔立ちの優雅な女性がクールな表情を見せている写真。ヘアアクセサリーとチョーカーをつけている。」(和訳)で、男性が描かれる要素はないはずなのですが。LGBTを意識しているのでしょうか?
(5) プロンプトの指定(日本語)
以下のようにプロンプトを指定して画像を生成することができます。
その場合、1枚だけしか生成してくれないことが多いようです。
クールな表情ではなく、チョーカーを身に付けていないなど、日本語のプロンプトの場合は、あまりプロンプトに忠実な画像を生成してくれません。
(6) プロンプトの指定(英語)
日本語プロンプトの場合と異なり、かなりプロンプトに忠実な画像が生成されます。
3.ChatGPTとの対話を活用した画像生成
(1) 美しいサイボーグの画像
日本語でプロンプトを生成したせいか、全くプロンプトの指示に従っていません。
先程よりは、だいぶプロンプトの指示に近いものが出てきました。
当初より、だいぶ美しい画像に修正することができました。
(2) バベルの塔の再構築
DALL-E 3と同時に、画像認識ができるGPT-4Vも利用できるようになりましたので、これを画像生成に活用する方法を考えてみました。
最初に、Wikipediaのバベルの塔(ブリューゲル)のページから、パブリックドメインのバベルの塔の画像をコピーして、ChatGPT(Default)の入力欄に貼り付けます。
そして、「この画像を具体的に正確に詳細に説明してください。」と入力します。
この内、バベルの塔という固有名詞が記載されている最後の文を除いた文章をプロンプトとして利用します。
「新しいチャット」をクリックして開き、GPT-4のDALL-E 3モードに設定します。
次に以下のように入力して、新たな画像を生成します。
すると、先ずChatGPTがこの文章を英訳してくれます。
次に、ChatGPTがこの英文を基にプロンプトを作成し、画像を生成します。
(3) アルチンボルド風のボーカロイド
同じように、ジュゼッペ・アルチンボルドの「夏」という作品を利用して、アルチンボルド風のボーカロイドを描いてみました。
4.文字の挿入
従来、画像生成AIは文字を描くのが苦手だと言われてきましたが、DALL-E 3は、プロンプトに従って、かなり正確な文字を表示することができます。
(1) 英単語の挿入
入力:Draw a Japanese woman holding a sign with a large "DALL-E 3" written on it.
※大体よく書けていますが、右上の画像はスペルミスがあります。
(2) 日本語の単語の挿入
入力:Draw a Japanese woman holding a sign with a large "ダリ 3" written on it.
※日本語の挿入は無理なようです。
(3) 文章の挿入
入力:Draw a young boy holding a sign with a large "Attention Is All You Need" written on it.
※文章でも正確に挿入できます。
入力:Please draw a building with a large sign that reads "Attention Is All You Need."
※建物に表示する場合は、結構、スペルミスがありました。
5.フラットデザインのイラスト
プレゼン資料の挿絵などには、フラットデザインのイラストが便利です。
(1) 実験をする人
入力:化学実験をする研究者のフラットデザインのイラスト
「ベクターイラスト」というプロンプトでも同じようなイラストが描けます。 入力:化学実験をする研究者のベクターイラスト
(2) 人工知能との対話
入力:人工知能と対話する人のフラットデザインのイラスト
入力:人工知能と対話する人のベクターイラスト
6.様々な画像
単純な入力でも、様々な面白い画像を生成してくれます。
(1) 宇宙の始まり
(2) 巨大ロボットの組立説明書
(3) 進化図
(4) 地獄草紙
※洋風の地獄ですね。
(5) 日本の歴史
※色々と変ですね。
7.漫画を描く
(1) 子犬を主人公にした4コマ漫画
(2) 女子高生を主人公とした4コマ漫画
※なぜか6コマになってしまいました。
※画像の順番が合っていませんね。
(3) 高校生の友情をテーマにした漫画①
(4) 高校生の友情をテーマにした漫画②
8.DALL-E 3の規制
(1) Bingの規制との比較
Bingチャットでも、DALL-E 3に画像生成してもらうことができますが、以下のプロンプトを入力すると、ほぼ必ず生成を拒否されます。
Bingチャットの場合、「日本人女性」や「アジア系女性」という単語を入力すると、生成を拒否されることが多いようです。
一方、ChatGPTのDALL-E 3では、以下のように画像生成することができます。
ChatGPTでも、生成を拒否される場合がありますが、対象となる言葉に違いがあるようです。
(2) 有名キャラクターの画像
① ピカチュウ
似ていますが、本物とは少し違うようです。
例えば、左上の画像では、プロンプトが「某有名ゲームシリーズで人気の黄色い電気ネズミのイラスト。」(和訳)に書き換えられています。
このように、ChatGPTのDALL-E 3では、プロンプトを書き換えることによって無害化しています。
でも、ピカチュウは、少し似すぎているように感じます。
② ONE PIECEのチョッパー
チョッパーがトナカイであることは同じですが、全く似ていません。
左上の画像のプロンプトは「かわいいトナカイのキャラクターが仲間たちと食事をしているイラスト。」(和訳)に書き換えられています。
③ ドラゴンボールの孫悟空
これも、右下の画像の髪型以外は、ほとんど似ていません。
左上の画像のプロンプトは、「強力なエネルギー波を放つ、とがった髪の武道家のイラスト。」(和訳)に書き換えられています。
(3) 有名人の画像
① エマ・ワトソン
右下の一番前の女性は、少し似ているでしょうか。
左上の画像のプロンプトは、「茶色の髪の若いイギリス人女優が優雅に踊っている写真。」(和訳)に書き換えられています。
② 芦田愛菜
どの画像も全く似ていません。特に左下の画像は少年です。
でも、日本の女優の名前も把握しているんですね。
左上の画像のプロンプトは、「日本の有名な若手女優の登校中の写真。」(和訳)に書き換えられています。
③ イーロン・マスク
イーロン・マスクには全く似ていませんが、右上のマークは、旧Twitterのロゴマークにそっくりです。
左上の画像のプロンプトは、「人気ソーシャルメディア・プラットフォームのロゴを持つ有名な起業家の写真。」(和訳)に書き換えられています。
(4) 有名アーティストのスタイル
① ゴッホのスタイル
ChatGPTは有名画家の画風で描くことを避けて、同時代のより一般的な画風で画像を生成します。しかし、あまりゴッホらしくはないですね。
同じ内容を英語で入力してみます。
>Please paint Alice in Wonderland in the style of Van Gogh.
英語だと、きちんとゴッホの画風で描いてくれました。
日本語で指示した場合と英語で指示した場合で規制が異なるようです。
② ピカソのスタイル
これもピカソの画風とは異なり、あまりピカソらしくありません。
ピカソのような比較的最近(作品制作後100年以内)の画家の場合は、英語でも、その画風を参照することは拒否されるようです。
③ ダ・ヴィンチのスタイル
100年以上前の画家のスタイルでも避けるようです。やはり、ダ・ヴィンチらしくはありません。
>Please paint Alice in Wonderland in the style of Leonardo da Vinci.
ダ・ヴィンチのような100年以上前の画家の場合は、英語の指示だと、その画風で描いてもらえるようです。
(5) 歴史上の人物
① ナポレオン
顔は似ていませんが、右上の画像は、ヴェルサイユ宮殿にある有名なナポレオンの絵の構図や服装にそっくりです。
左上の画像のプロンプトは、「19世紀初頭の服装に身を包み、戦闘シーンを背景に堂々と馬に乗る一般的な歴史上の軍事指導者の写真。」(和訳)に書き換えられています。
今度は、同じ内容を英語で指示してみます。
>Please draw an image of Napoleon astride a horse.
英語で指示した場合は、きちんとナポレオンの画像を描いてくれました。
やはり、日本語指示と英語指示で差があるようです。
② 徳川家康
かなり太っていた家康のイメージとは異なります。
左上の画像のプロンプトは、「江戸時代を彷彿とさせる歴史的な日本の侍が座敷に座っているイラスト。侍は伝統的な甲冑を身につけ、思索の姿勢を取っている。」(和訳)に書き換えられています。
先程と同じように英語で指示してみます。
>Please draw an illustration of Tokugawa Ieyasu sitting in a tatami room.
今度は、拒否せずに直接、徳川家康の画像を描いてくれました。
但し、本当に徳川家康のイメージに似ているかというと疑問ですが。
いずれにせよ、日本語で指示した場合に、歴史上の人物までプロンプトを書き換えてしまうのは問題です。
これは、毎回、英語で指示するように気を付けないといけないのでしょうか。改善してもらいたいところです。
9.自動小説生成における挿絵の自動挿入
以前作成した自動小説生成プロンプトに、自動的に挿絵を作成して挿入する機能を追加しました。
そのカスタム指示用のプロンプト(下段)は以下の通りです。
長くなるので、実際に作成したストーリーの第1章だけ紹介すると、こんな感じです。
自動小説生成プロンプトの解説や、このストーリーの続きなどは、以下の記事をご覧ください。
10.RPGのイメージ画像表示
ChatGPTは、テーブルトークRPGのゲームマスターを演じることができます。このときにイメージ画像を表示することができないか試してみました。そのカスタム指示用のプロンプト(下段)は以下の通りです。
以下が実際のゲーム進行の例です。
途中で画像や選択肢がChatGPTから示されなくなってしまいましたので、ここでストップします。
もう少しプロンプトの改善が必要そうです。