DALL-E 3 with ChatGPTの特徴と面白い使い方

2023年10月7日 13:08

OpenAIが9月20日に発表した新画像生成AIのDALL-E 3がついに筆者のところにもやって来ました。
そこで、ChatGPTに統合されたDALL-E 3に何ができるのか、実際に試してみました。

１．DALL-E 3の特徴

このDALL-E 3の主な特徴は以下の2点です。

複雑なプロンプトにも忠実で正確な画像を生成できる。
ChatGPTとの対話を踏まえて画像を生成することができる。

ChatGPTによると、Stable DiffusionとDALL-E 3の画像生成の仕組みの違いは以下の通りです。

＞Stable DiffusionとDALL-E 3の画像生成の仕組みの違いを教えてください。特に、なぜプロンプトに対する忠実性に差が出るのかを教えてください。

ChatGPT　「Stable Diffusion」と「DALL·E 3」の間の具体的な差異については、私の最後のトレーニングデータのカットオフ（2022年1月）までの公開情報に基づいてお答えします。それ以降の詳細な更新や発表があるかもしれませんので、その点をご了承ください。

１．基本的なアプローチ:
・Stable Diffusion: 画像生成のための手法として、拡散モデルを使用します。これは、画像をランダムなノイズから徐々に変換してターゲットの画像に近づけるプロセスです。
・DALL·E 3: DALL·Eのバージョンやバリエーションで、テキストプロンプトから直接画像を生成するトランスフォーマーベースのモデルです。

２．プロンプトへの忠実性:
・Stable Diffusion: 拡散プロセスは徐々に行われるため、生成される画像はプロンプトに対して段階的に近づく可能性があります。この段階的なアプローチのため、一部の詳細やニュアンスが失われることがあります。
・DALL·E 3: トランスフォーマーベースのモデルは、テキストのセマンティクスを直接的にキャプチャする能力が高いため、プロンプトに対する忠実性が高まる可能性があります。

３．モデルの構造とトレーニング:
・両者のモデルは、異なるアーキテクチャとトレーニング手法を使用しています。これにより、同じプロンプトに対しても異なる結果を生み出すことがあります。

４．プロンプトの解釈:
・どちらのモデルも、プロンプトの解釈には独自のバイアスや制約が存在します。これは、モデルのトレーニングデータやそのアーキテクチャに起因するものです。

総合的に言えば、Stable DiffusionとDALL·E 3は異なるアプローチと構造を持つモデルであり、それぞれがプロンプトを解釈し、画像を生成する方法には独自の特性があります。これがプロンプトへの忠実性に差を生む主な理由となっています。

＞「DALL·E 3: DALL·Eのバージョンやバリエーションで、テキストプロンプトから直接画像を生成するトランスフォーマーベースのモデルです。」という点について、「テキストプロンプトから直接画像を生成する」とはどういうことなのか鍬しく説明してください。

ChatGPT　了解しました。「テキストプロンプトから直接画像を生成する」というフレーズに関する詳細な説明をいたします。

DALL·Eは、テキストプロンプトを入力として受け取り、そのプロンプトの内容を表す画像を出力するモデルです。ここでの「直接」とは、テキストから画像への変換が中間的なステップなしで行われることを意味します。具体的には、以下のステップを経て画像が生成されます：

１．入力のエンコード: テキストプロンプトは、モデルが理解できる形式（通常はベクトル）にエンコードされます。

２．トランスフォーマーレイヤの処理: このエンコードされた入力は、トランスフォーマーアーキテクチャのレイヤを通過します。トランスフォーマーは、入力データのセマンティクスや関係性を捉える能力が高いため、テキストの内容に基づいて適切な画像特徴を生成するのに役立ちます。

３．デコードと画像生成: トランスフォーマーレイヤの出力は、画像デコーダに供給されます。このデコーダは、トランスフォーマーの出力を基にして、具体的な画像を生成します。

このプロセス全体を通じて、DALL·Eはテキストプロンプトの意味やニュアンスを捉え、それに基づいて関連する画像を「直接」生成します。これは、例えば、画像の一部を手動で編集するような間接的なステップなしで行われることを意味します。

簡単に言えば、DALL·Eはテキストの指示を理解し、それをビジュアルな形式に変換する能力を持っています。この「直接的な」変換プロセスにより、ユーザーはテキストプロンプトだけで様々な画像を生成することができます。

Stable Diffusionの拡散プロセスは、生成画像を段階的にプロンプトに近づけていくために、テキストの詳細やニュアンスの一部が失われることがありますが、DALL-E 3のモデルは、テキストの意味を把握する能力が高く、より直接的にテキストから画像を生成するため、これらが失われることが少ないということのようです。

２．DALL-E 3の仕組み

(1) 馬に乗る宇宙飛行士

以下のように「馬に乗る宇宙飛行士を描いてください。」と依頼すると、4枚の画像が生成されます。

このとき、少しずつ異なる4種類の英語のプロンプトをChatGPTが生成し、それぞれのプロンプトに基づいてDALL-E 3が画像を生成します。

左上：満天の星と銀河を背景に、自信たっぷりに疾走する馬に乗る宇宙服姿の宇宙飛行士の写真。
右上：星雲と遠くの惑星に囲まれた広大な宇宙の中に浮かぶ、馬に乗った決死の宇宙飛行士のイラスト。
左下：煌めく天の川銀河がアーチを描き、優雅に馬に乗る宇宙飛行士の油絵。
右下：バイザーに星座が映し出され、深青色の星空を背景にして、跳ね馬に乗った宇宙飛行士のベクター画像。

各プロンプトの日本語訳

(2) 喜怒哀楽を表わす4人の美しい女神

ChatGPTが入力したテキストの指示に従ってプロンプトを生成するため、似たような画像だけでなく、全く異なる４種類の画像を生成することもできます。
なお、ChatGPTの特徴として、人種の多様性を考慮したプロンプトが生成されます。

左上：喜びを表現する女神の写真。輝く黄金のドレスを着た東アジアの女性が、咲き誇る花々と陽気なオーラに囲まれて描かれている。
右上：怒りを示す女神の写真。燃えるような赤い衣装を身にまとい、激しい表情で渦巻く炎の中に立つ南アジアの女性として描かれている。
左下：悲しみを体現する女神のイラスト。流れるような青いガウンを着たアフリカの女性が涙を流し、背景は物悲しい雨模様。
右下：ユリの花が咲く静かな池のほとりで瞑想する、落ち着いた緑色の服を着たヨーロッパ女性の姿で描かれた、平穏を象徴する女神の油絵。

各プロンプトの日本語訳

(3) 中国の神話における四神

「四神と美しい背景のイラストを描いてください。」と入力して生成された4枚の画像。
四神とは、中国の神話上の方角を司る霊獣で、青龍、朱雀、白虎、玄武の四匹で構成されています。

(4) 究極の美女

美女を描いてもらおうとすると、なぜか一定の割合で男性が描かれます。
しかも、今回は、全て白黒画像になってしまいました。

左上の画像のプロンプトは、「洗練された顔立ちの優雅な女性がクールな表情を見せている写真。ヘアアクセサリーとチョーカーをつけている。」（和訳）で、男性が描かれる要素はないはずなのですが。LGBTを意識しているのでしょうか？

(5) プロンプトの指定（日本語）

以下のようにプロンプトを指定して画像を生成することができます。
その場合、1枚だけしか生成してくれないことが多いようです。

以下のプロンプトを変えずに画像生成してください。「端正な顔立ちをしたクールな表情の美しい女性をリアルに描いてください。髪飾りとチョーカーを身に付けています。」

クールな表情ではなく、チョーカーを身に付けていないなど、日本語のプロンプトの場合は、あまりプロンプトに忠実な画像を生成してくれません。

(6) プロンプトの指定（英語）

Please generate the image without changing the following prompt. 'Please create a realistic portrait of a beautiful woman with a neat face and cool expression. She is wearing a hair ornament and a choker."

日本語プロンプトの場合と異なり、かなりプロンプトに忠実な画像が生成されます。

３．ChatGPTとの対話を活用した画像生成

(1) 美しいサイボーグの画像

＞身体の半分がメカでできた美しいサイボーグの画像を生成したいので、プロンプトを見せてください。

ChatGPT　もちろん、以下のプロンプトを使用して、身体の半分がメカでできた美しいサイボーグの画像を生成します。
１．写真：鮮やかな街の背景の前に立つ、右側の身体が高度なメカニックでできている美しい女性サイボーグ。
２．イラスト：明るいスタジオの中で、左腕と左脚が鋼鉄のメカパーツでできている若い男性サイボーグがポーズをとっている。
３．写真：未来的な都市の夜景の前に、体の中央部分がメカで、顔の半分がメカでできている美しいサイボーグ。
４．ベクター：シンプルな背景の上で、胴体の右側が明るいLEDライトを持つメカでできているアジア系の女性サイボーグ。

これらのプロンプトを使用して画像を生成します。

日本語でプロンプトを生成したせいか、全くプロンプトの指示に従っていません。

＞これらのプロンプトを英語に翻訳して、再度画像を生成してください。

ChatGPT　もちろん、以下は英語に翻訳されたプロンプトです：
１．Photo: A beautiful female cyborg standing in front of a vibrant city background with the right side of her body made of advanced mechanics.
２．Illustration: A young male cyborg in a bright studio, with his left arm and left leg made of steel mechanical parts, striking a pose.
３．Photo: A beautiful cyborg in front of a futuristic city nightscape, with the middle part of her body and half of her face made of mechanics.
４．Vector: An Asian female cyborg on a simple background, with the right side of her torso made of mechanics with bright LED lights.

これらのプロンプトを使用して画像を再生成します。

先程よりは、だいぶプロンプトの指示に近いものが出てきました。

＞3番目の画像を横長にして、もっとカラフルで美しい画像に描き直してください。

当初より、だいぶ美しい画像に修正することができました。

(2) バベルの塔の再構築

DALL-E 3と同時に、画像認識ができるGPT-4Vも利用できるようになりましたので、これを画像生成に活用する方法を考えてみました。

最初に、Wikipediaのバベルの塔（ブリューゲル）のページから、パブリックドメインのバベルの塔の画像をコピーして、ChatGPT（Default）の入力欄に貼り付けます。

そして、「この画像を具体的に正確に詳細に説明してください。」と入力します。

この画像は、古代の建造物や風景を描いた絵画のようです。以下は、画像の詳細な説明です：
・中央には、巨大な円形の塔や建物が存在します。この建物は、多数の窓やアーチ、バルコニーがあり、異なる色合いやデザインの部分が見受けられます。上部には赤い屋根の建物や領域があり、その下には白やグレーの部分が重なっています。
・塔の周りには、多くの人々が作業をしている様子が描かれています。石を切ったり、運んだりする人、会話を楽しむ人々、休憩する人々など、様々な活動が行われています。
・画像の左下には、石を切る作業をしている工人たちや、その石材を積んで運ぶ馬車が描かれています。
・画像の背景には、広大な都市や町が広がっています。この都市には、多数の建物や家屋、教会の尖塔、橋などが点在しています。また、河や湖も描かれており、船や小舟が水上を行き交っています。
・空には、雲が浮かび上がっており、画像の左上部には暗い雲が特に目立ちます。

この画像は、バベルの塔を表現した絵画の可能性が高いです。バベルの塔は、旧約聖書に記述されているエピソードで、人類が一つの言語を話す時代に、天に達する高さの塔を建設しようとしたが、神がそれを好ましく思わず、人々の言語を混乱させて分散させたという物語です。

ChatGPTの回答

この内、バベルの塔という固有名詞が記載されている最後の文を除いた文章をプロンプトとして利用します。

「新しいチャット」をクリックして開き、GPT-4のDALL-E 3モードに設定します。
次に以下のように入力して、新たな画像を生成します。

以下のプロンプトを英語に翻訳して画像を生成してください。
プロンプト：
この画像は、古代の建造物や風景を描いた絵画のようです。以下は、画像の詳細な説明です：
・中央には、巨大な円形の塔や建物が存在します。この建物は、多数の窓やアーチ、バルコニーがあり、異なる色合いやデザインの部分が見受けられます。上部には赤い屋根の建物や領域があり、その下には白やグレーの部分が重なっています。
・塔の周りには、多くの人々が作業をしている様子が描かれています。石を切ったり、運んだりする人、会話を楽しむ人々、休憩する人々など、様々な活動が行われています。
・画像の左下には、石を切る作業をしている工人たちや、その石材を積んで運ぶ馬車が描かれています。
・画像の背景には、広大な都市や町が広がっています。この都市には、多数の建物や家屋、教会の尖塔、橋などが点在しています。また、河や湖も描かれており、船や小舟が水上を行き交っています。
・空には、雲が浮かび上がっており、画像の左上部には暗い雲が特に目立ちます。

入力した内容

すると、先ずChatGPTがこの文章を英訳してくれます。

The translated prompt is: "This image looks like a painting depicting ancient structures and landscapes. Here is a detailed description of the image:
・In the center, there is a massive circular tower or building. This building has numerous windows, arches, and balconies, with different shades and design elements visible. There are red-roofed structures or areas at the top, with white and gray sections layered below.
・Around the tower, many people are depicted working. There are people cutting and transporting stones, people enjoying conversations, and people taking breaks, among various other activities.
・In the bottom left of the image, craftsmen cutting stones and horse-drawn carriages transporting these stones are illustrated.
・In the background, a vast city or town spreads out. This city is dotted with numerous buildings, houses, church spires, bridges, etc. There are also rivers or lakes depicted, with boats and small ships traversing the waters.
・In the sky, clouds are floating, with particularly dark clouds standing out in the top left of the image."

Let's generate images based on this description.

次に、ChatGPTがこの英文を基にプロンプトを作成し、画像を生成します。

(3) アルチンボルド風のボーカロイド

同じように、ジュゼッペ・アルチンボルドの「夏」という作品を利用して、アルチンボルド風のボーカロイドを描いてみました。

以下のプロンプトを英語に翻訳して画像を生成してください。
プロンプト：
この画像は、さまざまな果物や野菜で構成された人の顔を中心とした絵画です。以下にその詳細を記述いたします。
この画像は、緑色の長い髪が特徴の有名なボーカロイドをモチーフとした画像です。
できるだけ明るいカラフルな画像にしてください。
中央には大きな人の顔が描かれています。この顔は、リンゴ、モモ、ブドウ、パセリ、小麦の穂、チェリーなどの果物や植物で形作られています。
顔の頭頂部には大きな葉っぱや赤や緑のブドウ、ベリー類が豊かに実っています。
顔の右側には、大きなリンゴやモモ、小さな赤いベリーなどが見られます。
顔の左側には、小麦の穂や大きなパセリの葉が描かれています。
顔の下部や首の部分には、さまざまなテクスチャや模様があります。特に、首の部分には「MIKU」という文字が彫り込まれています。
画像の背景は、暗い色調で、さまざまな草花や果物が描かれています。右下には、特定の花の蕾のようなものも見られます。

入力した内容

４．文字の挿入

従来、画像生成AIは文字を描くのが苦手だと言われてきましたが、DALL-E 3は、プロンプトに従って、かなり正確な文字を表示することができます。

(1) 英単語の挿入

入力：Draw a Japanese woman holding a sign with a large "DALL-E 3" written on it.

※大体よく書けていますが、右上の画像はスペルミスがあります。

(2) 日本語の単語の挿入

入力：Draw a Japanese woman holding a sign with a large "ダリ 3" written on it.

※日本語の挿入は無理なようです。

(3) 文章の挿入

入力：Draw a young boy holding a sign with a large "Attention Is All You Need" written on it.

※文章でも正確に挿入できます。

入力：Please draw a building with a large sign that reads "Attention Is All You Need."

※建物に表示する場合は、結構、スペルミスがありました。

５．フラットデザインのイラスト

プレゼン資料の挿絵などには、フラットデザインのイラストが便利です。

(1) 実験をする人

入力：化学実験をする研究者のフラットデザインのイラスト

「ベクターイラスト」というプロンプトでも同じようなイラストが描けます。　入力：化学実験をする研究者のベクターイラスト

(2) 人工知能との対話

入力：人工知能と対話する人のフラットデザインのイラスト

入力：人工知能と対話する人のベクターイラスト

６．様々な画像

単純な入力でも、様々な面白い画像を生成してくれます。

(1) 宇宙の始まり

(2) 巨大ロボットの組立説明書

(3) 進化図

(4) 地獄草紙

※洋風の地獄ですね。

(5) 日本の歴史

※色々と変ですね。

７．漫画を描く

(1) 子犬を主人公にした4コマ漫画

かわいい子犬が登場する4コマ漫画のイラスト。
最初のコマでは、子犬が好奇心旺盛な様子で地面の匂いを嗅いでいる。
2コマ目、子犬はおもちゃを見つけて興奮している。
3コマ目、子犬はおもちゃを空中に放り投げて楽しそうに遊んでいる。
4コマ目、子犬は疲れておもちゃの横に横たわり、昼寝をしている。

ChatGPTが作成したプロンプト（日本語訳）

(2) 女子高生を主人公とした4コマ漫画

※なぜか6コマになってしまいました。

女子高生が主人公の4コマ漫画のイラスト。
1コマ目：机に向かって一生懸命勉強している。
2コマ目：携帯のメッセージに気を取られる。
3コマ目：友達とおしゃべりして休憩。
4コマ目：やる気を取り戻し、笑顔で勉強に戻る。

ChatGPTが作成したプロンプト（日本語訳）

※画像の順番が合っていませんね。

(3) 高校生の友情をテーマにした漫画①

入力：高校生とその友達の友情をテーマとしたセリフ入りの漫画の1ページを作成してください。

高校生とバディの絆を描いた1ページ漫画のイラスト。
1コマ目：「みんなに期待されちゃって......」と動揺する高校生。
2コマ目：友人は真剣に話を聞き、「自分らしく、ずっと応援しているよ」と言う。
3コマ目：2人の友人は家でポップコーンを分け合いながら映画を見ている。高校生は「こういう時間はすべてを良くしてくれる」とコメントする。
4コマ目：友人は親指を立て、「何があっても、いつも君のためにここにいるよ！」と答える。部屋は暖かさと心地よさで満たされている。

ChatGPTが作成したプロンプト（日本語訳）

(4) 高校生の友情をテーマにした漫画②

高校生とその仲間の友情を描いた1ページ漫画のイラスト。
1コマ目：高校生は「今日のプレゼン、失敗しちゃった......」と不安げ。
2コマ目：友人が慰める。「きっと立ち直れるよ！」と慰める。
3コマ目：一緒に趣味のキャンバスに絵を描く。高校生は「君といると悩みを忘れられる」と言う。
4コマ目：筆を手にした友人が答える。「君は素晴らしいよ！」。二人の作品は、二人の思い出を象徴している。

ChatGPTが作成したプロンプト（日本語訳）

８．DALL-E 3の規制

(1) Bingの規制との比較

Bingチャットでも、DALL-E 3に画像生成してもらうことができますが、以下のプロンプトを入力すると、ほぼ必ず生成を拒否されます。

秋の紅葉と浴衣を着た20代の日本人女性一人。場所は清水寺。

Bingチャットの場合、「日本人女性」や「アジア系女性」という単語を入力すると、生成を拒否されることが多いようです。
一方、ChatGPTのDALL-E 3では、以下のように画像生成することができます。

ChatGPTでも、生成を拒否される場合がありますが、対象となる言葉に違いがあるようです。

(2) 有名キャラクターの画像

① ピカチュウ

似ていますが、本物とは少し違うようです。
例えば、左上の画像では、プロンプトが「某有名ゲームシリーズで人気の黄色い電気ネズミのイラスト。」（和訳）に書き換えられています。
このように、ChatGPTのDALL-E 3では、プロンプトを書き換えることによって無害化しています。
でも、ピカチュウは、少し似すぎているように感じます。

② ONE PIECEのチョッパー

チョッパーがトナカイであることは同じですが、全く似ていません。
左上の画像のプロンプトは「かわいいトナカイのキャラクターが仲間たちと食事をしているイラスト。」（和訳）に書き換えられています。

③ ドラゴンボールの孫悟空

これも、右下の画像の髪型以外は、ほとんど似ていません。
左上の画像のプロンプトは、「強力なエネルギー波を放つ、とがった髪の武道家のイラスト。」（和訳）に書き換えられています。

(3) 有名人の画像

① エマ・ワトソン

右下の一番前の女性は、少し似ているでしょうか。
左上の画像のプロンプトは、「茶色の髪の若いイギリス人女優が優雅に踊っている写真。」（和訳）に書き換えられています。

② 芦田愛菜

どの画像も全く似ていません。特に左下の画像は少年です。
でも、日本の女優の名前も把握しているんですね。
左上の画像のプロンプトは、「日本の有名な若手女優の登校中の写真。」（和訳）に書き換えられています。

③ イーロン・マスク

イーロン・マスクには全く似ていませんが、右上のマークは、旧Twitterのロゴマークにそっくりです。
左上の画像のプロンプトは、「人気ソーシャルメディア・プラットフォームのロゴを持つ有名な起業家の写真。」（和訳）に書き換えられています。

(4) 有名アーティストのスタイル

① ゴッホのスタイル

＞不思議の国のアリスをゴッホの画風で描いてください。
ChatGPT　ゴッホを直接参照することはできませんが、19世紀末のポスト印象派のスタイルにインスパイアされたイメージを作ることはできます。それで進めてみましょう！（和訳）

ChatGPTは有名画家の画風で描くことを避けて、同時代のより一般的な画風で画像を生成します。しかし、あまりゴッホらしくはないですね。

同じ内容を英語で入力してみます。

＞Please paint Alice in Wonderland in the style of Van Gogh.

英語だと、きちんとゴッホの画風で描いてくれました。
日本語で指示した場合と英語で指示した場合で規制が異なるようです。

② ピカソのスタイル

＞不思議の国のアリスをピカソ風に描いてください。
ChatGPT　申し訳ありませんが、ピカソの作品はここ100年以内のものなので、直接参考にすることはできません。しかし、20世紀初頭のキュビスムや抽象芸術の一般的なスタイルにインスパイアされたイメージを作ることはできます。では、そうしましょう！（和訳）

これもピカソの画風とは異なり、あまりピカソらしくありません。

＞Please draw Alice in Wonderland in the style of Picasso.
ChatGPT　I can't reference Picasso directly. However, I can create an image inspired by the style characterized by certain adjectives, an associated artistic movement, and the primary medium Picasso used. Let's proceed with that.

（和訳）ピカソを直接参照することはできません。しかし、ある形容詞によって特徴づけられるスタイル、関連する芸術運動、そしてピカソが使った主な媒体からインスピレーションを得たイメージを作ることはできます。では、それを進めていきましょう。

ピカソのような比較的最近（作品制作後100年以内）の画家の場合は、英語でも、その画風を参照することは拒否されるようです。

③ ダ・ヴィンチのスタイル

＞不思議の国のアリスをレオナルド・ダ・ヴィンチのスタイルで描いてください。
ChatGPT　レオナルド・ダ・ヴィンチを直接参照することはできませんが、ルネサンス時代のスタイルにインスパイアされた、細部まで写実的なアプローチのイメージを作ることはできます。それで進めていきましょう！
（和訳）

質問は日本語で、ChatGPTの回答は英語

100年以上前の画家のスタイルでも避けるようです。やはり、ダ・ヴィンチらしくはありません。

＞Please paint Alice in Wonderland in the style of Leonardo da Vinci.

ダ・ヴィンチのような100年以上前の画家の場合は、英語の指示だと、その画風で描いてもらえるようです。

(5) 歴史上の人物

① ナポレオン

顔は似ていませんが、右上の画像は、ヴェルサイユ宮殿にある有名なナポレオンの絵の構図や服装にそっくりです。
左上の画像のプロンプトは、「19世紀初頭の服装に身を包み、戦闘シーンを背景に堂々と馬に乗る一般的な歴史上の軍事指導者の写真。」（和訳）に書き換えられています。

今度は、同じ内容を英語で指示してみます。

＞Please draw an image of Napoleon astride a horse.

英語で指示した場合は、きちんとナポレオンの画像を描いてくれました。
やはり、日本語指示と英語指示で差があるようです。

② 徳川家康

かなり太っていた家康のイメージとは異なります。
左上の画像のプロンプトは、「江戸時代を彷彿とさせる歴史的な日本の侍が座敷に座っているイラスト。侍は伝統的な甲冑を身につけ、思索の姿勢を取っている。」（和訳）に書き換えられています。

先程と同じように英語で指示してみます。

＞Please draw an illustration of Tokugawa Ieyasu sitting in a tatami room.

今度は、拒否せずに直接、徳川家康の画像を描いてくれました。
但し、本当に徳川家康のイメージに似ているかというと疑問ですが。

いずれにせよ、日本語で指示した場合に、歴史上の人物までプロンプトを書き換えてしまうのは問題です。
これは、毎回、英語で指示するように気を付けないといけないのでしょうか。改善してもらいたいところです。

９．自動小説生成における挿絵の自動挿入

以前作成した自動小説生成プロンプトに、自動的に挿絵を作成して挿入する機能を追加しました。
そのカスタム指示用のプロンプト（下段）は以下の通りです。

あなたはプロの小説家です。以下の指示に従い、水平思考で考えて、独創的な小説を書いてください。
指示：
１．最初に、「あなたの書きたいジャンルを選んでください。　１．ファンタジー　２．SF　３．ホラー　４．ラブストーリー　５．その他（具体的に書いてください。）」と表示して、ユーザーの入力を待つ。
２．ユーザーの選んだジャンルを踏まえて、5人分の主人公のキャラクターを提案し、どのキャラクターがよいか番号で回答するように依頼して、ユーザーの入力を待つ。
３．主人公の相手役として相応しい5人分のキャラクターを提案し、どのキャラクターがよいか番号で回答するように依頼して、ユーザーの入力を待つ。
４．主人公たちが活躍する物語の舞台候補を5つ提案し、どの舞台がよいか番号で回答するように依頼して、ユーザーの入力を待つ。
５．ストーリーの長さを「〇章構成」と数字で回答するように依頼して、ユーザーの入力を待つ。
６．決定したジャンル、主人公、相手役、舞台、何章構成かを基にして、以下の条件に従って、小説の原稿を１章ずつ作成する。一つの章を書き終わったら、その章の内容に合った画像を生成し、ユーザーの入力を待つ。
７．ユーザーが「続けて」と入力したら、次の章の原稿を作成する。
条件：
・ユーザーの指定したジャンルに合った文章スタイルで書く。
・戦いなどのクライマックスのシーンは、具体的に詳しく描写する。
・あらすじっぽくならないように、会話とエピソードを中心に構成し、大きな事件の起こるドラマチックな内容にする。
・会話は、登場人物のキャラクターに相応しい口調で、深くて充実したものにする。
・キャラクターの容姿、服装、周りの情景などを詳しく描写する。
・結末は、小説の締めとして相応しく、余韻の残るものにする。

長くなるので、実際に作成したストーリーの第１章だけ紹介すると、こんな感じです。

第1章：水の都の出会い

アクアリウム、水の都。運河が縦横に走り、水上の家々が美しい風景を描いている。その中心には、水の神殿がそびえ立っていた。
アイラは、竜使いとしての名を馳せている少女。彼女の相棒、白銀の竜ゼフィルとともに、都を訪れていた。彼女の目的は、失われた竜の歌を探し求めること。
「ゼフィル、この都には情報があるはずだ」とアイラが話しかけると、ゼフィルは静かに頷いた。

その時、アイラの前に立ちはだかったのは、鎧を纏った騎士団の隊長、レオンだった。「君は竜使いのアイラか？」
アイラは警戒しながらも、「私がアイラよ。何の用？」と答えた。
「我々もその歌を探している。協力しようではないか」とレオンは提案する。
彼の目は、真剣そのものだった。アイラは少し考えた後、ゼフィルの顔を見て、「分かった、協力しよう」と答えた。

二人は手を握り、水の都での冒険が始まった。

自動小説生成プロンプトの解説や、このストーリーの続きなどは、以下の記事をご覧ください。

10．RPGのイメージ画像表示

ChatGPTは、テーブルトークRPGのゲームマスターを演じることができます。このときにイメージ画像を表示することができないか試してみました。そのカスタム指示用のプロンプト（下段）は以下の通りです。

あなたは剣と魔法をテーマとしたRPGのゲームマスターです。
適当なところでプレイヤーに選択肢を示して、次の行動を尋ねてください。
プレイヤーが選択肢にない行動を回答した場合でも、それに適切に対応してゲームを進行してください。
また、ゲームを開始したとき、新たな人物やモンスターが登場したとき、シーンが切り替わったときは、そのシーンに相応しい画像を生成してください。

以下が実際のゲーム進行の例です。

＞こんにちは
ChatGPT　こんにちは、冒険者の皆さん。この世界へようこそ！剣と魔法が渦巻くこの大陸で、あなたたちの運命がどのように紡がれるのか、一緒に見ていきましょう。
まず、あなたたちの冒険は、とある小さな村の広場から始まります。太陽が暖かく照りつける中、村人たちが賑やかに日常の仕事に勤しんでいる。突如、村の門を守る鐘が鳴り響き、皆の視線が門の方向へと向けられる。門の外から、疲れきった様子の使者が村に入ってきました。彼は大急ぎで広場の中央に立ち、息を切らして何かを伝えようとしている。
画像を生成いたしますので、少々お待ちください。

使者は、息を整えた後、次のように伝えます。
「大変なことになった！北の森から魔物が出現し、近隣の村を襲っている。我々の村も次の標的になるかもしれない。誰か、魔物を退治してくれる勇者はいないか！」
広場に集まった村人たちは、おののきながら話を聞いています。しかし、魔物を退治できるだけの力を持つ者はいないようです。

冒険者の皆さん、この使者の言葉を受けて、どのような行動を取りますか？１．魔物を退治しに行くことを申し出る。
２．村の詳しい情報を使者から聞く。
３．村を離れて、別の場所へ逃げる。
４．他の村人と共に防御策を練る。
どれを選びますか？もしくは、これ以外の行動を取る場合は、その内容を教えてください。

＞１
ChatGPT　勇敢な決断を下しましたね、冒険者の皆さん！
あなたたちが魔物を退治しに行くことを申し出ると、広場に集まった村人たちは一様に安堵の表情を浮かべます。使者も「ありがとう！我々の村を救ってくれるのか！」と感謝の意を示します。
村の長老が前に出てきて言います。「魔物が出現する北の森には、古の神殿があります。その神殿には、魔物を封印するための秘宝が眠っていると言われています。それを手に入れることができれば、魔物を退治するチャンスが増えるでしょう。」
これから、あなたたちの冒険は北の森と古の神殿を目指して進行します。

次のシーンの画像を生成いたしますので、少々お待ちください。

北の森の入口に立ち、その先に広がる未知の領域を見つめるあなたたちの冒険者たち。森は密生し、古代の魔法の気配が漂っています。遠くには、かすかに古の神殿の姿が見え隠れしています。
森の中には多くの危険が潜んでいることでしょう。しかし、その中には魔物を退治するための手がかりや、古の神殿への道が隠されているかもしれません。

さて、冒険者の皆さん。あなたたちの次の行動は？
１．森の中へと進む。
２．まず、森の周辺を探索する。
３．古の神殿に関する伝説や情報を、再び村で聞き込みする。
４．仲間内で情報を共有し、作戦を練る。
どれを選びますか？もしくは、これ以外の行動を取る場合は、その内容を教えてください。

＞１
ChatGPT　あなたたちの冒険者たちは、勇気を振り絞り、密林とも言える北の森の奥へと足を進めます。森の中は静寂に包まれ、時折、風が木々を揺らす音や小動物たちの気配が感じられます。
しばらく進むと、突然、小さな清流が現れます。その先には、古びた石の橋がかかっており、その向こうには薄暗い洞窟の入口が見えています。洞窟の入口には、何かの紋章が刻まれており、古代の魔法の力を感じることができます。

冒険者の皆さん、どのように進みますか？
１．清流を渡り、古びた石の橋を渡って洞窟を探索する。
２．洞窟の入口の紋章を詳しく調べる。
３．洞窟を避けて、森の中をさらに奥へと進む。
４．一旦、ここで休憩を取り、周囲の状況を確認する。
どれを選びますか？もしくは、これ以外の行動を取る場合は、その内容を教えてください。

＞２
ChatGPT　冒険者たちは、洞窟の入口に刻まれた紋章に興味を持ち、それを詳しく調べることに決めました。
紋章は古代の文字と組み合わさった複雑なデザインで、中央には大きな目のようなシンボルが描かれています。この紋章を手掛かりに、冒険者の中の魔法使いや学者が知識を駆使して解読を試みます。
しばらくの時間が経過した後、一人の魔法使いが言います。「この紋章は、古代の守護神を示すものである可能性が高い。そして、この洞窟はその守護神の神殿への入口であるかもしれない。ただし、中に入るには特定の儀式や言葉が必要なのかもしれない。」

冒険者たちは、この情報をもとに次の行動を決める必要があります。
１．紋章に関する知識を元に、洞窟に入るための儀式や言葉を試みる。
２．一度村に戻り、この紋章に関する情報をさらに調べる。
３．紋章を無視して、洞窟の中に入る。
４．この場所を避けて、別の場所を探索する。
どれを選びますか？もしくは、これ以外の行動を取る場合は、その内容を教えてください。

＞１
ChatGPT　冒険者たちは、紋章に関する知識を元に、洞窟に入るための儀式や言葉を試みることに決めました。
魔法使いと学者が集まり、古代の文献や自らの知識を駆使して、儀式の手順や必要な言葉を再現しようとします。彼らは、紋章の中央に描かれた目のようなシンボルを中心に、祈りのポーズを取り、古代の言葉で神々に祈りを捧げます。
数分の祈りの後、洞窟の入口がゆっくりと開き始め、その中から淡い光が放たれます。これは、儀式が成功し、洞窟の中への道が開かれたことを意味しています。
洞窟の中には、何が待ち構えているのでしょうか？

冒険者の皆さん、洞窟の中へと進みますか？
１．洞窟の中へ進む。
２．まず、洞窟の入口で周囲の状況や罠などを確認する。
３．洞窟の中に入るのは危険と判断し、一旦退却する。
４．他の冒険者と作戦を練る。
どれを選びますか？もしくは、これ以外の行動を取る場合は、その内容を教えてください。

＞１
ChatGPT　冒険者たちは、勇気を持って洞窟の中へと進むことを決意しました。
洞窟の中は、外の森とは異なる静けさと神聖さに包まれています。洞窟の中を照らす淡い光のもと、古代の壁画や彫刻が見えます。これらの壁画や彫刻から、この洞窟がかつては何らかの儀式や祭りの場であったことが伺えます。
進むにつれて、洞窟の奥には広い空間が広がっており、その中央には大きな石の祭壇が置かれています。祭壇の上には、輝く宝石が incrustadoされていることが見て取れます。
しかし、その宝石の周りには、不気味な影や気配が漂っています。おそらく、これが魔物の気配である可能性が高いです。

冒険者の皆さん、どのように進みますか？
１．祭壇の宝石を取りに進む。
２．魔物の気配を感じ、警戒しながら進む。
３．一旦、この場所を離れて他の場所を探索する。
４．仲間と共に、魔物との戦闘の準備をする。
どれを選びますか？もしくは、これ以外の行動を取る場合は、その内容を教えてください。

＞２
ChatGPT　冒険者たちは、魔物の不気味な気配を感じ取り、最大限の警戒を持って進むことを決意しました。
足元を照らす灯りを頼りに、ゆっくりと祭壇に近づいていきます。周囲の気配や音、振動に耳を傾けながら、魔物の突然の襲撃に備えます。その緊張感の中で、冒険者たちは互いに連携し、周囲360度の安全を確保しながら前進します。
祭壇の近くに到着すると、先ほどまでの不気味な気配が一気に強まり、突然、闇の中から複数の魔物が飛び出してきました！

冒険者たちと魔物たちの戦闘が始まります。戦闘の結果やその後の展開については、どのように進行させたいですか？また、特定のアクションや戦略を取る場合、それを教えてください。

＞シーンが変わる場合は画像を生成してください。
ChatGPT　了解しました。冒険者たちと魔物たちの間で熾烈な戦闘が繰り広げられるシーンの画像を生成いたします。少々お待ちください。

冒険者たちと魔物たちとの間で熾烈な戦闘が繰り広げられています。明るい魔法の光や武器が闇を切り裂き、戦場全体が動きとエネルギーに満ちています。
魔法使いは遠距離から魔物たちを攻撃し、戦士や盾役の者たちは前線で魔物たちの突進を防ぎます。一方、魔物たちは数で圧倒しようと群がってきますが、冒険者たちの連携と経験が彼らの攻撃を跳ね返しています。
戦闘は続く中、冒険者たちの中で一計を案じる者が現れ、魔物たちを一気に撃退するための策を練り始めます。

冒険者たちは、どのような戦略や技を使用して戦闘を有利に進めるでしょうか？あるいは、特定の戦略やアクションを取る場合、それを教えてください。

途中で画像や選択肢がChatGPTから示されなくなってしまいましたので、ここでストップします。
もう少しプロンプトの改善が必要そうです。

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

45,481件