見出し画像

ChatGPTのDALL-Eを利用して画像生成プロンプトを作成する裏技

ChatGPTの画像生成AIであるDALL-Eは、ユーザーの入力したプロンプトでそのまま画像生成するのではなく、ユーザーのプロンプトからChatGPTがより詳しい画像生成用のプロンプトを作成し、そのプロンプトで画像生成をしています。

この仕組みを利用して、簡単なプロンプトから詳細で効果的なプロンプトを作成することができます。
その場合、ChatGPT(DALL-E)は、画像生成プロンプト作成器のような働きをすることになります。


1.DALL-Eで描いた画像のプロンプトを見る方法

(1) 公式GPTsのDALL-E

ChatGPTで画像を生成する場合は、公式GPTsのDALL-Eを使用すると、一度に2枚の画像を生成してくれるので便利です。

(2) PC用ウェブサイトでの操作

このGPTsで「浅草で三色だんごを食べているアニメ少女」と入力すると、以下のような2枚の画像が生成されました。

画像をクリックすると、その画像が拡大表示されます。
次に、右上のⓘをクリックすると、ChatGPTが作成し、画像生成に使用された英語のプロンプトが以下のように表示されます。
なお、どちらの画像を選んでも、プロンプトは同じです。
また、ここで「コピーする」をクリックすると、英語のプロンプトがコピーされます。

この画像のプロンプトは以下のとおりです。

An anime-style illustration depicting a cheerful girl with bright eyes and a warm smile enjoying traditional Japanese three-colored dango in Asakusa. She is sitting on a bench near the bustling street, surrounded by lanterns, traditional buildings, and people walking by in kimonos. The scene captures the essence of Asakusa with the Senso-ji temple pagoda visible in the background. The girl wears a casual outfit with pastel colors, her hair styled in twin braids adorned with small cherry blossom clips, giving a springtime vibe. The dango is held in her hand, and she looks excited as she takes a bite.
【日本語訳】
アニメ風のイラストで、明るい瞳と温かい笑顔を持つ陽気な少女が浅草で伝統的な三色団子を楽しんでいる様子を描いている。彼女は賑やかな通りの近くのベンチに座り、周りには提灯や伝統的な建物があり、着物を着た人々が行き交っている。この場面は、浅草の雰囲気を見事に捉えており、背景には浅草寺の五重塔が見える。少女はパステルカラーのカジュアルな服装をしており、髪はツインブレードに結ばれ、小さな桜の髪飾りで飾られていて春の雰囲気を醸し出している。彼女は手に団子を持ち、一口かじろうとしながら興奮した様子で微笑んでいる。

最初に入力した「浅草で三色だんごを食べているアニメ少女」という簡単なプロンプトから上記のような具体的で詳細なプロンプトがChatGPTによって作成されました。

(3) スマホアプリでの操作

ChatGPTのスマホアプリでDALL-Eが生成した画像のプロンプトを見る方法は以下のとおりです。

最初に画像をタップして拡大し、右上の三点リーダーをタップすると、以下の左図のようにメニューが表示されます。
次に、「プロンプトを表示する ⓘ」をタップすると、右図のように英語のプロンプトが表示されます。
また、ここで「コピーする」をタップすると、英語のプロンプトがコピーされます。

2.簡単なプロンプトから詳細な画像生成プロンプトを作成

(1) 画像生成プロンプトの作成

「着物を着たアニメ少女」と入力して、DALL-Eで画像を生成しました。

ChatGPTが作成したこれらの画像のプロンプトは以下のとおりです。

An anime-style illustration of a young girl wearing a traditional Japanese kimono. The kimono should be elaborately decorated with floral patterns, featuring cherry blossoms and subtle hints of gold embroidery. Her hair should be styled in a traditional updo with decorative hairpins (kanzashi). The setting should be serene, with the girl standing in a Japanese garden during spring, surrounded by blooming cherry trees and a small pond in the background.
【日本語訳】
アニメ風のイラストで、伝統的な日本の着物を着た若い少女が描かれている。着物は桜の花模様と金糸刺繍のさりげないアクセントで精巧に装飾されているべきである。彼女の髪は伝統的なアップスタイルでまとめられ、飾りかんざしが添えられている。場面は静かで、春の日本庭園の中で少女が立っており、背景には満開の桜の木々と小さな池が見える。

(2) 画像生成プロンプトの使用例

① DALL-Eで使用

上記の英語プロンプトをコピーしてDALL-Eに入力し、再度、画像生成を行いました。

② FLUX.1で使用

Grokに上記の英語プロンプトを入力して、FLUX.1で画像生成しました。
少し実写風の画像になりました。

③ ImageFXで使用

GoogleのAI Test KitchenImageFXで上記の英語プロンプトを使用して画像生成しました。

ImageFXでは、オレンジ色でマーキングされた部分の単語を他の選択肢に変更して、画像を様々にアレンジすることができます。

右上の画像の拡大図

④ Recraft V3で使用

Recraft V3で上記の英語プロンプトを使用して画像生成しました。

画像の拡大

3.好みの画像から画像生成プロンプトを作成

(1) 画像生成プロンプトの作成

フェルメールの代表作である「真珠の耳飾りの少女」の画像を使って、画像生成プロンプトを作成してみました。

出典:Wikipedia

最初に、ChatGPT(GPT-4oモデル)の入力欄に画像を貼り付けて「再現して」と入力します。
すると、以下のように元の画像をできる限り再現した画像が生成されます。

次に、生成された画像をクリックして拡大表示し、右上のⓘマークをクリックして英語プロンプトを表示させます。

ChatGPTが作成した画像のプロンプトは以下のとおりです。

a realistic and detailed recreation of the famous painting 'Girl with a Pearl Earring' by Johannes Vermeer. Capture the unique lighting, subtle expression, and soft colors of the original. The girl should have a blue headscarf, pearl earring, and look over her shoulder with a gentle, contemplative gaze. The background should be dark and simple to emphasize the subject. Include the nuanced details of brushstrokes and texture.
【日本語訳】
「真珠の耳飾りの少女」で知られるヨハネス・フェルメールの有名な絵画を現実的かつ詳細に再現する。独特の照明、微妙な表情、そしてオリジナルの柔らかな色彩を捉えること。少女は青い頭巾を身に着け、真珠の耳飾りをして、肩越しに穏やかで思索的な視線を向けるようにする。背景は被写体を強調するために暗くシンプルに保つこと。筆使いや質感の微妙なディテールも含めること。

(2) 画像生成プロンプトの使用例

① DALL-Eで使用

上記の英語プロンプトを少しアレンジして、少女を日本人に変更した画像をDALL-Eに生成してもらいました。プロンプトの最後に「日本人女性」と追加しています。

右側の画像の拡大図

この画像のプロンプトは以下のとおりです。
内容はあまり変わりませんが、「featuring a Japanese woman」が追加されています。

A realistic and detailed recreation inspired by 'Girl with a Pearl Earring' by Johannes Vermeer, featuring a Japanese woman. She is depicted with a blue headscarf and a pearl earring, glancing over her shoulder with a gentle, contemplative expression. The scene is lit with soft, diffused light to replicate the unique illumination of the original painting. The background is dark and simple to emphasize the subject, while nuanced details such as brushstrokes and textures are subtly represented to reflect a painted effect.

② FLUX.1で使用

Grokに上記の日本人化した英語プロンプトを入力して、FLUX.1で画像生成しました。
あまり日本人の顔立ちにはなりませんでした。

③ ImageFXで使用

GoogleのAI Test KitchenImageFXで上記の日本人化した英語プロンプトを使用して画像生成しました。
DALL-Eの画像ほど日本人らしくはないようです。

右下の画像の拡大図

④ Recraft V3で使用

Recraft V3で上記の日本人化した英語プロンプトを使用して画像生成しました。
日本人らしい顔立ちになりましたが、少し画像が粗いように感じます。

画像の拡大

4.写真から画像生成プロンプトを作成

(1) 画像生成プロンプトの作成

題材としてとても良いので、チャエンさんがXに投稿していた写真画像をお借りします。東京タワーと増上寺、そして遠くに富士山が写っています。

出典:https://x.com/masahirochaen/status/1852991457181028749

最初に、ChatGPT(GPT-4oモデル)の入力欄にこの画像を貼り付けて「再現して」と入力します。
すると、以下のように元の画像をできるだけ再現しようとした画像が生成されます。

次に、生成された画像をクリックして拡大表示し、右上のⓘマークをクリックして英語プロンプトを表示させます。
富士山が近すぎるのと、建物がミニチュアモデルっぽい感じがします。

ChatGPTが作成した画像のプロンプトは以下のとおりです。

A scenic view of Tokyo at sunset, showing the Tokyo Tower illuminated in a warm, orange glow. The cityscape includes modern buildings and the Zojoji Temple in the foreground, with Mount Fuji faintly visible in the distance under a sky transitioning from soft orange near the horizon to a cooler blue above. The atmosphere is peaceful, with a clear, expansive skyline.
【日本語訳】
夕焼けに染まる東京の風景を描写している。東京タワーが温かみのあるオレンジ色の光で照らされており、現代的な建物が並ぶ街並みと、手前には増上寺が見える。遠くには、薄く見える富士山が、地平線近くの柔らかなオレンジ色から上空の涼しげな青色へと移り変わる空の下にある。空気は穏やかで、広がりのある澄んだ空が広がっている。

(2) 画像生成プロンプトの使用例

① DALL-Eで使用

上記の英語プロンプトをコピーしてDALL-Eに入力し、再度、画像生成を行いました。

左側の画像の拡大図

増上寺が巨大化しています。

② FLUX.1で使用

Grokに上記の英語プロンプトを入力して、FLUX.1で画像生成しました。
DALL-Eのようなミニチュアモデル感がなく、より実物の写真ぽいですが、増上寺が三重塔になってしまいました。

③ ImageFXで使用

GoogleのAI Test KitchenImageFXで上記の英語プロンプトを使用して画像生成しました。

左上の画像の拡大図

より写真ぽくなったように感じます

④ Recraft V3で使用

Recraft V3で上記の英語プロンプトを使用して画像生成しました。

画像の拡大

写真ぽくなっていますが、東京タワーと増上寺が大きすぎます。


この記事が気に入ったらサポートをしてみませんか?