画像生成AI DALLE-3で同じ人にいろいろさせて遊んでみようの巻

2023年10月31日 21:36

はじめに

前回の記事が大変好評だったため、
本日はOpenAIの画像生成AI DALLE3の『シード値』という特殊なおもしろパラメーターを使っていろいろ遊んでみようと思います。
DALLE-3って何？という方は、以下前回記事もご参照いただければと思います。

画像生成AIの課題

DALLE-3のシード値とは？の前に、画像生成AIでできなかったことをおさらいしたいと思います。

画像生成AIは進化が日時で起こるのですが、膨大なデータを読み込んで学習しそれっぽい画像をベースから生成していく、という方法論的な部分からいくつか共通した課題を抱えておりました。

指がちょっとおかしい　→解決済み

よくいわれる、AIは指が苦手　という話。今はだいぶ上手になってます。

文字がAI語に化ける　→英語は解決済み

ようこそアンダーグランドワールドへという言葉が書かれた看板がある渋谷　by DALLE-3

文字も綺麗に入れられるようになりました。これはDALLE-3のみかもしれません。流石OpenAI。

Midjourneyでも試しにやってみましょう。

Midjourneyはまだ文字入れは非対応ですね。

どうやっているのかは詳しくは不明なので論文とかあれば教えてほしいのですが、なかなか改善できなかった、苦慮していた部分などもこの２か月とかでかなり改善されました。

特に文字の埋め込みはすごい改善。最高です。日本語はめちゃくちゃですが。

まだまだ、データが少ないとうまく表示されない、日本語だとうまくプロンプトが機能しない、先ほど見た通り日本語は埋め込めないなどなど、まだまだできてないこともありますが、とてつもない改善のスピード。そのうち日本語もできるようになるでしょう。きっと。

シード値とは？

そんなまだまだ課題たっぷりな画像生成AIですが、大きな問題のひとつが
作ったキャラクターが使いまわせない。
ということでした。

一回アリクイのキャラクターで物語を作っていたのですが、

ハットをかぶってたりなかったり鼻が長かったり、短かったりとバラバラです。
かわいかったので紹介したくなったというミスと、すでに似てるやつを選別しているアリクイを例にだしたので異常にわかりにくいですが、これが人物の写真や、イラストだと壊滅的に変わってしまいます。
これを解決するのがシード値です。

シード値の使い方

シード値の概要

生成された画像には「シード値」と呼ばれる特定の識別子が振られており、このシード値を使うことで、同じ人物やイラストを指定した上でシチュエーションだけをいじることができます。いちいちフォトショで切り抜いてみたいな作業が全部いらなくなり、プロンプトだけで操作することができます。

ちなみにMidjourneyやStable Diffusionでは前からできていたりしましたが、今回DALLEもchatGPTベースになったことで同じことができるようになりました。チャット形式でわかりやすいUXで。
ということのようです。
実は、ここまでDALLE-3のシード値を一回も試さずに書いてました。すみません。

実践編

①プロンプト作成

自分もよく動きはわかってないのでとにかくやってみます。
DALLE-3での画像生成の方法は前回記事にも書いているので、お暇な時に参ご覧ください。(家の外が大雨のときなど。)

まずは画像生成をしてみましょう。やはり可愛い女の子が流入の観点でもいい、とおもってしまいますが、
「孤独だけど聡明で世界を変えるような発明をしている老婆」
これでいきましょう。

chatGPTくん、キャラクターの肉付けお願いします。

もちろん、プロンプトを提供いたします。以下が、人物キャラクターの説明に基づくプロンプトです。

プロンプト:
「老婆のエレノア・ウィズモアを描いた、孤独だけど聡明で世界を変えるような発明家の肖像写真を生成してください。エレノアは80歳代で、白髪の髪をシルバーのベレー帽で覆っており、派手なワンピースドレスを着用しています。彼女の知識と洞察力が光り、発明のアイデアに夢中になっている様子を表現してください。」

こいつ天才です。写真というのは追加することにします。
では英語に変換してDALLE-3で生成します。

エレノア・ウィズモアというChatGPTのセンスがポリシーに引っかかったのか、特定の人物だと認識されてしまったようです。名前は除いていきましょう。そしてそれならやっぱり日本人にします。プロンプトもちょっと修正します。

日本に住む老婆。彼女は孤独だけど聡明で世界を変えるような発明家。彼女は80歳代で、奇抜なファッションとアクセサリーを着用しています。彼女の知識と洞察力が光り、発明のアイデアに夢中になっている様子をカメラで撮影したものを表現してください。

②画像生成〜シード値の取得

最高！
An old woman living in Japan. She is a lonely but brilliant, world-changing inventor. She is in her 80s and wears eccentric fashions and accessories. Her knowledge and insight shine through, and represent her enthusiasm for her invention ideas, as captured by the camera.

最高です。孤独で聡明ですごい発明をしそうです。

さてこのエレノアさんにいろいろしてもらいたいと思いますが、まずはシード値を確認しましょう。

③シード値を使っていろいろさせてみよう！

エレノアさんのシード値「4121563964」をつかってどうするかを決めましょう。
ありえない面白いアイデアをchatGPTに尋ねてみましたが、いまいちなので自分で考えます。

まず老婆がやらなそうなことでほんの少しだけやりそうなことをさせたいですね。

「木刀を振り回す」
これにしましょう。
シチュエーションも壮大な場所を用意したいです。
「世界最高峰の音楽フェスであるコーチェラ」
にしましょう。犬と鶏のバックバンドも欲しいですね。

プロンプト
「基画像はシード値4121563964の画像：世界最高峰の音楽フェスであるコーチェラのステージで、犬と鶏たちで構成された技巧派パンクバンドのボーカルとして同一の老婆が木刀を振り回す様子をプロのカメラマンが撮影した写真」

ではいざ、チャレンジしてみます。

。
。
。
。

？？？

シード値とか全部無視されてしまいました。
シード値の指定の仕方が悪そうなので聞いてみます。

User
全然違う人物のようです。

ChatGPT
申し訳ございません。画像生成のプロセスでは一部の変数が変更されることがあり、結果として異なるイメージが生成されることがあります。また、画像の細部においても解釈の違いが生じることがあります。もし具体的な修正点やご要望がございましたら、お教えいただければと思います。

User
シード値4121563964の老婆を使ってほしいのですが。

ChatGPT
申し訳ございません、現在の技術では特定のシード値を用いて以前生成された特定の画像を再生成することはできません。シード値はランダムな要素をコントロールするものであり、それを用いて過去の画像を特定・再生成することはできません。ただし、前回の説明に基づいて新しい画像を生成することは可能です。どのような画像を生成させたいか、具体的な指示をいただければと思います。

User
ライブハウスでライブしてほしいです。

ChatGPT
DALL·E 3
作成された画像
Here are the images:

A professional photographer's photo capturing an old Japanese woman in her 80s, wearing eccentric fashion and accessories, wielding a wooden sword as the vocalist of a technical punk band composed of dogs and chickens. She is performing live on stage at a small live house music venue, with bright stage lights and an enthusiastic audience.

いい感じになった、、、、んでしょうか？？
しかし人物は違うように感じます、エレノアさんの聡明さが全然ない。

ちょっとシチュエーションがとっぴすぎたのでしょうか。
もう少しエレノアさんがやりそうなこと、例えば本を読んでもらうとどうでしょうか？

Seed value 4121563964, same person as image in book.

誰！！

全然本読む気配がない。犬も増えてるし。
木刀が腕についているのも、
カメラをぶら下げているのも意味がわかりません。

前回のプロンプトが完全に頭に残ってますね。
別チャット開いても全然ダメだ。。。やり直します。

失敗したのでやり直し

最初に作ったプロンプトでもう一回画像生成をします。

日本に住む老婆。彼女は孤独だけど聡明で世界を変えるような発明家。彼女は80歳代で、奇抜なファッションとアクセサリーを着用しています。彼女の知識と洞察力が光り、発明のアイデアに夢中になっている様子をカメラで撮影したものを表現してください。

ここまでは完璧です。完璧に聡明で革命的で孤独な老婆です。先ほどのエレノアさんは残念ながらさよならです。

User
シード値を教えてください。

ChatGPT
シード値は以下の通りです。
2322048739

User
シード値2322048739の人物に本を持たせてほしい

めちゃくちゃいい感じ！微妙に違うのがファッションとメイクを完璧に真似てる影武者みたいで若干気持ち悪いですが、98%同じ人物が本を持っています。
というか指示は日本語でいい。ということがわかりました。

ついに成功したのでいろいろさせてみる

エレノアさんにいろいろやってもらいましょう。

最高です。いい帽子。

シード値2322048739の人物が巨大な力士と新宿の交差点の真ん中で対峙している

微妙です。発明家感と日本感が悪い意味で混ざってしまったようです。

いい感じだ！コンピュータおばあちゃんです。
これはいけるのでは、ないでしょうか。

誰でしょうか。
新宿のせいでずれ始めてしまったのか、あるいは木刀でしょうか？？
木刀はやめて、改めてライブにチャレンジしてみます。

シード値2322048739の人物が世界最高峰の音楽フェスであるコーチェラのステージで、犬と鶏たちで構成された技巧派パンクバンドのボーカルをしている

いい感じですね。
復活しました。木刀もよくないようです。
周りも技巧派バンド感がありいいですね。

木刀は青銅製の剣にしておきましょう。

シード値2322048739の人物が世界最高峰の音楽フェスであるコーチェラのステージで、犬と鶏たちで構成された技巧派パンクバンドのボーカルとして青銅製のソードを振り回しりんごを真っ二つにしている

できました。最高です。
いいベーシストとギタリストがいます。絶対演奏がうまいです。

完成しました。これは同一人物です。

改めて失敗したものも見直してみると、メガネを外してたり、帽子をかぶっていたり、やばい髪型になっているせいで違う人にみえるけど、よくみるとずっといい線行っているのでは、と思いました。

最後の画像の解説をみると、
「A photo capturing the elderly Japanese inventor in her eccentric fashion and accessories, standing on the Coachella stage. She is singing as the lead vocalist of a punk band composed of dogs and chickens, and in a dramatic moment, swings a bronze sword to slice an apple in half mid-air. The stage is filled with lights, and the audience is in awe of the spectacle.」
となっておりので、日本人要素が強く出てしまっていることがマイナスになっている気もしました。

解説からJapaneseを消したプロンプトで最後に生成してみます。

いいですね、かなり装飾が減ってしまいましたが、思い描いていた、いい画像ができました。

まとめ

OpenAIの画像生成AIであるDALLE-3のシード値を使用して同一人物を使ったシチュエーションの変更ができます。

シード値は特定の画像を生成するための識別子であり、異なるシード値を使うことで異なる画像を生成できます。

シード値を使って日本語で指示を出しても、目的の画像生成が成功しました。

シード値は固定のようで、一度別の生成がされてしまうとその要素が追加されたシード値になってしまうようです。

意味の強い要素を加えると全体がそれに引っ張られることもありそう。

対応策として画像生成後に表示される画像の説明をプロンプトとして修正して利用することも可能です。

まだまだ遊べそうですね。