見出し画像

二学期になっても暑いけど?俺たちを痛い目に合わせてどうするの?企画「自由研究:人物一貫性テンプレートとGPT4pluginを用いたキャラクターの抜き出し」

画像生成AIが吐き出した画像がよくできていて、このキャラクターをこのまま活かしたいな、なんて時はないだろうか。僕にはある。
そのキャラクターの特徴を取り出す方法が見つかったので、ここに書いておく。
この記事では、ターゲットの画像のURLを用いて、キャラクターのプロンプトを生成する、「Image to Text(人物一貫性保持)」を実現する。

必要なもの


*chatGPTplus:(プラグイン利用可能なGPT4が必要)
*sceneXPlain:(chat GPT4プラグイン)
*人物一貫性保持テンプレートV2:(以下URLより取得)

手順

次の通り、準備したチャットセッションにプロンプトを記述する。

)"[Character Name] has [hair length and style] [hair color] hair and [eye shape] [eye color] eyes. Their face is [face shape] with a [nose description] and [lip description]. They are [height] and have a [build] build. When in their usual setting, they typically wear [clothing description]."
-----
上記は画像生成における人物像に一貫性をもたせるためのテンプレートです。
このテンプレートのフォーマットに従って下記の画像内のキャラクターについて記述してください。
---
https://assets.st-note.com/img/1690487094047-z6EnQsQgI4.png?width=2000&height=2000&fit=bounds&format=jpg&quality=85

最下行のURLには、ターゲットの画像のURLとしてください。手順では例として、下記の画像のURLを張り付けています。

https://assets.st-note.com/img/1690487094047-z6EnQsQgI4.png?width=2000&height=2000&fit=bounds&format=jpg&quality=85

使用例

上記画像の「なぁたん」がとてもかわいいので、それを活かしたいなと思ったわけです。なぁたんはオマージュ短編のキャラクターなので、いわゆる二次創作となりますから、続けてもオリジナルじゃないので、力を入れるだけくたびれもうけなのですが・・・

The character in the image is a young girl with shoulder-length, wavy brown hair. Her eyes are almond-shaped and a striking shade of blue. Her face is oval-shaped, complemented by a petite nose and slightly plump lips. She is of average height for her age and has a slender build. In her usual setting, which appears to be a futuristic spacecraft, she typically wears a snug-fitting, dark-colored jumpsuit adorned with various patches and insignias, suggesting her role as a pilot or space explorer.

Would you like to know more about this character in a narrative form, or is this description sufficient for your needs?

上記がGPTの返事で、太字になっている部分が、なぁたん一貫性保持プロンプトとなっているようです。そのプロンプトをBing image creatorに渡したところ以下のような画像を生成しました。

https://assets.st-note.com/img/1693689902299-5HVzmtXKuV.jpg
https://assets.st-note.com/img/1693689933351-RYPqKkKyNU.jpg
上記2つの画像のキャラクターから、先のテンプレートのフォーマットに従い、もう一度プロンプトを生成してください。キャラクターの名前は「なぁたん」です。
また、年齢を8歳程度として、髪型はいわゆるお団子2つ」(上方の正式な呼び方がわからない)にしてください。

1番目と3番目の画像を読み込ませ、さらに名前と髪型を新たに指定して、プロンプトを生成するよう要求してみた。うまくいくかどうかはわからないけれでも。

Based on the images provided, the character named "なぁたん" is an 8-year-old girl with a unique and adventurous spirit.

### First Image Description:
なぁたん has striking blue eyes that are almond-shaped, exuding a sense of curiosity and wonder. Her hair is brown and styled into two "odango" buns on the top of her head, a playful hairstyle that suits her youthful energy. Her face is oval-shaped, featuring a petite nose and slightly plump lips. She is of average height for her age and has a slender build. In this setting, which appears to be the interior of a spaceship, she wears a snug-fitting uniform adorned with various patches and a badge on her head, emphasizing her role as a young space explorer.

### Second Image Description:
In the second image, なぁたん is again seen in a spacesuit, standing in front of what appears to be a space station. The suit is similar to the one in the first image, adorned with patches that hint at her adventurous endeavors. Her blue eyes and brown hair styled into "odango" buns remain consistent, reinforcing her identity.

Would you like to delve deeper into the character of なぁたん through a narrative, or is this description sufficient for your needs?

2つの画像、それぞれについて、作業をしたようだ。プロンプトが悪かったなぁ。
一つ目のプロンプトで作った画像は以下の通り。

これは幼すぎだな。
と、まぁ、例なのでここまでとする。

  • 実践

"[Character Name] has [hair length and style] [hair color] hair and [eye shape] [eye color] eyes. Their face is [face shape] with a [nose description] and [lip description]. They are [height] and have a [build] build. When in their usual setting, they typically wear [clothing description]."

上記は画像生成における人物像に一貫性をもたせるためのテンプレートです。
このテンプレートのフォーマットに従って下記の画像内のキャラクターについて記述してください。

https://assets.st-note.com/production/uploads/images/109637223/rectangle_large_type_2_2330aa5a6f98b72ecd324a4343bf9f6f.jpeg?width=800

峯山みどりさんのタイトル画像の人物が欲しかったので、上記の通りGPTに要求した。

The character in the image has medium-length, wavy brown hair that frames her face, giving her an approachable yet focused look. Her eyes are almond-shaped and brown, reflecting a sense of curiosity and attentiveness. Her face is oval-shaped, complemented by a straight nose and thin lips that are slightly parted as she gazes at her phone. She stands at an average height and has a slender build, which adds to her overall graceful demeanor.


ちがうなぁ。もう少しなんというか、ありていにいうと不細工にしたいんだけど・・・
ま、あとはこれをブラッシュアップしていくだけだな。

まとめ

人の手が最後は必要という感じですね。プロンプト自体を幾度もGPTに作らせるという力技でターゲットのプロンプトを作り出すという手もあるにはありますが・・・
どうでしょうか?画像のキャラクターからテキストでキャラクターを拾い上げるというのは、まぁ、今となっては、あんまり意味がない気がしますが・・・画像から画像へ直接持ち込める時代になってますからね。データ量が小さくて済むとか、時代遅れも甚だしいし、この企画の有効性が見いだせない。
いいんです。趣味でやってるんだから。