二学期になっても暑いけど?俺たちを痛い目に合わせてどうするの?企画「自由研究:人物一貫性テンプレートとGPT4pluginを用いたキャラクターの抜き出し」
画像生成AIが吐き出した画像がよくできていて、このキャラクターをこのまま活かしたいな、なんて時はないだろうか。僕にはある。
そのキャラクターの特徴を取り出す方法が見つかったので、ここに書いておく。
この記事では、ターゲットの画像のURLを用いて、キャラクターのプロンプトを生成する、「Image to Text(人物一貫性保持)」を実現する。
必要なもの
*chatGPTplus:(プラグイン利用可能なGPT4が必要)
*sceneXPlain:(chat GPT4プラグイン)
*人物一貫性保持テンプレートV2:(以下URLより取得)
手順
次の通り、準備したチャットセッションにプロンプトを記述する。
)"[Character Name] has [hair length and style] [hair color] hair and [eye shape] [eye color] eyes. Their face is [face shape] with a [nose description] and [lip description]. They are [height] and have a [build] build. When in their usual setting, they typically wear [clothing description]."
-----
上記は画像生成における人物像に一貫性をもたせるためのテンプレートです。
このテンプレートのフォーマットに従って下記の画像内のキャラクターについて記述してください。
---
https://assets.st-note.com/img/1690487094047-z6EnQsQgI4.png?width=2000&height=2000&fit=bounds&format=jpg&quality=85
最下行のURLには、ターゲットの画像のURLとしてください。手順では例として、下記の画像のURLを張り付けています。
使用例
上記画像の「なぁたん」がとてもかわいいので、それを活かしたいなと思ったわけです。なぁたんはオマージュ短編のキャラクターなので、いわゆる二次創作となりますから、続けてもオリジナルじゃないので、力を入れるだけくたびれもうけなのですが・・・
上記がGPTの返事で、太字になっている部分が、なぁたん一貫性保持プロンプトとなっているようです。そのプロンプトをBing image creatorに渡したところ以下のような画像を生成しました。
https://assets.st-note.com/img/1693689902299-5HVzmtXKuV.jpg
https://assets.st-note.com/img/1693689933351-RYPqKkKyNU.jpg
上記2つの画像のキャラクターから、先のテンプレートのフォーマットに従い、もう一度プロンプトを生成してください。キャラクターの名前は「なぁたん」です。
また、年齢を8歳程度として、髪型はいわゆるお団子2つ」(上方の正式な呼び方がわからない)にしてください。
1番目と3番目の画像を読み込ませ、さらに名前と髪型を新たに指定して、プロンプトを生成するよう要求してみた。うまくいくかどうかはわからないけれでも。
2つの画像、それぞれについて、作業をしたようだ。プロンプトが悪かったなぁ。
一つ目のプロンプトで作った画像は以下の通り。
これは幼すぎだな。
と、まぁ、例なのでここまでとする。
実践
"[Character Name] has [hair length and style] [hair color] hair and [eye shape] [eye color] eyes. Their face is [face shape] with a [nose description] and [lip description]. They are [height] and have a [build] build. When in their usual setting, they typically wear [clothing description]."
上記は画像生成における人物像に一貫性をもたせるためのテンプレートです。
このテンプレートのフォーマットに従って下記の画像内のキャラクターについて記述してください。
峯山みどりさんのタイトル画像の人物が欲しかったので、上記の通りGPTに要求した。
The character in the image has medium-length, wavy brown hair that frames her face, giving her an approachable yet focused look. Her eyes are almond-shaped and brown, reflecting a sense of curiosity and attentiveness. Her face is oval-shaped, complemented by a straight nose and thin lips that are slightly parted as she gazes at her phone. She stands at an average height and has a slender build, which adds to her overall graceful demeanor.
ちがうなぁ。もう少しなんというか、ありていにいうと不細工にしたいんだけど・・・
ま、あとはこれをブラッシュアップしていくだけだな。
まとめ
人の手が最後は必要という感じですね。プロンプト自体を幾度もGPTに作らせるという力技でターゲットのプロンプトを作り出すという手もあるにはありますが・・・
どうでしょうか?画像のキャラクターからテキストでキャラクターを拾い上げるというのは、まぁ、今となっては、あんまり意味がない気がしますが・・・画像から画像へ直接持ち込める時代になってますからね。データ量が小さくて済むとか、時代遅れも甚だしいし、この企画の有効性が見いだせない。
いいんです。趣味でやってるんだから。