見出し画像

GPT-4oの画像生成の精度は？

2024年5月24日 02:02

4oにアップデートしましたが、画像生成に関してはどうでしょうか？　アスキーの記事では「向上した」と書いていますね。記事ではキャラクターの一貫性の向上を挙げていますが、本当でしょうか？　以前、「女子高生探偵」や「探偵　異能清春」や「メガトンロボ」を生成した際にキャラクターの一貫性が保てないので苦労しました。

それではアスキーの記事のように画像生成してみましょう。

記事中のプロンプト「微笑みを浮かべる漫画の郵便配達員。白い背景の前に正面を向いて立っている」

生成された画像

なんだかテキトーなイメージの画像ですが、「この画像の郵便配達員をサリーと名付けます」とキャラクターイメージを記憶させました。

記事のプロンプト「サリーは家の赤いドアの前に立ち、手に手紙を持っている。私たちは彼女を横から見ている」

プロンプトによる画像

初めに「サリー」と名付けて記憶させたキャラクターとは明らかに異なります。

記事のプロンプト「今、サリーは犬に追いかけられている。サリーが歩道を走っていると、ゴールデンレトリバーが追いかけてくる」

プロンプトによる画像

記事のプロンプト「あっ、サリーがつまずいた。サリーは歩道をふさいでいた枝につまずき、立ち上がろうとしている。後ろで犬がまだ彼女を追いかけている」

プロンプトによる画像

後半の二コマはキャラクターの一貫性が見えますが、前半の画像が異なるのでよくわかりません。

そこで僕が自分のプロンプトで画像を生成してみます。目的は同様にキャラクターの一貫性です。

プロンプト「美しい日本人の女子高生が町を見下ろす丘の上に立っています」
＊簡単なプロンプトなので、生成された画像は粗末なモノでした。そこで少し画風を付け足し、正確さを要求したのが下の画像です。

プロンプトによる画像

プロンプト「この女子高生の名前は武智智恵美です。記憶してください」
この女子高生を命名してキャラクターを記憶させました。続いて、キャラクターを動かしてみます。

プロンプト「武智智恵美が自転車で高校に向っています」

プロンプトによる画像

この2つの画像ではキャラクターが一貫しているとは思えません。

プロンプト「武智智恵美が授業を受けています。教室の窓の外をぼんやりと眺めています」

プロンプトによる画像

生成されたのが上記の画像ですが、キャラクターの一貫性はどうでしょう？　気になるのは、生徒たちが黒板を背にしている点ですが、AIですから仕方がないですね。

プロンプト「窓の外を見ていた武智智恵美は何かを見て驚き、授業中の教室から走り出ます。それを制止ししようとする教師とクラスメイトたち」

プロンプトによる画像

生成されたのが上記の画像です。武智智恵美のキャラクターは“馴染んできた”ようですが、教室の位置が逆になっており、机に置かれたペン立てが不自然ですね。発展途上中のAIですから仕方がないですね（しつこい）。

ということで、個人的には、「キャラクターの一貫性は依然と変わりないし、生成画像にはまだまだ違和感がある」と感じました。

下記に4oで生成した画像をアップしましたが、以前は緻密であった背景が、随分テキトーに簡略化されているのが気になります。

以前はゴチャゴチャした背景も緻密でしたが･･･

4oでは背景がテキトーに簡略化されています

いいなと思ったら応援しよう！