
GPT-4oの画像生成の精度は?
4oにアップデートしましたが、画像生成に関してはどうでしょうか? アスキーの記事では「向上した」と書いていますね。記事ではキャラクターの一貫性の向上を挙げていますが、本当でしょうか? 以前、「女子高生探偵」や「探偵 異能清春」や「メガトンロボ」を生成した際にキャラクターの一貫性が保てないので苦労しました。
それではアスキーの記事のように画像生成してみましょう。
記事中のプロンプト「微笑みを浮かべる漫画の郵便配達員。白い背景の前に正面を向いて立っている」

なんだかテキトーなイメージの画像ですが、「この画像の郵便配達員をサリーと名付けます」とキャラクターイメージを記憶させました。
記事のプロンプト「サリーは家の赤いドアの前に立ち、手に手紙を持っている。私たちは彼女を横から見ている」

初めに「サリー」と名付けて記憶させたキャラクターとは明らかに異なります。
記事のプロンプト「今、サリーは犬に追いかけられている。サリーが歩道を走っていると、ゴールデンレトリバーが追いかけてくる」

記事のプロンプト「あっ、サリーがつまずいた。サリーは歩道をふさいでいた枝につまずき、立ち上がろうとしている。後ろで犬がまだ彼女を追いかけている」

後半の二コマはキャラクターの一貫性が見えますが、前半の画像が異なるのでよくわかりません。
そこで僕が自分のプロンプトで画像を生成してみます。目的は同様にキャラクターの一貫性です。
プロンプト「美しい日本人の女子高生が町を見下ろす丘の上に立っています」
*簡単なプロンプトなので、生成された画像は粗末なモノでした。そこで少し画風を付け足し、正確さを要求したのが下の画像です。

プロンプト「この女子高生の名前は武智智恵美です。記憶してください」
この女子高生を命名してキャラクターを記憶させました。続いて、キャラクターを動かしてみます。
プロンプト「武智智恵美が自転車で高校に向っています」

この2つの画像ではキャラクターが一貫しているとは思えません。
プロンプト「武智智恵美が授業を受けています。教室の窓の外をぼんやりと眺めています」

生成されたのが上記の画像ですが、キャラクターの一貫性はどうでしょう? 気になるのは、生徒たちが黒板を背にしている点ですが、AIですから仕方がないですね。
プロンプト「窓の外を見ていた武智智恵美は何かを見て驚き、授業中の教室から走り出ます。それを制止ししようとする教師とクラスメイトたち」

生成されたのが上記の画像です。武智智恵美のキャラクターは“馴染んできた”ようですが、教室の位置が逆になっており、机に置かれたペン立てが不自然ですね。発展途上中のAIですから仕方がないですね(しつこい)。
ということで、個人的には、「キャラクターの一貫性は依然と変わりないし、生成画像にはまだまだ違和感がある」と感じました。
下記に4oで生成した画像をアップしましたが、以前は緻密であった背景が、随分テキトーに簡略化されているのが気になります。



