日々の壁打ち:画像生成AIが作成したイラストを、画像類似性検索AIは判定できるか?
ChatGPTで、自分のためにMy GPTsを開発すると、とても面白い体験を味わえる。このnoteは、My GPTsとの付き合い方の記録である。
問題:AIは、AIの絵をかなりの精度で判定できるのだろうか?
OpenAIが提供している画像生成AI、DALL-E 3も含めて、AIによる画像生成で絵を描いているのは、AI自身だと自分は考えている。それらAIに絵を描かせている人の立場は、「絵の発注者」であり、AIが提出してくる絵にディレクションをおこなう「アートディレクター」である、ということだ。
ところで、この「AIに対するアートディレクション」だが、そこに担当者による違いがどれほど出るのだろうかと興味が沸いたので、AIが出力する絵の微妙なニュアンスの違いをある程度客観的に見るために、同じAIであるGoogle Lensにお題となる絵との類似性を検索させてみたらどうか、思いついた。基準は以下である。
お題とするAI生成のイラストをGoogle Lensにかけて、類似する画像を検索させる。
その類似性が高いとされた検索結果の群に、AI生成の絵と人による手描きの絵がどの程度含まれているか、全体の傾向を確認する。
※ただしAI生成か手描きかは、Google Lensに表示されているキャプションや引用先のサイト名から類推するものなので、完全ではない。
上ぐらいの緩い条件で、なんらかの傾向が出るか実験してみることにしたということである。
正月の休み最後の遊びのようなものなので、気楽に読んでほしい。
結果:
ちょうど、DALL-E 3を搭載しているImage Creatorに様々なパターンでイラストを生成してあったので、それらを使って検証をしてみた。
事前にすでに行っていた様々なテストから、Google Lensが判定する類似性にある一定の傾向を感じていたので、それを作業仮説としている。Image Creatorでのテストは、それを裏付けるものだ。まずは結果から見ていこう。傾向は、大きく分けて5つある。
1.「簡単に思いつきそうなキーワード」から生成された画像は、他のAI生成画像との類似性を指摘されやすい傾向にある
この傾向は想像しやすい。「簡単に思いつきやすい」ということは、多くの人が画像生成のお題として試し、出力しているということだろう。どんなに情報量が多い絵だとしても、画題のテーマが「簡単に思いつきやすい」ものは、それだけAI生成画像も出回っているので、完全一致はまずないにしても、Google Lensが多くの類似性のあるAI画像を検索してくる。
2.「画題自体がぶっ飛んでいるテーマ」から生成された画像は、より手描きイラストとの類似性を指摘されやすい傾向にある。
デーモンコアをご存じだろうか? こんなものをヒロインのイメージとして生成してみようなんてことは、自分ですら、SNS上での会話のネタで出てこなければ思いもつかなかった画題である。上の結果でもわかるとおり、絵の発注指定自体は単純なものだが、さすがに同様の画題をAIに生成させる人は滅多にいないようで、結果、Google Lensが引き当ててくる類似性のある画像は、手描きのものが中心になっている。
これがデーモンコアくんだったら、もう少し違った結果になったかもしれない。
3.「詳細なプロンプト指示を行い、かつそのプロンプト内で使われている指定ワードが難易度が高い組み合わせになっている」ものから生成された画像は、より手描きイラストとの類似性を指摘されやすい傾向にある
こちらは、自作GPTであるJapan Anime Character Makerに作成させた画像プロンプトをImage Creatorに与えた例である。約400文字のかなり詳細な指定が与えてある。いくつかのキーワードがコンポジション的に同時にまとめるのが難しく、絵としてまとまりにくい傾向がある(しばしば絵として破綻しやすい)ものだ。実際、この時Image Creatorが出してきた絵は、「このアングル、Image Creatorが出せるんだ…」とコンテンツポリシーの面から言ってもギリギリを攻めている絵だったので、驚いたぐらいだ。(だからこそ、一部のプロンプトを隠させていただいている。ご了承いただきたい)
このような絵の場合、横の結果をみるとわかるように、同様のアイドルものがテーマの版権イラストを類似性が高い絵として指摘してくる。他にも、AI生成の絵でもかなりポーズが際立っているものも同時に指摘してくるのが特徴である。
つまり、難易度の高い指定に基づくAI生成絵に類似性が高いと指摘されるものは、同様にプロが描く手描きイラストも含めて、難易度が高そうな絵であるということだ。
ちなみに、Japan Anime Character Makerは、これらのプロンプトに以下のような絵を出力するが、これらも再現性が低い絵であることは間違いない。いくらリテイクを重ねても、重ねる度に発注意図からずれて、絵自体が崩れてしまうようなタイプの絵である。
4.「絵自体にテーマがあるとしても、キャラクター性を重要視しない生成」に関しては、それに類したキャッチコピー向けイラストとの類似性が指摘されやすい傾向にある
続いて、キャラクター性よりも絵としてのテーマ性を中心に発注した例だ。この例ではたまたまだったが、本来は「~のイラスト」と発注の最後に付けたほうが、イラストとして出力される成功率は高い。
こういうイラストの場合、「一枚の絵に画題を詰め込みすぎ」という感があるが、それは類似性検索にも現れていて、やはり「プレゼン資料に添えるためのイメージカット」みたいな絵を引き当ててくる。要するに、新聞の一コマ漫画のようなイラストカットである。
今回の検索結果では、この中にどれほどAI生成画像が混ざっているのか、よくわからなかったが、むしろ画像生成AIにとってはこの手のテーマのある絵のほうが生成は得意なので、今後この分野のイラストには、どんどんImage Creatorなどの高性能かつフリーの画像生成サービスが使われることになるだろうということは、想像するのは難しくない。
5.「絵自体にテーマがあるにしても、イラストではなくフォトリアリティ方向に振る生成」に関しては、もはや「絵」としての評価すらされず、タダの商材画像という扱いを受けやすい
最後に4とはテーマは同じなのだが、絵をフォトリアリスティックな方向へと振ったケースである。絵の中の人物がフォトリアリスティックになると、Google Lensとしてはプライバシー保護のために、その人物自体を検索することを避けるようになる。そのためか、生成された絵全体を検索対象にしても、主に商材画像の一部として類似性を指摘してくるだけになる。
絵としては、評価するに値しないつまらない絵だと判定されたようで、ちと悲しい結果である。(もちろん、AIはそんなことを言いはしない。あくまで受け取るこちらのお気持ちにすぎない。)
このnoteのカバーイラストの評価は?
最後に、このnoteのカバーイラストとして、Japan Anime Character Makerに作成させたイラストをかけてみよう。結果は以下だ。
ざっと見たところ、AI生成画像と手描きイラストとの各類似性の指摘は半々というところのようだ。
この画像にまとまるまで、キャラデザを除き4ステップほど重ねているので、それなりの手間のかかり方はしているからかもしれない。
比較として、素のDALL-E 3に同じテーマで発注すると、以下のようなイラストが得られた。
こちらもGoogle Lensにかけてみる。
アートスタイルはまったく違うが、こちらもAI生成画像と手描きイラストとの各類似性の指摘は半々というところだ。画題自体があまり指定されないものだから、という理由のほうが大きいのかもしれない。
ここまでのまとめ:この実験の評価をChatGPTにさせてみる
ここまでのまとめとして、この実験についてChatGPTに評価をさせてみよう。
コメントの中にある、「AIが共通の「視覚言語」を学んでいるためかも」という指摘はなかなか興味深い。
ここから先は、上の作業仮説がどんな経緯で生まれたのか、生まれる元になったエピソードを詳しく書いています。コーヒー一杯分ぐらいの投げ銭を設けていますので、ご協力よろしくお願いします。
ここから先は
¥ 300
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?