見出し画像

日々の壁打ち:画像生成AIが作成したイラストを、画像類似性検索AIは判定できるか?

ChatGPTで、自分のためにMy GPTsを開発すると、とても面白い体験を味わえる。このnoteは、My GPTsとの付き合い方の記録である。


問題:AIは、AIの絵をかなりの精度で判定できるのだろうか?

OpenAIが提供している画像生成AI、DALL-E 3も含めて、AIによる画像生成で絵を描いているのは、AI自身だと自分は考えている。それらAIに絵を描かせている人の立場は、「絵の発注者」であり、AIが提出してくる絵にディレクションをおこなう「アートディレクター」である、ということだ。

ところで、この「AIに対するアートディレクション」だが、そこに担当者による違いがどれほど出るのだろうかと興味が沸いたので、AIが出力する絵の微妙なニュアンスの違いをある程度客観的に見るために、同じAIであるGoogle Lensにお題となる絵との類似性を検索させてみたらどうか、思いついた。基準は以下である。

  • お題とするAI生成のイラストをGoogle Lensにかけて、類似する画像を検索させる。

  • その類似性が高いとされた検索結果の群に、AI生成の絵と人による手描きの絵がどの程度含まれているか、全体の傾向を確認する。
    ※ただしAI生成か手描きかは、Google Lensに表示されているキャプションや引用先のサイト名から類推するものなので、完全ではない。

上ぐらいの緩い条件で、なんらかの傾向が出るか実験してみることにしたということである。
正月の休み最後の遊びのようなものなので、気楽に読んでほしい。

結果:

ちょうど、DALL-E 3を搭載しているImage Creatorに様々なパターンでイラストを生成してあったので、それらを使って検証をしてみた。
事前にすでに行っていた様々なテストから、Google Lensが判定する類似性にある一定の傾向を感じていたので、それを作業仮説としている。Image Creatorでのテストは、それを裏付けるものだ。まずは結果から見ていこう。傾向は、大きく分けて5つある。

1.「簡単に思いつきそうなキーワード」から生成された画像は、他のAI生成画像との類似性を指摘されやすい傾向にある

この傾向は想像しやすい。「簡単に思いつきやすい」ということは、多くの人が画像生成のお題として試し、出力しているということだろう。どんなに情報量が多い絵だとしても、画題のテーマが「簡単に思いつきやすい」ものは、それだけAI生成画像も出回っているので、完全一致はまずないにしても、Google Lensが多くの類似性のあるAI画像を検索してくる。

2.「画題自体がぶっ飛んでいるテーマ」から生成された画像は、より手描きイラストとの類似性を指摘されやすい傾向にある。

デーモンコアをご存じだろうか? こんなものをヒロインのイメージとして生成してみようなんてことは、自分ですら、SNS上での会話のネタで出てこなければ思いもつかなかった画題である。上の結果でもわかるとおり、絵の発注指定自体は単純なものだが、さすがに同様の画題をAIに生成させる人は滅多にいないようで、結果、Google Lensが引き当ててくる類似性のある画像は、手描きのものが中心になっている。

これがデーモンコアくんだったら、もう少し違った結果になったかもしれない。

3.「詳細なプロンプト指示を行い、かつそのプロンプト内で使われている指定ワードが難易度が高い組み合わせになっている」ものから生成された画像は、より手描きイラストとの類似性を指摘されやすい傾向にある

こちらは、自作GPTであるJapan Anime Character Makerに作成させた画像プロンプトをImage Creatorに与えた例である。約400文字のかなり詳細な指定が与えてある。いくつかのキーワードがコンポジション的に同時にまとめるのが難しく、絵としてまとまりにくい傾向がある(しばしば絵として破綻しやすい)ものだ。実際、この時Image Creatorが出してきた絵は、「このアングル、Image Creatorが出せるんだ…」とコンテンツポリシーの面から言ってもギリギリを攻めている絵だったので、驚いたぐらいだ。(だからこそ、一部のプロンプトを隠させていただいている。ご了承いただきたい)

このような絵の場合、横の結果をみるとわかるように、同様のアイドルものがテーマの版権イラストを類似性が高い絵として指摘してくる。他にも、AI生成の絵でもかなりポーズが際立っているものも同時に指摘してくるのが特徴である。

つまり、難易度の高い指定に基づくAI生成絵に類似性が高いと指摘されるものは、同様にプロが描く手描きイラストも含めて、難易度が高そうな絵であるということだ。

ちなみに、Japan Anime Character Makerは、これらのプロンプトに以下のような絵を出力するが、これらも再現性が低い絵であることは間違いない。いくらリテイクを重ねても、重ねる度に発注意図からずれて、絵自体が崩れてしまうようなタイプの絵である。

4.「絵自体にテーマがあるとしても、キャラクター性を重要視しない生成」に関しては、それに類したキャッチコピー向けイラストとの類似性が指摘されやすい傾向にある

続いて、キャラクター性よりも絵としてのテーマ性を中心に発注した例だ。この例ではたまたまだったが、本来は「~のイラスト」と発注の最後に付けたほうが、イラストとして出力される成功率は高い。

こういうイラストの場合、「一枚の絵に画題を詰め込みすぎ」という感があるが、それは類似性検索にも現れていて、やはり「プレゼン資料に添えるためのイメージカット」みたいな絵を引き当ててくる。要するに、新聞の一コマ漫画のようなイラストカットである。

今回の検索結果では、この中にどれほどAI生成画像が混ざっているのか、よくわからなかったが、むしろ画像生成AIにとってはこの手のテーマのある絵のほうが生成は得意なので、今後この分野のイラストには、どんどんImage Creatorなどの高性能かつフリーの画像生成サービスが使われることになるだろうということは、想像するのは難しくない。

5.「絵自体にテーマがあるにしても、イラストではなくフォトリアリティ方向に振る生成」に関しては、もはや「絵」としての評価すらされず、タダの商材画像という扱いを受けやすい

最後に4とはテーマは同じなのだが、絵をフォトリアリスティックな方向へと振ったケースである。絵の中の人物がフォトリアリスティックになると、Google Lensとしてはプライバシー保護のために、その人物自体を検索することを避けるようになる。そのためか、生成された絵全体を検索対象にしても、主に商材画像の一部として類似性を指摘してくるだけになる。
絵としては、評価するに値しないつまらない絵だと判定されたようで、ちと悲しい結果である。(もちろん、AIはそんなことを言いはしない。あくまで受け取るこちらのお気持ちにすぎない。)

このnoteのカバーイラストの評価は?

最後に、このnoteのカバーイラストとして、Japan Anime Character Makerに作成させたイラストをかけてみよう。結果は以下だ。

ざっと見たところ、AI生成画像と手描きイラストとの各類似性の指摘は半々というところのようだ。
この画像にまとまるまで、キャラデザを除き4ステップほど重ねているので、それなりの手間のかかり方はしているからかもしれない。
比較として、素のDALL-E 3に同じテーマで発注すると、以下のようなイラストが得られた。

こちらもGoogle Lensにかけてみる。

アートスタイルはまったく違うが、こちらもAI生成画像と手描きイラストとの各類似性の指摘は半々というところだ。画題自体があまり指定されないものだから、という理由のほうが大きいのかもしれない。

ここまでのまとめ:この実験の評価をChatGPTにさせてみる

ここまでのまとめとして、この実験についてChatGPTに評価をさせてみよう。

DALL-E 3が搭載されているImage Creatorが生成した画像に関して、それらをGoogle Lensを使って他の画像との類似性を調べています。Google Lensが指摘した、類似する画像の中にどれだけ画像生成AIによる出力画像が含まれるかの傾向を見ています。
その結果として、以下のような傾向があるようです。
###
DALL-E 3がシステムに搭載されているImage Creatorが出力した絵をGoogle Lensがどう類似性判定するかを見てみると、やはり一定の傾向があることがわかる。
1. 「簡単に思いつきそうなキーワード」から生成された画像は、他のAI生成画像と類似性を指摘される。
2. 「画題自体がぶっ飛んでいるテーマ」から生成された画像は、より手描きイラストとの類似性を指摘される。
3. 「詳細なプロンプト指示を行い、かつそのプロンプト内で使われている指定ワードの難易度が難しい組み合わせ」から生成された画像は、より手描きイラストとの類似性を指摘される。(もしくは生成された絵自体が破綻したものになる)
4. 「絵自体にテーマがあるとしても、キャラクター性を重要視しない生成」に関しては、それに類したキャッチコピー向けイラストとの類似性が指摘される。(新聞の一コマ漫画みたいなのも含まれると思う)
5. 「絵自体にテーマがあるにしても、イラストではなくフォトリアリティ方向に振る生成」に関しては、もはや「絵」としての評価すらされずタダの商材画像という扱いを受ける。
こうやってみてみると、画像類似性判定AIが見る「類似性」の中にどれだけAI生成画像が含まれるかは、その生成した画像を出力させた人が、いかに独自の生成指示を思いつくかに依存している可能性が高そうですね。
つまり、誰もが思いつきそうなネタや命令を使って安易に生成された画像は、やはりAI画像として判定されやすいということですが、これはそういう画像がそれだけ世の中に出回っているということを意味しているんじゃないかしら。
###
上の仮説について、どう評価しますか? 教えてください。

ChatGPTへのInput

DALL-E 3とGoogle Lensを使用してAI生成画像の類似性を調べた結果についての仮説は、興味深い洞察を提供しています。この仮説を評価する際に考慮すべきいくつかの要素があります。

1.AI生成画像と既存の画像のデータベース: DALL-E 3のようなAIが生成する画像は、訓練されたデータに基づいています。したがって、よく使われるキーワードやテーマから生成される画像は、訓練データに多く含まれる類似のイメージやスタイルを反映する可能性が高いです。Google Lensがこれらを他のAI生成画像として類似性を指摘するのは、AIが共通の「視覚言語」を学んでいるためかもしれません。

2.独創性と類似性のバランス: 一方で、「ぶっ飛んだテーマ」や「詳細なプロンプト」から生まれる画像が手描きイラストとの類似性を指摘される傾向は、AIがより独自の視覚表現を生成していることを示唆しているかもしれません。AIは指示に従って新しい組み合わせや解釈を試みるため、一般的なテーマよりもユニークな内容では独創性が増し、既存のデータベースとの類似性が減る傾向にあります。

3.技術の進歩と限界: 現時点のAI技術は驚異的なレベルに達していますが、完全に新しいアイデアや抽象的な概念を理解し、それを表現するにはまだ限界があります。このため、AIが生成する画像が既存の画像やスタイルと類似してしまうのは、AIがまだ学ぶべきところが多いためかもしれません。

4.社会的文脈と普及: あなたの仮説が指摘するように、世の中に出回っているAI生成画像の量とその特徴は、AI画像がどのように認識され、分類されるかに大きく影響します。広く普及しているスタイルやテーマは、それだけ多くのデータとしてGoogle Lensのようなシステムに取り込まれ、類似性の判断基準となります。

総じて、提案された仮説はAI生成画像とその類似性判定に関する重要な観点を提供しています。これらの観点からAIの現状と将来の進化、社会への影響を考える上で有用な洞察が得られるでしょう。さらに深い理解のためには、実際のデータとケーススタディを用いた具体的な分析が必要となりますが、この仮説は研究と議論の出発点として非常に興味深いものです。

ChatGPTのレスポンス

コメントの中にある、「AIが共通の「視覚言語」を学んでいるためかも」という指摘はなかなか興味深い。

ここから先は、上の作業仮説がどんな経緯で生まれたのか、生まれる元になったエピソードを詳しく書いています。コーヒー一杯分ぐらいの投げ銭を設けていますので、ご協力よろしくお願いします。

ここから先は

4,894字 / 26画像

¥ 300

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?