生成AIに絵心は「ない」

2024年12月6日 08:06

はじめに

以下のような記事がありました。

端的に言うと、

生成AIは、絵を「どのように解釈」しているのだろうか？

という話ですが、今回はこの点について深堀してみます。

このnoteでは、将棋の駒を持つ女子中学生・高校生などを生成AIで作ってみるシリーズを連載しています。

既に連載中の記事で書いているように、静止画レベルで見ると人と生成AIによる画像はすでに見分けがつかないレベルです。

しかし、これを持って、生成AIに「絵心がある」と解釈してよいのでしょうか？　そもそも、絵心とは何でしょうか？　絵心を辞書で引くと

え‐ごころ〔ヱ‐〕【絵心】の解説
１絵をかく心得や趣味。また、絵を理解する能力。「—がある」
２絵をかきたい気持ち。「—が動く」

と書かれています。「絵を理解している」とはどういう状態なのでしょうか？

なんだかよくわからない表現ですが、たとえば、生成AIが「机の上にペットボトルのお茶が置かれた絵」を描きだしたとしましょう。しかし、AIはその絵の中に描かれている「ペットボトルのお茶」とは認識できないという話です。

言葉で書いてもよくわからないので、さっそく生成動画で検証してみましょう。たとえば、以下のような画像があります。

さて、この絵を見て、何を感じるでしょうか？

たとえば、この絵を見て「将棋の局面で、駒を取るかどうか悩む将棋女子がいて、その横にペットボトルのお茶が置いてある」と解釈することはできるかもしれません。しかし、

それができるのは将棋のルールをある程度把握している人間だけ

なのです。

そもそも、「ペットボトルのお茶が置いてある」と書いていますが、

「お茶が置いてある」とはどういう意味でしょうか？

多くの人間にとって、お茶が置いてあるということは「お茶を飲みたい時のためにそこに置いておくもの」ということだと思います。そのため、「この後に、この人がお茶を飲みます」と言われたとしたら、この絵を見た人は

「ああ、手元に置いてあるお茶を手に取って、それを飲むんだな」

と感じるはずです。

しかし、AIはそうは考えません。たとえば、ここで動画生成AIに「She drink a plastic bottle of tea on the desk.」というプロンプトを与えると、以下のような動画を生成してしまいます。

これはわざとやっているわけではありません。別の画像で試してみても、やはり同様の結果になってしまいます。

生成AIはプロンプトに基づいて、モデルにある「お茶を飲むようなしぐさ」だけを再現しています。すでに机に「置いてあるお茶」の意味を理解しているわけではないのです。これはすなわち、

AIは、画像を「単なるピクセルの集合体」としてしか見ていない

ということに他なりません。その結果、人間から見たら違和感のある「すでに机の上に置かれているペットボトルは無視してしまう」という動画をAIは生成してしまうのです。

今回は、「生成AIに絵心はあるのか」というテーマで書いてきました。私の現時点での見解は「絵心はない」というものです。

一方で、世の中の流れはいま「生成AIを業務に活用しよう」という風潮になってきています。たとえば、以下の記事では、生成AIに「雑誌の表紙」を作らせようとしています。

202字

¥ 100

#有料記事書いてみた

40,612件

課金してくれるととても嬉しいです。シェアしてもらっても嬉しいです。「いいね」も嬉しいですし、フォローも嬉しいです。要するに、どんなことでも嬉しいです。