生成AIに絵心は「ない」
はじめに
以下のような記事がありました。
端的に言うと、
生成AIは、絵を「どのように解釈」しているのだろうか?
という話ですが、今回はこの点について深堀してみます。
「将棋の駒を持つ女子高校生シリーズ」で感じていること
このnoteでは、将棋の駒を持つ女子中学生・高校生などを生成AIで作ってみるシリーズを連載しています。
既に連載中の記事で書いているように、静止画レベルで見ると人と生成AIによる画像はすでに見分けがつかないレベルです。
しかし、これを持って、生成AIに「絵心がある」と解釈してよいのでしょうか? そもそも、絵心とは何でしょうか? 絵心を辞書で引くと
と書かれています。「絵を理解している」とはどういう状態なのでしょうか?
AIは、画像内のオブジェクトを「もの」として認識できていない
なんだかよくわからない表現ですが、たとえば、生成AIが「机の上にペットボトルのお茶が置かれた絵」を描きだしたとしましょう。しかし、AIはその絵の中に描かれている「ペットボトルのお茶」とは認識できないという話です。
言葉で書いてもよくわからないので、さっそく生成動画で検証してみましょう。たとえば、以下のような画像があります。
さて、この絵を見て、何を感じるでしょうか?
たとえば、この絵を見て「将棋の局面で、駒を取るかどうか悩む将棋女子がいて、その横にペットボトルのお茶が置いてある」と解釈することはできるかもしれません。しかし、
それができるのは将棋のルールをある程度把握している人間だけ
なのです。
そもそも、「ペットボトルのお茶が置いてある」と書いていますが、
「お茶が置いてある」とはどういう意味でしょうか?
多くの人間にとって、お茶が置いてあるということは「お茶を飲みたい時のためにそこに置いておくもの」ということだと思います。そのため、「この後に、この人がお茶を飲みます」と言われたとしたら、この絵を見た人は
「ああ、手元に置いてあるお茶を手に取って、それを飲むんだな」
と感じるはずです。
しかし、AIはそうは考えません。たとえば、ここで動画生成AIに「She drink a plastic bottle of tea on the desk.」というプロンプトを与えると、以下のような動画を生成してしまいます。
これはわざとやっているわけではありません。別の画像で試してみても、やはり同様の結果になってしまいます。
これはわざとやっているわけではなく、AIがいくら動画を作ってもこうなってしまいます。
生成AIはプロンプトに基づいて、モデルにある「お茶を飲むようなしぐさ」だけを再現しています。すでに机に「置いてあるお茶」の意味を理解しているわけではないのです。これはすなわち、
AIは、画像を「単なるピクセルの集合体」としてしか見ていない
ということに他なりません。その結果、人間から見たら違和感のある「すでに机の上に置かれているペットボトルは無視してしまう」という動画をAIは生成してしまうのです。
おわりに ~ 絵心の「ない」生成AIに、人間は何を頼めるのか
今回は、「生成AIに絵心はあるのか」というテーマで書いてきました。私の現時点での見解は「絵心はない」というものです。
一方で、世の中の流れはいま「生成AIを業務に活用しよう」という風潮になってきています。たとえば、以下の記事では、生成AIに「雑誌の表紙」を作らせようとしています。
生成AIを使えば「それっぽい表紙」ができるので、それを活用するのはとても良いことだと思います。ただし、アウトプットがそのまま業務に活用できるかは、まだまだ人間が状況を見極める必要があるのではないでしょうか。
要するに、他の生成AIの事例と同じで、
プロンプトを工夫したうえで、期待するアウトプウトに加工する
スキルこそが大事で、そのひと手間が生成AIに「絵心」を持たせることにつながるのだと思います。
(おわり)