画像生成AIであるMidjourneyはどの程度言葉を理解できるのか？

2024年3月8日 09:50

友人から、Midjourneyってどのくらい言語を理解して画像を作る事ができるの？というメッセージと、以下の内容で作ってくれとのリクエストがありました。

「熊本市上通の蜂楽饅頭前で、蜂楽饅頭を食べている第一高校の女子生徒」

ちょっと説明が必要でしょう。「熊本市上通」とは熊本市の繁華街であり、大規模なアーケード街でもあります。「蜂楽饅頭」とは地元のお菓子で、ほぼ回転焼き饅頭。第一高校も地元の高校です。この様なローカライズされた内容を、AIにそのまま日本語で打ち込んで出来た結果が下記画像です。

右上の女性の指の組み方が地域によってはちょっとまずい組み方になっている（笑）だけでなく、日本語を理解できているとは思えない内容ですね。

AIが画像生成するためには、まず日本語から英語の構文に翻訳し直してその内容を解析するはずです。この翻訳時点に於いて、今回のようなローカル色が強い単語は誤訳され、AIは認識出来なくなります。

したがって、まず汎用性のある日本語に構文を作り変えたうえで、英語に翻訳する必要があります。引き続き英語での生成をやってみましょう。

単純に英訳してみる

先の構文をそのまま直訳した英語を使って作ったのがこの画像

ちょっとだけ雰囲気が出てきましたが、まだまだローカル色強い単語は理解されていません。回転焼きのまんじゅうも間違っていますね。

女子高生を地元の高校生の雰囲気に合わせるために制服などの色合いを指定したり、していますが熊本市の繁華街の雰囲気ではありません。

アーケードの雰囲気を重視する為に実際の写真を登録したうえでプロンプトを作り直しました。これでアーケードの雰囲気は近いものになりましたが細かい点においてはまだまだです。

何度かトライしてみて下記右上が最終的なものとなりました。

結局のところGAI（生成型AI）の仕組みとしてはここにないものを作り出すことに特化しているとも言えます。それは著作権、肖像権等との兼ね合いから現実とは違う何かを作る機械でもあるのです。

AIの言語理解は急激に進化しており、曖昧な人間の使う言語のほうが不完全で非論理的であると言える状況です。

我々はしばらくは、そういった状況からAIに合わせた言語の利用をすべき時代にあるといえるかも知れません。