画像解析機能で日本語のクロスワードを解けないか試したものの結構厳しかった話(ChatGPT部、大城)

2023年7月25日 21:14

こんばんは、ChatGPT部の大城です。昨日は記事を作成する暇がなかったので、またどこかで挽回したいと思っておりますが今日も軽めにて。

Google BardとBing Chatに画像解析機能が追加されましたので、画像を見てクイズを解かせられないか、という実験です。ただ、結果としては「まだまだ厳しい」感じでしたので、今後に期待ですね。

オモシロAIごった煮勉強会

ChatGPT部を始める前に、画像生成やらLLMやらLiDARやら音楽生成AIやらをごった煮にした勉強会をやってまして、そちらの第6回が本日ありましたので、そちらのLTネタから抜粋してご紹介です。
( こちらは１〜２ヶ月に1回くらいのペースで開催中）

発表資料はこちら

日本語の超シンプルなクロスワードをBardやBingの画像解析機能で解いてもらう -> ムリでした

こちら、いきなり結論としてはムリ、と言う感じですが「画像からの日本語の理解」の性能がまだ十分じゃない、と言う感じでした。

資料を抜粋するとこんな感じです。みなさんは何が入るかわかりますか？

ノーヒント状態ですが、答えは「が」です。縦にも読むと「毛ガニ」、横に読むと「うがい」ですね。

Bardの回答

Bing Chatの回答

日本語の画像解析の所感 -> 精度がでない

クロスワード、と言うことは認識してくれたのですが、BardもBing Chatも正しく日本語を認識することができませんでした。

仕方がないので、ChatGPT-4にテキストで情報入力

画像解析の精度はこちらでコントロールはできませんので、仮に画像の解析が正しくできたと言う前提で、OpenAIのChatGPT-4にテキストで問題を投げてみました。

日本語を指定するとそれなりに把握してくれてますね。ただ、３文字の単語になるように、と言う指示をしていなかったため、上下左右から成る２文字の単語を出力してきました。この部分を訂正して再度実行。

うーん、うさぎ、とでてますが実際は「うさい」になりますし、上下の「けさに」は「今朝に」で名刺じゃないですね。ちょっと厳しそう。

力技で解けないかチャレンジ -> NG

この手の問題のテクニックとして、「当てはまりうる言葉を全て入れてみて検証」と言うものがあると思います。
ChatGPTに五十音を入れて検証してくれ、と依頼してみました。

総当たりで評価してもらいましたが、濁音の「が」はスキャンの対象外になっていました。

直接的なヒントを提供 -> OK

仕方がないので「濁音も入れてみて」と指定したところ、なんと一発で正解になりました。この辺のヒント出しの匙加減が結構難しい印象です。

その他の失敗した実験

他にも、左右の絵の間違い探しや「ウォーリーをさがせ」でウォーリーを見つけてもらおうとしましたが、それもうまくいかず、と言う感じでした。

所感等：クイズのようなトリッキーなタスクはまだまだ人間には及ばない

まだ一例にすぎませんが、今回のような問題に関してはまだまだ人間の方が直感が働くかな、と言う気がしました。

ただ、今回はChatGPTや他の生成AIが苦手な日本語をベースにしていましたので、いつか英語の問題にもチャレンジできれば、と思っております。

現時点ではある程度「思いつき・直感」が必要なタスクに関しては人間の方が腕は良いかなと言う印象です。一方で、画像解析や日本語に対するChatGPTの性能が今後上がれば、先ほどのように「画像を見せてAIに解いてもらう」という事例も遠からず出てくるのでは、と思いました。

それでは今日は簡単にはなりますが、うまくいかなかった実験ネタのご共有でした。
みなさんもどうぞ良いChatGPTライフを・・！(大城)

この記事が気に入ったらサポートをしてみませんか？