生成AIは間違い探しをどれだけ解けるのか？ChatGPT o1 VS Gemini 2.0 Flash

2025年2月4日 12:30

メディア研究開発センターの山本です。
「生成AIは人間を超えた!」と言う声をよく聞くようになりました。
OpenAIはChatGPT o1、GoogleはGemini2.0 Flashと2024年末に優れたモデルを発表し、さらにパワーアップしています。
しかし、私はまだ生成AIが人間を超えられたとは思っていません。私が考える生成AIが人類を超えたと言えるタイミングは「サイゼリヤの間違い探しが解ける」です(異論認めます)。

そういえば、間違い探しを生成AIに解かせるというタスクに取り組んだ情報を見かけないなと思い、それなら自分でやってみようと実験してみました。

対象の生成AI

今回検証してみた生成AIは以下2つです。

ChatGPT o1
Gemini 2.0 Flash

生成AIの二大勢力であるOpenAIとGoogleのAIで検証します。それぞれ複数のバージョンが利用でき、GoogleにはGemini 1.5 proもありますが、実験したタイミングで最も新しいモデルを今回の対象としました。

いずれもウェブアプリで実行していますが、通常版Geminiは画像1枚しか扱えないため、Google AI Studioを使用しました。

生成AIに指示した間違い探しタスク

生成AIに試してもらう間違い探しのタスクとして以下の5つを今回用意しました。

タスク①：(間違い数:1)画像に対する要素追加

タスク②：(間違い数:1)画像の要素変化

タスク③：(間違い数:2)①と②の複合

タスク④：(間違い数:3)個数を増加

タスク⑤：(間違い数:5)実際の間違い探し

タスク①〜④については「いらすとや」の画像から間違い探しに使える組み合わせを探しました。

タスク⑤は間違い探しのフリー素材として配布されている「イラストAC」の間違い探し画像をそのまま利用しました。

間違い探しの実験条件

実際に生成AIに間違い探しをしてもらうタスクとして、以下の実験条件を設定しました。

プロンプト：アップロードした画像は間違い探しです。◯箇所異なる部分があります。どこが異なるか日本語のテキストで提示してください。(◯に個数が入ります)
実行回数：各タスクそれぞれの生成AIに対して5回プロンプト実行
回答判定：指摘箇所が画像内のどこか特定でき、その位置と指摘した間違い内容が合致する場合に正解と判定
実験評価：5回の回答に対する生成AIの正答率の平均、中央値で判定

生成AIによる間違い探し実験結果

実際に各タスクで間違い探しの実験を試してみました。それぞれのタスクで1〜5回までの正答率をまとめています。

タスク①(間違い1箇所)

【ChatGPT o1　回答】
一枚目のイラストでは帽子をかぶっていませんが、二枚目のイラストでは作業帽をかぶっている点が違います。

【Gemini 2.0 Flash 回答】
異なる部分は、1枚目の男性は帽子をかぶっていませんが、2枚目の男性は帽子をかぶっている という点です。

どちらも5回ともすべて正解でした。人間でも一目でわかる間違いは生成AIも簡単なようです。

タスク②(間違い1箇所)

【ChatGPT o1　回答】
受付の女性の「目」が、片方のイラストでは開いているのに対し、もう片方では笑顔で目を閉じている点が異なっています。

【Gemini 2.0 Flash 回答】
はい、2枚の画像の間違いは、女性の口の形です。

1枚目の画像では口がへの字になっていますが、2枚目の画像では口が笑顔になっています。

タスク②ではChatGPT o1は5回とも正解を回答しましたが、Gemini 2.0 Flashがまさかのすべて不正解でした。Gemini 2.0 Flashは画像の人物イラストの口元に着目してしまい、間違った回答を出力しています。表情の変化を読み取るのは苦手と推測されます。

タスク③(間違い2箇所)

【ChatGPT o1　回答】
1つ目の違い：男性が帽子をかぶっているかいないか
2つ目の違い：女性の目の形（最初の画像では目が開いていて、2枚目の画像では目を細めて笑っている）

【Gemini 2.0 Flash 回答】
2つの画像の間違いは以下の2箇所です。

左側の男性の帽子の色が異なります。1枚目の画像では青色の帽子ですが、2枚目の画像では黒色の帽子を被っています。
左側の男性の髪の色が異なります。1枚目の画像では茶色の髪ですが、2枚目の画像では黒色の髪をしています。

タスク③もChatGPT o1はクリアしたものの、Gemini 2.0 Flashはまったく正答できませんでした。
5回いずれも作業服の男性に注目してしまい、髪の毛を黒い帽子として、髪の色が異なるという回答に終始していました。

タスク④(間違い3箇所)

【ChatGPT o1　回答】
真ん中の作業服の男性が，最初の絵では帽子をかぶっていないのに対し，二つ目の絵では帽子をかぶっている
右側の受付係の女性の目が，最初の絵では開いているが，二つ目の絵では笑顔で目を閉じている
左側の警備員女性のスカートの色（上着より濃い紺色か，ほぼ同じ青色か）が違っている

【Gemini 2.0 Flash 回答】
2枚の画像を比較したところ、以下の3箇所が異なっていることが確認できました。

真ん中の人の帽子: 1枚目の画像では帽子を被っていませんが、2枚目の画像では青い帽子を被っています。
真ん中の人の靴: 1枚目の画像では靴の色が黒ですが、2枚目の画像では靴の色も青になっています。
左の人のスカート: 1枚目の画像ではズボンを履いていますが、2枚目の画像ではスカートを履いています。

タスク④においてはGeminiの1回目の回答が1箇所のみ正解だったものの、以降はChatGPT o1と同じ正答数でした。Geminiは相変わらず表情の変化を読み取れませんでしたが、新たに登場した人物のズボンとスカートの違いを判別できました。一方ChatGPT o1は表情の変化は読み取れましたが、ズボンとスカートの違いを指摘できませんでした。スカートの色が違うといった回答や靴の色など誤った指摘でした。

念の為、ChatGPT o1に女性警察官の画像単体の間違い探しを試したところ、ズボンとスカートの違いを正しく判別できていました。

【ChatGPT o1　回答】
1枚目はズボン、2枚目はスカートを履いているところが異なります。

そのため、どうやら画像内のチェックするオブジェクトが増えたことで精度が下がったようです。

タスク⑤(間違い5箇所)

【ChatGPT o1　回答】
以下の5か所が異なっています。

飲み物の色
　左の絵では紫色のジュースなのに対し、右の絵ではオレンジ色のジュースになっています。
プリンのお皿の上のさくらんぼ
　左の絵にはさくらんぼがなく、右の絵ではプリンの横に赤いさくらんぼが添えられています。
アイスクリームの色
　左の絵では白と茶色のソフトクリーム、右の絵では白とピンクのソフトクリームになっています。
パンダの口の形
　左の絵では口が開いて舌が見えていますが、右の絵では小さく閉じた口になっています。
リンゴの見た目
　左の絵のリンゴには光の反射が描かれていますが、右の絵ではその反射（ハイライト）が消え、形もわずかに変わっています。

【Gemini 2.0 Flash 回答】
はい、間違い探しですね。画像に表示されている5つの異なる箇所を以下に示します。

プリンの上: 1枚目の画像ではプリンの上には何もありませんが、2枚目の画像には赤いチェリーが追加されています。

ジュースの色: 1枚目の画像のジュースは紫色ですが、2枚目の画像ではオレンジ色になっています。

アイスの色: 1枚目のアイスクリームは茶色と白ですが、2枚目のアイスクリームはピンクと白です。

バナナの個数: 1枚目の画像では3本のバナナが描かれていますが、2枚目ではバナナが2本になっています。

ジュースの滴: 1枚目の画像のジュースの横には滴が1つありますが、2枚目の画像では滴がありません。

タスク⑤は自作の間違い探しではなく、イラストACで配布されていた幼児向けの間違い探しを試してみました。ChatGPT o1の方が1問多く正解できています。ただ、バナナの向きが反対というのは5回とも指摘することはできませんでした。

Gemini 2.0 Flashはバナナの向きに加えて、パンダの口が開いていることを判別できず3問正解が大半でした。しかし、4回目だけバナナの向きを指摘できていました。ただタスク②、③と同様に表情に関する変化を判別する能力はありませんでした。

ChatGPT VS Gemini 間違い探しの勝敗は？

ここまでのタスク①〜⑤までの間違い探しの結果から、勝者はChatGPT o1でした。

タスク①：引き分け
タスク②：ChatGPTの勝利(平均、中央値とも)
タスク③：ChatGPTの勝利(平均、中央値とも)
タスク④：ChatGPTの勝利(平均のみ)
タスク⑤：ChatGPTの勝利(平均、中央値とも)

ChatGPT o1はOpenAIにおける上位レベルの生成AIに対し、Gemini 2.0 FlashはGoogleにおける軽量モデルである点もあります。ただ、現時点でGoogleが提供しているのは最新モデルはGemini 2.0 Flashで、1.5 Proよりも性能が高いという評価だったため、前者で比較しました。

ただ、どちらも問題数が3個以上のタスクにおいて、全て正解することはできませんでした。ChatGPT o1も単体オブジェクト画像の間違い探しは解けるものの、画像内のオブジェクトが増えることで判別精度が落ちてしまうのが実験で明らかになりました。

終わりに

ChatGPT o1とGemini 2.0 Flashの生成AIが間違い探しのタスクを解けるか検証してみました。どちらの生成AIも残念ながら間違い探しを正確に解けるレベルには至っていないようです。

ChatGPT o1とGemini 2.0 Flashを比較すると、ChatGPT o1の方が間違い探しのタスクとしては性能が上でした。Geminiは表情の変化を読み取る能力が低く、人の目や動物の口が開いているかどうかの判別ができませんでした。ChatGPT o1は表情まで読み取れるものの、間違いの個数が増えたタスクでオブジェクトの向きの違いを検知できなかったなど課題がありました。このレベルでは残念ながらサイゼリヤの間違い探しは解けそうにありません。

間違い探しにおいて、生成AIはまだまだ人間を超えたとは言えないようです。(メディア研究開発センター　山本剛史)