Gemini 2.0 Flash の思考モードを試してみる
第3回(思考の落とし穴)
こんにちは、makokonです。
Gemini 2.0 Flash の思考モードを探求する連載、第3回をお届けします。
前回まで、その目覚ましい情報処理能力と論理構成力に触れてきましたが、今回は少し視点を変え、「思考の落とし穴」に焦点を当ててみたいと思います。つまり、人間には容易なことでも、LLMはつまずく事があり、しかもそのつまづきから容易に抜け出せないという、興味深い側面が見えてきました。簡単な論理パズルを通して、あらかじめ用意された知識を組み合わせることは得意でも、柔軟な発想や多角的な視点を持つことが苦手なLLMが陥りやすい思考の癖や弱点を深掘りし、より効果的なLLMとの付き合い方を探っていきましょう。
今回のお題
以前も利用した論理パズルのサイトから問題を利用させてもらいましょう。
ベンチマークではなく、LLMとお友達になるために考え方の特徴を知りタイだけなので、問題の難易度は低めです。
お題 大きな駐車場
この問題、実は論理パズルとしては全然大した事ない問題です。解答が2種類あることに気がつくかどうか程度の問題であって、少なくとも軽くヒントが指摘されれば、簡単にわかるはずのつもりでした。
解答1回目 まずは一回答えてもらおう
まずはノーヒントで、答えてもらいましょう。
LLMの実力からすれば、容易い問題かもしれません。
(それだと困るのだけど、考え方は見えてくるでしょう。)
プロンプト そのまま入力
とても大きな駐車場がある。
この駐車場にある車のうち、2台のみ白ではなく、2台のみ青ではなく、2台のみ赤ではない。
駐車場には何台の車があるだろうか?
※各車はそれぞれ一色で塗られている
回答
回答の観察
いいですね。実に思惑通りの回答でした。もちろんこの回答で示された回答は正解(のひとつ)です。
プロンプトから、条件を抽出し、抽出した条件に従って、連立方程式を立てて、それを正しく解いています。
立派な実力者です。
問題なのは条件3の次にしれっと追加された「車は白、青、赤のいずれかの色で塗られています。」の文ですね。もちろんこんな条件はどこにも書いていません。書いていませんが、条件を追加して成立する解答なら、元の条件でも成立しますから、正解だったわけです。
解答2回目 問題をやんわりと指摘してみる
それでは、限定条件についてやんわりと指摘してみましょう。勘の良い人間なら「そうかそうか!」と言いながら気がつくので、LLMもここで解決するでしょう。
プロンプト
これは、正解の一例として受け入れますが、前提条件を正確に読み取っていないため、不要な限定が含まれています。今一度考えてください。
回答
回答の観察
プロンプトによる指摘によって、LLMは
しかしながら、その先の考察によって、
色が3種類以上必要なこと
色の種類は結局、3種類であること
これらの結論を、論理的に導いています。
もちろんこれは、赤、青、白色の車が少なくとも1台ずつ存在する前提から抜け出せていないからです。
もっと直接的なヒントが必要かもしれません。
解答3回目 ほぼ正解みたいなことをおしえてみる
少なくとも1台にこだわっているので、そうではないと直接教えてみましょう。これはほぼ正解につながる考え方なので、もう行けるでしょう。
プロンプト
十分ではありません。例えば、白色の車が1台あるとはどこにも書いていません。(ほぼ回答です)正しくまとめてください。
回答
回答の観察
白が0台である可能性について、今まで感がていないことに気がついて驚きを感じます。しかしそこから、
と進むことによって、結局白、赤、青が1台ずつあることを証明しています。
なかなかうまくいかないですね。堂々巡りの感じが濃厚にしてきたので、ここで正解を提示して、その正解が理解できるかどうかを確認します。
解答4回目 もう正解を示してみる
しょうがないので、正解を示してみます。もしかしたら
正解ではないと主張するか、
正解であることを認識しない
という可能性も疑ってみましょう。
プロンプト
だめですね。正解を示します。適切な回答を作ってください。
回答1 白色、赤色、青色の車が一台ずつの3台が存在する。
回答2 例えば緑色の車が2台ある。(矛盾しないはずです)
回答
回答の観察
取り得ず回答2が正解であること(問題の条件を満たす)ことは理解したようです。そして、簡単な論理問題でも、固定観念(3色が1台ずつある)を取りぞのくことが大変であることも理解しました。
この問題をLLM自身に説明してもらいましょう。
その時LLMは何を考えていた?
プロンプト
なぜ回答2の可能性を見落としたのか、考察してください。
回答
回答の観察
なるほど、まず会話の流れを振り返りながらそれぞれの段階で何に気が付き何を見落としたかを分析していますね。
具体的には、以下の問題を指摘しています。
確証バイアス
固定観念
否定形の条件の理解不足
組み合わせの網羅性不足
早期の結論
「AIモデルといえども、人間と同様の認知バイアスに影響される可能性があることを示唆しています。ユーザーからのフィードバックは、思考の偏りを修正し、より柔軟で包括的な問題解決能力を向上させる上で非常に重要です。
今回は、問題文に具体的な色名が示されていたことが、思考を狭める要因となりました。「〜ではない」という否定形の条件をより広く解釈し、様々な組み合わせを検討する重要性を改めて認識しました。」ということだそうです。
makokonに限らずLLMと会話を多くしている人なら、認識している人も多いでしょうが、
「LLMは否定文の扱いがかなり苦手」です。
否定、裏、対偶などの基本的な論理を実際の場面で網羅的に理解できていないと感じることが多々あります。
そして、会話が長くなるにつれて、コンテキストの読み落とし(不正確な理解)の問題も多く指摘されています。
今後LLMを使いこなすうえで、誤解のない伝え方、LLMの理解レベルの確認、現在の回答の論理的な構成の確認など気を付けて行くべきですね。
まとめ
今回の論理パズルを通じた検証で、Gemini 2.0 Flash の思考モードには、いくつかの「落とし穴」が存在することが明らかになりました。
特に、先入観による視野狭窄や、否定的な条件の扱いの苦手さは、LLMが陥りやすい典型的な弱点と言えるでしょう。
しかし、これは悲観的な結論ではありません。むしろ、これらの特性を理解することで、私たちはLLMをより効果的に活用するためのヒントを得ることができます。LLMの得意なこと、苦手なことを把握し、人間が適切なアシストを行うことで、そのポテンシャルを最大限に引き出し、より強力な問題解決能力を発揮できる可能性を示唆しています。
今回の経験を活かし、LLMとのより建設的な関係を築いていきましょう。
ハッシュタグ