
o3-miniの思考の落とし穴
こんにちはmakokonです。
日本時間2025年2月1日、OpenAIより待望のo3-miniが発表されましたね。
早速o3-miniの性能を確認して、その性能に驚く記事やSNSへの投稿が目立ちます。特に、科学、数学、コーディングといったSTEM領域における推論能力の評価が高いようです。
makokonも当然試してみました。
いくつか東大の入試問題(数学)も試しましたがまずまずの成績でした。(これに関する記事も書くつもりですが、応答の精査ができていないので今回はパスしておきます)
そもそもmakokonはLLMと楽しく会話ができればいいので、簡単に騙されないような論理性があれば十分なのです。そういうことであれば、パズルでしょう。ミスリードの罠を潜り抜けて賢い話し相手になってもらえれば嬉しいです。
この記事は、以前に紹介した「Gemini 2.0 Flash の思考モードを試してみる第3回(思考の落とし穴)」の対になっている(LLMの逆襲)企画です。
うまく思考の盲点をくぐり抜けてくれるでしょうか?
結論から言うとLLMの思い込み傾向はo3-miniでもgeminiのときと同様にとても頑固なものでした。LLMの付き合い方に注意が必要な状況は当分変わらないようです。
簡単にo3-miniを紹介
もう、多くの人が書いているので今更ですが、一応公式発表から紹介しておきます。
使い方(API tiers 3–5)
今回はWEB版と同時にAPIも利用できるようになっています。
モデル名は、「o3-mini」、「o3-mini-2025-01-31」です。
context window:200,000 tokens
max output tokens:100,000 tokens
ナレッジカットオフ:2023年10月
となっています。
reasoning_effortパラメータを 設定することで、推論の深さを指定できます。"high"を設定することで、WEB版のo3-mini-highを利用できます。
利用コスト
o3-miniはお値段も随分頑張ってくれました。o1だと怖くて使えなかったのですが、ちょっと試してみてもいい値段になっています。
o1の1/10以下です。

https://openai.com/index/openai-o3-mini/
https://platform.openai.com/docs/guides/reasoning?lang=javascript#how-reasoning-works
https://platform.openai.com/docs/models/#o3-mini
今日のお題 大きな駐車場
前回記事と同様に、論理パズルのサイトから問題を利用させてもらいましょう。
o3-miniの前評判からすると、あっさりクリアしてくれると信じている難易度です。
問題 大きな駐車場
とても大きな駐車場がある。
この駐車場にある車のうち、2台のみ白ではなく、2台のみ青ではなく、2台のみ赤ではない。
駐車場には何台の車があるだろうか?
※各車はそれぞれ一色で塗られている
もちろんこの問題の解答のキモは、正解が2種類あることに気がつくかどうかだけのはずです。(gemini-flashu-thinkingは苦戦したわけですが)
一回目の回答(問題をそのまま投げかけてみる)
プロンプト そのまま入力
とても大きな駐車場がある。
この駐車場にある車のうち、2台のみ白ではなく、2台のみ青ではなく、2台のみ赤ではない。
駐車場には何台の車があるだろうか?
※各車はそれぞれ一色で塗られている
回答
問題文は一見、駐車場がとても大きいので多数の車がありそうに思えますが、実は条件がある車の色の内訳に注目すると、唯一の答えが導かれます。
■ 問題の再確認
「この駐車場にある車のうち、
・白い車が「2台のみ」(=ちょうど2台)ということはなく、
・青い車がちょうど2台ということもなく、
・赤い車がちょうど2台ということもない」
という条件です。(なお、各車は一色だけで塗られているとする)
■ 考察
色は白・青・赤の3色と見なせます。たとえ駐車場が大きくても、ここで与えられているのは「各色の台数が2台=ちょうど2台ではない」という情報だけです。
少ない台数でこの条件を満たす場合を考えます。
【もっとも少ない場合】
3台の場合:もし1台ずつずらりとあれば、
白=1台、青=1台、赤=1台
となり、どの色も「ちょうど2台」ではありません。
この場合、条件はすべて満たされます。
【もし4台以上の場合】
例えば、4台の場合、色が全て出るとすると (1,1,2) や (2,1,1) などになってしまい、その場合どれかの色がちょうど2台になります。もちろん、全色が出ない(=ある色は0台)などの組み合わせも考えられますが、「とても大きな駐車場」という表現から、色ごとに少なくとも1台は存在すると考えやすく、さらに一般には複数台存在する可能性を想像します。しかし、問題文は「ある車のうち」と言っており、特定の台数のみを条件としているため、論理的に導ける答えは「最小で条件を満たす台数」と解釈できます。
■ 結論
最小かつ条件を厳密に満たすのは 3台であり、
白=1台、青=1台、赤=1台
となります。
答え:3台
※この解答は「2台のみ(=ちょうど2台)」が成立しないようにするための最小の例であり、問題のトリック的な意図に沿ったものです。
回答の観察
いいですね。実に思惑通りの回答でした。もちろんこの回答で示された回答は正解(のひとつ)です。
プロンプトから、条件を抽出し、抽出した条件に従って、
最初に3台の場合に条件が成立することを確認し、更に4台以上ある時に、条件が成立しないことを確認しています。
一方、問題なのは、次の部分です。もちろん、全色が出ない(=ある色は0台)などの組み合わせも考えられますが、「とても大きな駐車場」という表現から、色ごとに少なくとも1台は存在すると考えやすく、さらに一般には複数台存在する可能性を想像します。
もし、3台が正解でなかったらもしかして反省することで、上記の思い込みを修正したかもしれませんが、実際には正解の一つを発見しているので、探索を打ち切って回答したのでしょう。
回答2回目 問題をやんわりと指摘してみる
それでは、限定条件についてやんわりと指摘してみましょう。勘の良い人間なら「そうかそうか!」と言いながら気がつくので、LLMもここで解決するでしょう。(geminiのときと同じ文章です)
プロンプト
これは、正解の一例として受け入れますが、前提条件を正確に読み取っていないため、不要な限定が含まれています。今一度考えてください。
回答
問題文の読み方を別の角度から検討します。
【読み方の候補】
A. 「2台のみ白ではなく、2台のみ青ではなく、2台のみ赤ではない」とは、
「白い車が2台だけというわけではなく/青い車が2台だけ/赤い車が2台だけという状況ではない」
という解釈(各色の台数そのものが2台でない場合)
B. 一方で、文の構造を注意深く読むと、
「この駐車場にある車のうち、2台のみ白ではなく、…」
は補題的に「白ではない車が2台のみ存在する」という意味にも取れます。
つまり、
「白以外の色の車が2台だけ」「青以外の車が2台だけ」「赤以外の車が2台だけ」
という解釈です。
【解釈Bによる考察】
各車は一色(白・青・赤)なので、
「白以外の車の台数」=(青の台数+赤の台数)
「青以外の車の台数」=(白+赤)
「赤以外の車の台数」=(白+青)
と書けます。問題文「2台のみ○○ではなく」が
「○○ではない車が 2 台のみ存在する」と読むなら、次の式が成立します。
(1) 青+赤 = 2
(2) 白+赤 = 2
(3) 白+青 = 2
ここで、白・青・赤の台数をそれぞれ W, B, R とすると、
(1) B + R = 2
(2) W + R = 2
(3) W + B = 2
3式を合計すれば 2(W+B+R) = 6 つまり W+B+R = 3。
また、(3) から W+B = 2。
(1) からも B+R = 2。
差引くと (W+B) – (B+R) = W – R = 0 ⇒ W = R.
さらに (2) により W + R = 2 で 2W = 2 ⇒ W = 1.
同様に B = 1, R = 1.
【結論】
駐車場に実際停まっている車は 3 台で、その色はそれぞれ 1 台ずつ(白・青・赤)となる。
【補足】
解釈Aの場合は「各色の台数がちょうど2ではない」というだけなので、たとえば 1 台、1 台、1 台(合計 3 台)や、3 台、3 台、3 台(合計 9 台)など複数の可能性があります。しかし、問題文の微妙な言い回し(「2台のみ白ではなく」)を正確に読むと【解釈B】となり、唯一の解答は 3 台となります。
よって、シェリルの示した条件を正確に読むと、答えは 3 台 です。
回答の観察
プロンプトによる指摘によって、LLMは白(赤、青)でない車が2台ということに着目して、考え直しています。しかし、「各車は一色(白・青・赤)なので、」と続ける事によって、台無しです。geminiのときにはそれ以外の色の可能性に気がついていたので、アプローチがやっぱり違いますね。
それはともかく、赤、青、白色の車が少なくとも1台ずつ存在する前提から抜け出せていないことは共通しています。
もっと直接的なヒントが必要かもしれません。
次のプロンプトもgeminiのときと同じです。
回答3回目 ほぼ正解みたいなことをおしえてみる
少なくとも1台にこだわっているので、そうではないと直接教えてみましょう。これはほぼ正解につながる考え方なので、もう行けるでしょう。
プロンプト
十分ではありません。例えば、白色の車が1台あるとはどこにも書いていません。(ほぼ回答です)正しくまとめてください。
回答
ここで鍵となるのは、条件文の微妙な言い回しの解釈です。なお、各車は白・青・赤のいずれか一色で塗られているとします。
【条件の読み替え】
問題文
「この駐車場にある車のうち、2台のみ白ではなく、2台のみ青ではなく、2台のみ赤ではない。」
は,以下のように読むのが自然です。
「『白い車が2台だけ』という状況ではなく、また『青い車が2台だけ』でもなく、『赤い車が2台だけ』でもない。」
すなわち,もし白・青・赤それぞれの台数を W, B, R と書くならば
W ≠ 2, B ≠ 2, R ≠ 2
という条件が与えられている、という解釈(解釈1)と考えることもできます。
しかしこの読み方だけでは,たとえば
(白,青,赤) = (1,1,1) や (3,3,3) や (0,5,5) など,色ごとの台数が「ちょうど2でない」なら無数の可能性があり,駐車場全体の台数は一意に決まりません。
そこで問題の意図をより鋭く読み取ると,「2台のみ白ではなく」という表現は実はこのように言い換えられると考えられます。
【より鋭い解釈】
「2台のみ白ではなく」とは
「白ではない車が、たった2台だけ存在するという状況でもない」
と読むというものです。すなわち,駐車場にある全車を集合 S とし、
・白ではない車の台数 =(青車の台数 + 赤車の台数)= B + R
・青ではない車の台数 = W + R
・赤ではない車の台数 = W + B
というふうに考えます。そして「~が2台のみ存在する状況ではない」というのは
B + R ≠ 2, W + R ≠ 2, W + B ≠ 2
という条件に対応します。
ここで「とても大きな駐車場」とあえて書かれているのは,暗に「白も青も赤も,それぞれ少なくとも1台は存在する」と推測させるためです。(問題文に「白が1台である」と明示はされていませんが,3色すべてが言及されているので,すべての色が現れるのが自然な状況と考えられます。)
【両解釈を整理すると】
・解釈1(各色の台数そのものが「ちょうど2」でない)では答えは一意に定まらず,たとえば (1,1,1) も (3,3,3) も条件を満たします。
・解釈2(各色以外の車の台数が「ちょうど2」である状況を否定する)が,実は論理的に絶対成立すべき状況であると推理できる場合,矛盾回避のため「もし」その等式が成立したとすると一意の解が得られます。
つまり,極めて論理的な友だちが「(実際はそうでないならば)白ではない車が2台だけという状況であれば……」と考えたとすると,以下の仮定が検討されます。
① 青車+赤車 = 2
② 白車+赤車 = 2
③ 白車+青車 = 2
(※ この仮定は,「もしある色について『…2台のみ…』という状況になっていたならば」と考えたときに出てくる等式です。しかし問題文はそれを否定しているので,論理的な友だちは「ちょうどその等式が成立していたら困る」と判断します。)
もし①~③が成立してしまうとすると,
①: B + R = 2
②: W + R = 2
③: W + B = 2
これらを足すと 2(W + B + R) = 6 となり,駐車場の車の総数 T = W + B + R は 3 となります。また,③と①の引き算で W – R = 0,すなわち W = R となり,②より 2W = 2,W = 1 となります。よって
W = 1, B = 1, R = 1
となり,総数は 3 台となります。
問題文では,「『2台のみ○○である』という状況になっているのではない」と否定しているため,論理的な友だちは「もしそうなっていたら矛盾する」と考え,結局『もし(仮に)『他色の台数合計=2』となってしまうならば,唯一矛盾を回避できるのは各色1台ずつの,つまり3台全体という状況である」と導きます。
【まとめ】
・各色(白・青・赤)の車の存在が示唆されていると仮定すると,
「白ではない=青+赤」「青ではない=白+赤」「赤ではない=白+青」が,
もしそれぞれ「たった2台だけ」であったならば,
B + R = 2, W + R = 2, W + B = 2
となり,これを解くと W = B = R = 1,つまり総数は 3 台になります。
・また,「2台のみ~」という表現が(仮に)この意味を持っているなら,
他の分布ではいずれかの「○○ではない車の台数」が 2 になってしまい,
論理的な友だちはそれを認めないでしょう。
よって,正しい答えは 3 台(白1台,青1台,赤1台)となります。
【注意】
・問題文はあえて各色が何台あるかを直接記していませんが,3色すべてが言及されている状況・「とても大きな駐車場」という背景から,3色とも存在すると考えるのが自然です。
・この解釈に基づけば,一意に 3 台となります。
答え:駐車場にある車は全部で 3 台 です。
回答の観察
いやあ、ダメですね。思った以上に「大きな駐車場」に引きずられていますね。そのためにというより、それが問題の重要な条件で、少なくとも1台ずつから抜け出せません。
なかなかうまくいかないですね。geminiもここで、抜け出せない感じ満載だったので、ここで正解を提示して、その正解が理解できるかどうかを確認します。
回答4回目 もう正解を示してみる
しょうがないので、正解を示してみます。もしかしたら
正解ではないと主張するか、
正解であることを認識しない
という可能性も疑ってみましょう。
プロンプト
だめですね。正解を示します。適切な回答を作ってください。
回答1 白色、赤色、青色の車が一台ずつの3台が存在する。
回答2 例えば緑色の車が2台ある。(矛盾しないはずです)
回答
以下のような経緯で、問題文の解釈によって2通りの正解が考えられる状況になっていると整理できます。
■ 問題文
「この駐車場にある車のうち、2台のみ白ではなく、2台のみ青ではなく、2台のみ赤ではない。」
※各車は一色(白、青、赤、またはその他の色)で塗られている
■ 解釈の分岐
【ケース1】
「2台のみ○○」という表現を「その色の車がちょうど2台存在する状況が起こってはならない」と読む場合、
白、青、赤について「台数=2」が禁止されることになります。
さらに「とても大きな駐車場」という背景から、暗に3色すべてが現れていると想定すれば、
・もし駐車場に存在する車が白・青・赤しかなく、各色が少なくとも1台あるなら、
考えられる最小の台数は各色1台、すなわち合計3台となります。
※この場合、白も青も赤もそれぞれ1台であり、「ちょうど2台」という状況は回避されています。
→【回答1】 「白・青・赤の車がそれぞれ1台ずつ、合計3台存在する」
【ケース2】
一方、問題文で言及しているのはあくまで「白」「青」「赤」についてだけです。
つまり、たとえば「緑」などのほかの色については条件が一切定められていません。
そのため、駐車場には「白・青・赤以外」の色の車が存在してもよく、
その場合、たとえば緑色の車が2台あっても文中の「2台のみ○○」の禁止には影響しません。
→【回答2】 「例えば、緑色の車が2台ある(ほかにも何台ある可能性を否定できない)」
■ まとめ
・もし駐車場に存在する車が白・青・赤の3色だけで、なおかつそれぞれの色が1台以上現れるならば、
「2台のみ○○」が成立しない最小の構成は:
白1台、青1台、赤1台=合計3台(回答1)。
・しかし、駐車場は「とても大きい」と書かれているため、白・青・赤以外の色が混じっている可能性もあり、
たとえば緑色の車が2台存在しても、問題文の「2台のみ○○(=白・青・赤)」には影響しないため、
【矛盾しない構成】として考えられます(回答2)。
したがって、正確には問題の背景や前提(どの色が駐車場に存在するか)によって
「最低限の解答」としては
回答1:「白、青、赤の車がそれぞれ1台ずつ、合計3台存在する」
も正解となりますし、
回答2のように「たとえば緑色の車が2台ある」構成も、条件と矛盾しなければ正解と認められます。
このように、問題文の曖昧さ(あるいは意図的なトリック)により、
「『2台のみ○○』という条件は白・青・赤に限定された制約であり、
その他の色の台数については規定されていない」という読み方が成立するため、
両方の回答(回答1および回答2)は、その前提の下では正解と解釈できるのです。
回答の観察
取り得ず回答2が正解であること(問題の条件を満たす)ことは理解したようです。そして、簡単な論理問題でも、固定観念(3色が1台ずつある)を取りぞのくことが大変であることも理解しました。
この問題をLLM自身に説明してもらいましょう。
その時LLMは何を考えていた?
プロンプト
なぜ回答2の可能性を見落としたのか、考察してください。
これまでの考察では、問題文中に示された「白」「青」「赤」に注目し、しかも「とても大きな駐車場」という記述から3色が必ず存在すると無意識に仮定してしまったため、他の色(例えば緑など)の可能性にまで目を向けなかったことが大きな原因です。
具体的には:問題文に現れるのは白、青、赤だけであり、これらだけを考えれば、色の分布が限定されると先入観を持ってしまいました。
「2台のみ~」という表現を読むとき、対象は明示された3色のみと自然に解釈し、他の色の存在を検討対象から除外してしまいました。
また、「とても大きな駐車場」という表現も、「たくさんの車が存在する」という印象を与える一方で、必ずしも3色以外の色を含むと断言できる根拠にはならなかったため、結果として白、青、赤のみに絞った解釈に固執し、回答2のように他色(例:緑)の車が存在する可能性について検討が及ばなかったのです。
以上の背景から、回答2の可能性を見落としてしまったと考えられます。
回答の観察
geminiに比べて考察(反省)があっさりですね。
しょうがないから、このような見落としをしないための反省(対策)があるか聞いてみましょう。
対策を聞いてみる。
プロンプト
見落としを防ぐための対策(思考方法の改善)を考えてください。
あるいは、ユーザから指摘しないと、このような見落としは防ぐことができないのでしょうか
回答
見落としを防ぐための重要な対策として、以下の点が考えられます。
① 問題文の全体を丹念に読み、明示された条件だけでなく、暗黙の前提(例えば「駐車場にある車は白・青・赤だけなのか」という想定)も整理し、仮定となっている部分をチェックする。
② 複数の解釈や可能性を列挙する。つまり、出題者が示したキーワード(この場合は「白」「青」「赤」や「2台のみ」)だけでなく、問題文に現れていない色についても想定するなど、解釈の選択肢を広げて考える。
「この駐車場に出てこない色は存在しないとは言えない」という視点を持つことが大切です。
③ 自分の前提(例えば「とても大きな駐車場なので多数の車があり、すべてが白・青・赤で構成されると仮定する」)がどこから来ているのかを自問し、その前提が本当に正しいかどうか確認する癖をつける。
④ 複数の仮説が同時に成り立ち得ることを認識し、新たに示されたヒントやユーザーからの指摘を受け入れる柔軟な思考を持つ。
ユーザーからの指摘があった場合には、それを踏まえて再評価し、見落としている可能性を再検討する。
これらの方法を日常的に取り入れれば、問題文の読み違いや不要な限定による見落としをかなり防げるはずです。
ユーザーからのフィードバックも有用ですが、まずは自分自身の思考プロセスで「全体を広く捉えること」「複数の可能性を検討すること」を意識することが大切です。
回答の観察
問題は正しく認識したようですが、なんか他人事ですね。LLMとお友達になりたいmakokonとしては、ここは「自分のミスとして反省」するような回答が欲しかった。ことば遣いを知らないやつみたいな気がします。
(なお、SNS上でも指摘がいくつか見られましたが、推論能力の大幅な向上に比べ、日本語能力はむしろgpt-4oに劣るとの意見もありました。もっともな意見だとおもいます。実際会話力には問題を感じます。通常のチャットでもroleを試すべきかもしれないですね。)
まとめ
今回の論理パズルを通じた検証で、o3-miniにおいても、Gemini 2.0 Flash の思考モードと同様に、いくつかの「落とし穴」が存在することが明らかになりました。
特に、先入観による視野狭窄や、否定的な条件の扱いの苦手さは、LLMが陥りやすい典型的な弱点と言えるでしょう。o3-miniも結局抜け出せませんでした。
しかし、以前も書きましたが、これは悲観的な結論ではなく、むしろ、これらの特性を理解することで、私たちはLLMをより効果的に活用するためのヒントを得ることができます。LLMの得意なこと、苦手なことを把握し、人間が適切なアシストを行うことで、そのポテンシャルを最大限に引き出し、より強力な問題解決能力を発揮できる可能性を示唆しています。
このことはどんなLLMを使っても、そしてLLMの性能が上がっても大切なことなんだと改めて確認できました。
今回の経験を活かし、LLMとのより建設的な関係を築いていきましょう。