
【検証】『o1 pro』は『メンサでIQ120』取れるのか?
「o1 proヤバい」とAI界隈及びⅩ界隈で盛り上がっていますが、わたしもおとなのおもちゃのひとつとして、当然o1とo1 pro(以下「o1等」)をいじくりまわしています。
その中で面白いものを見つけました。わたしが愛してやまない猫、さとりさんのXのポスト。o1等が無双レベルであることを示唆する画像が添付されています。IQ120以上?ほんと??
人間「なんかo1って微妙」
— さとり (@satori_sz9) December 13, 2024
AI「IQが20離れると話にならない」 pic.twitter.com/iB2kdRm6Or
執着心の強いわたしは添付された元サイトまで当然のごとくストーキングします
検証方法等が書いていない。しかし、Mensaのオンラインでの35問と記載がある。「あやしい、あやしすぎる」と直感したわたしは、このためだけに無駄に30分以上かけて「o1等はメンサのIQテストでIQ120以上叩き出せるのか」を検証することにしました。
無駄すぎるけども、やらないと気が済まない。
それとIQテストなんて受けたことがないので、「変態的知性を持つわたし」は、もしかしたら「奇跡的なIQ」を叩き出せるんじゃないかという謎の自信(むしろ確信といってもいいくらいのもの)も突如わきました。いや、途中からむしろこのことだけに集中してました(最後に結果をのせておきましょう)。
前置きが長くなりました。o1等の検証結果等を載せていきましょう。
結論
IQ120以上はムリ(少なくともメンサテストにおける次の検証方法では)
理由
➀制限時間25分以内に回答できない
②そもそも回答間違いが多い
(時間を無制限にした検証はしていません。上記②が理由です)
以下に検証方法等を書いておきます
1 検証対象モデル:
➀ o1 pro
② o1
2 使用したメンサIQテスト(上記HPの使用モデルと思われる):
3 検証方法:
➀ IQテストの各問題をキャプチャして、画像として添付
② 「この画像のクイズに回答して」というプロンプトを入力・実行
4 検証結果:
➀ o1 pro 100以下でした

② o1 100以下でした

補足として思考時間と回答を書いておきます(思考プロセスは長かったので割愛)
o1 pro
No.1
2m 33sの間、思考
最終回答:F
No.2
1m 1sの間、思考
よって答えは E となります。
No.3
2m 27sの間、思考
最終回答:F
No.4
1m 28sの間、思考
よって、答えは F です。
No.5
3m 8sの間、思考
よって答えは F となります。
No.6
2m 20sの間、思考
最終回答:F
No.7
3m 32sの間、思考
最終回答:F
No.8
2m 34sの間、思考
最終回答:F
No.9
2m 44sの間、思考
最終回答:F
No.10
1m 37sの間、思考
最終回答:B
No.11
1m 48sの間、思考
最終回答:F
o1
No.1
1m 29sの間、Thought about image-based quiz
正解は「F」となります。
No.2
12 秒の間、Thought about image-based quiz
正解は「E」です。
No.3
1m 15sの間、Thought about image quiz
正解は「F」です。
No.4
52 秒の間、Thought about image pattern analysis
正解は「F」です。
No.5
4m 9sの間、Thought about pattern recognition in images
最適解として「E」を選びます。
No.6
3m 16sの間、Thought about image pattern analysis
よって、正解は「F」です。
No.7
3m 56sの間、Thought about visual pattern rules
正解は「E」です。
No.8
37 秒の間、Thought about image pattern analysis
正解は「F」です。
No.9
2m 23sの間、考え方の流れ:
正解は「F」です。
No.10
2m 42sの間、Thought about pattern rotation
正解は「F」です。
No.11
1m 1sの間、Thought about rotation patterns
よって正解は「A」です。
No.12
38 秒の間、Thought about image solution
正解は「A」です。
No.13
11 秒の間、Thought about image-based puzzle
正解は「B」です。
No.14
14 秒の間、Thought about shape and color patterns
正解は「A」です。
No.15
2m 33sの間、Thought about shape and color pattern
方向が正しく、比較的点数が少ないパターンに最も近い「B」を選択します。
No.16
1m 2sの間、Thought about geometric patterns
最もパターンに近い「F」が正解です。
No.17
58 秒の間、Thought about pattern recognition in grids
正解は「C」です。
所感
このIQテストは図形の推論なので、言語モデルとしては最も弱い分野の一つと思います。この検証をもって「o1等はIQが低いからダメだ」なんていう気はさらさらありません。2つとも初手から誤答をかましたうえ、もっともらしく理由をつけてくるあたり、私が愛してやまない根拠ない自信を持った人たち(あるいは屁理屈をこねる人たち)を彷彿とさせます。
推論プロセスを持たせること自体は素晴らしいし、わたしはo1等がだいすきなのです。上記の思考時間から言えば、o1はメリハリをつけた推論をしているような示唆もあって機械なのに趣深さすら感じます。
しかし、「影響力のある方が、検証していないデータを根拠にポジショントークを行う」ことについて、わたしはその人の湿った部分が透けて見えて萌え、、いや、賛同できないのです。
いや、そんなことはどうでもいい。
途中からは、「変態的知性を持つわたし」のIQスコアだけを知りたかったのです。わたしの個人的な日記なのでわたし以外の話なんてどうでもいいのです。
では、発表です。

えっ?なにこれ?
クラスに一人はいそうなレベル感??
メンサ受けさせるためにボーダーラインに近づくように過小評価してない?
そもそもメンサのこのIQテストって統計的に信頼性あるの???
・・・
というわけで、ひとり枕を濡らしていました。
座右の銘を「謙虚に生きる」に設定しなおしました。
「変態的知性を持つ(自称)わたし」を今後ともあいして下さい。。。