見出し画像

最強対決: OpenAI o1 vs Gemini Exp 1206 | 勝つのはどちら?

3,659 文字

こんにちは、YouTubeチャンネルへようこそ。ご覧の通り、これは私のLLMテスト問題の中で最も難しい問題です。これまでどのモデルもこの問題に正解できていませんでした。今日は、私の考える現在の最先端モデル同士を比較していきます。左側にはChat GPT o1があります。これは全体的に最高のモデルとして知られています。右側には、その最も近い競争相手であるGemini実験1206があります。これは私の考えでは、Gemini 2 Proの非常に初期のバージョンです。
それでは、どちらのモデルが正解できるか見てみましょう。画面に問題が表示されていますので、動画を一時停止して問題に挑戦し、答えを用意してください。テストが終わったら答えを公開しますので、ぜひ挑戦してみてください。
では両方のモデルに送信して様子を見てみましょう。o1モデルは考えている最中ですが、Geminiはすでに異なる解決策を試し始めています。Geminiから回答が来ました。かなり考えているようですが、正解が出ることを期待しています。
Chat GPT o1は2分50秒考えました。これは私が経験した中で最長の思考時間の一つです。すべての点を考慮しながら回答を作成しています。推論はやや遅いですね。
見てください、両モデルが全く同じ答えを出してきました。座席配置の数は2で正解なのですが、彼らが述べた配置が間違っています。ヒントは与えずに、単に「間違いです、もう一度試してください」と伝えましょう。
今回、o1は1分考え、Geminiモデルは思考時間がありませんでした。Geminiモデルからの回答を見てみましょう。Geminiは同じ答えを出してきました。o1の方も見てみましょう。また両者とも同じ答えを出してきました。
ここで一つヒントを与えてみましょう。4番目の条件では「FはTの真右に座る」となっていますが、彼らの座席配置では、Tの右は2番席になり、4番席にはなりません。これはGeminiも同じ誤りを犯しています。両モデルに4番目の条件を確認するよう求めてみましょう。ヒントを与える必要がありそうです。
これがヒントだと明記して、どちらのモデルがこのヒントを理解できるか見てみましょう。思考モデルではないGeminiが、o1と同等の回答を出してくるのは非常に興味深いですね。
Geminiが回答を出してきました。一つの正しい座席配置を示してきましたが、実際には条件に従うと2つの正しい座席配置があります。部分的に正解といったところですが、o1の方も見てみましょう。
o1は2分20秒考えました。その回答を見てみましょう。この時点で、o1は私たちの質問の解釈が正しいと主張し、問題がないと述べているだけです。私たちが指摘したことを完全に無視していますが、Geminiの方は一つの正解を出してきました。
もう一度試してみましょう。o1には「あなたの仮定は間違っています。どこが間違っているか見つけて、正しい答えを出してください」と伝え、Geminiには「本当に可能な座席配置は1つだけですか?もう一度確認してください」と伝えてみましょう。
Geminiは「ご指摘ありがとうございます。もう一度確認したところ、私は間違いを犯していました」と述べ、修正を試みています。一方、o1はまだ考えている最中です。Geminiはまだ1つの配置しかないと主張しています。
o1がついに気付いたようです。左右の方向の判断で混乱していたと認めています。そして正しい配置と正解が出てきました。これこそが私がこのモデルを気に入った理由です。今回は条件を正確に理解しています。
少し時間を取って、モデルの思考過程を見てみましょう。4番目の条件について重要な洞察があります。「FはDの真右に座る」という条件について、これは単に時計回りの次の席を意味するのではなく、一部の客は内側を向いており、一部は外側を向いているためだと説明しています。この結論を元に、すべての条件を再確認し、正解にたどり着きました。
FはDの真右に座るという条件で、Dは3番席に座っており内側を向いています。内側を向いている人にとって真右は反時計回りになります。つまり3番席からの反時計回りは2番席となり、Fが2番席に座ることになります。この条件を正しく理解すると、他のすべての条件も以前から正しく理解していたため、正しい配置にたどり着きました。
これこそが私が言いたかったことです。インターネット上では、このモデルの方が賢い、あのモデルの方が賢いという議論をよく目にしますが、今回私はこのモデルの真の知性をカメラに収めることができました。確かに最初の回答で正解すべきでしたが、私たちが促すことで最終的に正解にたどり着きました。一方、Gemini実験1206は正解できませんでした。両モデルに4~5回の再試行の機会を平等に与えたことがお分かりいただけたと思います。
この動画で、o1モデルが持つ生の知性を実際に目撃することができました。これはワンショットプロンプトだけでなく、通常の対話においても優れた性能を発揮することが分かります。間違いを指摘されると、実際に考え直し、最終的に正解にたどり着くことができました。
この問題を理解できなかった方のために、今から目の前で解説していきましょう。8人の友人A、B、C、D、E、F、G、Hが正方形のテーブルの周りに座っています。私の絵は下手ですが、理解していただけると思います。
正方形のテーブルがあり、1から8までの席が時計回りに番号付けされています。1、3、5、7の角の席に座る人はテーブルの中心を向き、2、4、6、8の中間の席に座る人は外側を向いています。
8つの席をこのように描いて、1、2、3と番号を付けていきます。明確に述べられているように、Gは1番席に座ります。また、非常に重要な点として、すべての条件を確認する必要があります。
Dの両隣の席は中心から外を向いているということは、Dは角の席の一つに座っているということです。3番席にいれば両隣は外を向いており、5番席なら6番席と4番席が外を向いています。7番席も同様です。
8番目の条件を見ると、Dは底面の席には座らないとあります。角の席3、5、7について考えると、Dは7番席にも5番席にも座れないので、ここに座らなければなりません。
次に、これらのアルファベットが含まれる条件を探します。それらを配置するのが最も簡単だからです。4番目の条件を見ると、FはDの真右に座るとあります。Dは中心を向いているので、これがo1が間違えた点です。Dが中心を向いているなら、Dの右はここで、左はここになります。したがって、Dの右はここになり、Fがここに来ます。
7番目の条件では、AとFは向かい合って座るとあります。そこでAをここに配置します。6番目の条件では、BはFの2つ右に座るとあります。Fの2つ右は4番席なので、ここにBが来ます。
次に、私が考える難しい部分、C、H、Eの配置に移ります。条件の中にCの座席配置に関する記述は見当たりませんが、HはEの3つ左に座るという条件があります。例えば、Eがここに座っているとすると、Eの左とは何でしょうか。これが左なので、3つ左は1、2、3でHはここに座れます。
これが2つの可能な配置です。なぜEをここに置けないのかと疑問に思うかもしれません。Eをここに置いた場合、左右を無視して3つ数えても、1、2、3は埋まっています。ここに置いても1、2、3は埋まっています。そのため、HもEもここには置けません。すでにお話ししたように、Eをここに置いてHを得る条件があります。
これが一つの条件で、ご覧の通りEの左にあります。正しい条件です。実は、もう一つの条件があります。例えば、Eをここに置くと、これは外向きの席なので、左側はこちら側ではなく、この側になります。3つ左は1、2、3でここになります。
ここでHとDは実際に入れ替え可能で、この入れ替えによって画像にも示されている2つの条件が得られます。これが2つの座席配置が得られる仕組みです。
いずれにせよ、o1は正解にたどり着きましたが、Gemini実験モデルは正解できませんでした。この問題は依然として無敗を保っています。GPT 4.5や他の将来のモデルが解けるか見てみましょう。
この動画が面白かったら、ぜひいいねをお願いします。このような問題を考えるのは本当に大変な作業なので。また、このようなビデオをもっと見たい方はチャンネル登録をお願いします。次回の動画でお会いしましょう。
ちなみに、最新のGemini Flashモデルと、同じ効率的なモデル群に属する競合モデルであるGPT 4o miniとClaude 3.5 Haikuを比較した動画も作っています。どのモデルがこの領域で優れているか、ぜひご覧ください。動画はここに表示されます。クリックしてご覧ください。

いいなと思ったら応援しよう!