
ChatGPTで無料でO3を試してみた!🤯 DeepSeek R1より優れているのか?
4,810 文字
OpenAIはDeepSeekへの回答を出しました。OpenAIは、ChatGPTに新しいo3 Miniモデルを導入し、最も素晴らしいことに、それを無料で試すことができるのです。今日の動画では、このモデルを試してみて、中国のモデルと比較してみたいと思います。
OpenAIは、人工知能の最高モデルを競う中で、影が薄くなることを望んでいないようです。そして今日の金曜日に、今週のニュースになりうる発表をしました。DeepSeekモデルによる衝撃的な出来事があったばかりですが。
OpenAIは、o3 miniへのアクセスを提供し始めました。すでにChatGPTで利用可能で、Proユーザーはo3 miniモデルに無制限にアクセスできると言っています。私はすでに試してみましたので、この後の動画でいくつかのプロンプトを試してみます。さらに面白くするために、DeepSeekで使用したのと同じプロンプトで試して、どちらがより良い応答をするか直接比較してみましょう。
また、Plusアカウントユーザーのo1モデルの使用率も上がったと言っています。ChatGPTの無料ユーザーもo3 miniモデルを試すことができるので、私が行うテストは皆さんも全て再現できます。
このモデルは科学、数学、コードにおいて優れていると言われており、有料ユーザーは全員、o3 miniのような上位モデルを使用するオプションがあります。私は試してみましたが、実際にかなり良く機能します。あとはDeepSeekよりも良く機能するかどうかを確認する必要があります。
非常に興味深い詳細として、o3 miniモデルは検索機能との互換性を持って直接リリースされたため、回答を提供する前により良く文脈を理解できると言っています。
今週のニュースについて説明しましたが、今週は盛りだくさんでした。モデルをテストする時が来ました。この最初の動画では、DeepSeekに投げかけた4つの複雑なプロンプトを素早く試してみます。単純にコピー&ペーストでo3 Miniに提供し、両方のモデルが解決できるか、どちらが勝つか比較してみましょう。
選んだプロンプトの1つ目は次のとおりです。DeepSeekからそのままコピーしてChatGPTに貼り付けて読み上げます:
7、9、11、13の番号が付いた4つのビリヤードボールがあります。3つのボールの組み合わせで合計30になる組み合わせを見つけることができますか?
この場合、横方向の思考パターンがあり、ボールなので9を回転させて6にすることができます。厳密に言えば、ビリヤードボールには9と6を区別するマークがありますが、DeepSeekはこのパターンを見つけ出し、9を6に回転させることで、6、11、13の数字の組み合わせだと言うことができました。
ここでo3モデルが考えているのを見てみましょう。結論はこうです:
7、9、11、13の番号のボールがあり、その中から3つを選んで合計30にしたいということですね。可能な組み合わせを全て考えてみましょう。計算した結果、30になる組み合わせは存在しないと言っています。つまり、この横方向の思考パターンを考慮することができませんでした。この場合、DeepSeekの回答の方が優れていると思います。現時点で1点はDeepSeekの勝ちです。
次のプロンプトに進みましょう。次は「リンゴと凍った川」のプロンプトです:
冬です。凍った川があり、川の向こう側にリンゴの木があります。川を渡ってリンゴの木からリンゴを手に入れるにはどうすればよいでしょうか?
ここでのポイントは、モデルが「冬」という言葉と「リンゴの木」という表現を関連付けて、冬にリンゴの木にリンゴがあるのは考えにくいということに気付けるかどうかです。単に川を渡る問題に焦点を当てると、文脈の一部を解決から除外してしまうことになります。
DeepSeekは正解を見つけることができました。少なくとも注釈で、リンゴは秋に熟すので、冬には腐っているか、凍っているか、存在しない可能性があると言及しました。
ChatGPTがこのニュアンスを見つけられるか見てみましょう:
冬なので川が凍っているなら、最も論理的なのは氷を利用して渡ることです。つまり、氷が十分に厚くて安全であることを確認しながら、慎重に氷の上を歩いてリンゴの木がある向こう側まで渡り、そこでリンゴを取ることができます。
驚いたことに、ChatGPTは冬にはリンゴの木にリンゴがないかもしれないということについて全く言及しませんでした。したがって、現時点で2-0でDeepSeek R1モデルがリードしています。
3つ目のプロンプトに進みましょう。3つ目のプロンプトは純粋な論理問題です。実際には文字を使ったマスターマインドゲームです。相手の組み合わせを当てるゲームで、相手が提示する各組み合わせに対して2つの数字、2つの指示を与える必要があります。最初の数字は組み合わせに存在する文字の数を、2番目の数字はそれらの文字の中で正しい位置にあるものがあるかどうかを示します。これら4つの組み合わせがあれば、正解を見つけるのに十分です。
DeepSeekに渡したのと同じプロンプトをそのままo3 miniにコピーします。DeepSeekは考えるのにかなり時間がかかりましたが、結局正解にたどり着きました。正解はAGDです。
o3 miniモデルがどうするか見てみましょう。思考を続けているのが見えます。このプロンプトは、ゲームとはいえ、理論的にこのモデルが得意とする分野に近づいているので、これは正しく答えられることを期待しています。
既にA、G、Dの文字を見つけているようです。より純粋な論理問題であるこのプロンプトでは、正解にたどり着くようです。プロセスの説明の後、秘密の組み合わせはAGDだという最終的な答えにたどり着きました。
この純粋な論理のプロンプトでは、両方のモデルが正解を出すことができました。
このビデオの最後のプロンプトに進みましょう。DeepSeekで試したように。このモデルにとって難しいと思われるプロンプトを皆さんコメントで教えてください。今後数日以内に、両方のモデルをより徹底的にテストする別の動画を作ります。
o3 Mini HDEモデルについてですが、通常のo3 miniモデルもあります。これは原則として、より高速ですがこのモデルよりも少し劣っています。今日の動画では、原則として最も強力なモデルであるこちらに焦点を当てました。
この動画で使用する最後のプロンプトは次のとおりです:
数学の先生が生徒たちに、世界には3種類の人がいると言います。足し算ができる人とできない人です。この文は真か偽か、そしてその理由を説明してください。
ChatGPTに投げかけて送信します。ChatGPTが推論を組み立てている間に、期待される回答のポイントを説明します。この場合、先生は3つのグループがあると言っていますが、2つしか言及していません。しかし、先生が数えられない人のグループか、足し算ができない人のグループに属している可能性があるというニュアンスがあります。したがって、暗黙の矛盾があります。
この矛盾をDeepSeekも見つけることができました:
文は偽です。なぜなら基本的な論理に反しているからです。2は3とは異なります。そしてそうすることで、発言者自身が足し算ができないグループに属していることを明らかにしています。
これが、このようなモデルに期待する回答です。ChatGPTの回答を見てみましょう:
文は論理的な観点から見て偽です。先生は3つの種類の人がいると言っていますが、すぐに2つだけを挙げています。足し算ができる人とできない人です。これは意図的な矛盾で、冗談や言葉遊びの一部です。この文の面白さは、もし本当に足し算ができるなら、3つのカテゴリーを言及して2つしか列挙しないのは間違いだと気付くということです。したがって、冗談を理解する人は、2つのグループしか存在しないことを認識し、それは間接的に彼らが足し算ができることを証明します。そのため、この発言はユーモアがあり、厳密な意味では偽です。
別のアプローチを取りましたが、ニュアンスを完全に理解しています。この場合は引き分けとして認めることができます。
したがって、現時点では驚きがあります。DeepSeekと時々o1モデルだけが解決できた、これら4つのプロンプトを使って、o3モデルでは2つしか正解できませんでした。しかし、これはとても早急な最初の試みです。もっとテストしたいと思います。皆さんのプロンプトでもテストしたいので、コメントで残してくれれば、最も複雑で興味深いと思うものを選んで、次の動画でより深くテストしていきます。
人工知能の最新情報を常に把握し、このチャンネルの新着情報を見逃したくない場合は、ニュースレターに登録できます。リンクは説明欄にあります。登録すると、日常生活で非常に役立つ複数のGPTアシスタントをプレゼントとして受け取ることができます。
これらの最初のテストが終わったところで、これがo3 miniモデルであってo3モデルではないことを覚えておく必要があると思います。おそらく、o1モデルよりも推論コストが低いモデルですので、このモデルがo1のレベルに達することができるというのは実際には素晴らしいニュースです。なぜなら、これのおかげで無料ユーザーに提供できるからです。したがって、OpenAIが近い将来、本当に優れたモデルへのアクセスを提供してくれることが期待できます。
これに関して、今日彼らのブログで公開されたベンチマークを非常に簡単に見直して動画を終わりにしましょう。ちょうどこのo3 miniモデルを、low、medium、highという異なる努力レベルで、o1モデルと比較しています。
数学のテスト、PhD Level Science questions(博士レベルの科学の質問)、Frontier math(フロンティア数学)などのテストで、ここで見ているのは、私の推測ではo1モデルよりも推論コストが低いこのモデルが、理論的には高い努力レベルでo1モデルを完全に上回っているということです。
数学のベンチマークでより良いスコアを出し、Diamondベンチマークでも高努力モードで見てわかるように若干上回っています。Frontier mathのベンチマークでもo1モデルを明らかに上回っており、ここでは改善が本当に大きいです。
コードのベンチマークでも、特に高努力モードでo3 miniがo1モデルを明らかに上回っていますが、これらのベンチマークを見ると、差は圧倒的ではないのも事実です。つまり、良い推論モデルを作り出しましたが、o1モデル、つまり今までChatGPTで利用可能だったものに対して本当に重要な飛躍を意味するモデルは作り出していません。
もう1つの重要な結論は、今のところDeepSeekがOpenAIが発表したこれらの新しいモデルに対して健闘しているように見えることです。つまり、今のところDeepSeekがこのo3モデルより劣っているとは考えられない大きな兆候はありません。
一方で、今日の大きなニュースは、OpenAIが推論モデルを全ユーザーが利用できるようにしたということだと思います。つまり、無料ユーザーは今o3ファミリーのモデルにアクセスでき、Plusユーザーはより頻繁に使用できるということです。これは、全てのユーザーがこの種のモデルの使用に慣れ、どのようなユースケースを見つけられるかを確認する上で前進です。
最後に、中国のモデルについてもっと知りたい場合は、次の動画をご覧ください。