見出し画像

o3-miniは本当に素晴らしい(しかしdeepseekには勝てるのか?)

11,597 文字

今日がついにその日です。o3-miniが登場しました。OpenAIから初めて、妥当な価格で、かつ十分に優れたモデルが出ました。これが全て出てきた理由があります。そうですね、「理由(reason)」という言葉を何度も使っていますが、これは推論(reasoning)モデルなので自分を抑えられません。
しかし、このリリースを興味深いものにしているのは、実はOpenAIの仕事ではありません。中国の別の企業、DeepSeekです。中国で起きていることに対抗するためにこのモデルを構築したように見えます。そしてそれは価格設定とパフォーマンスの両面に表れています。
また、実装におけるいくつかの奇妙な特徴にも表れています。これから本格的な深掘りをしていきます。モデルのパフォーマンス、価格、比較、そして実際の使用における長所と短所について見ていきます。丸一日o3-miniを使って遊んでみましたが、とても刺激的な体験でした。学んだことを全てお見せできることにワクワクしています。
まず、今日のスポンサーからの一言です。今日のスポンサーはRaggyです。AIブラザーの皆さんは絶対に聞きたいと思います。なぜなら、彼らは基本的にどんなサービスでもAIアプリに接続することを、これまでになく簡単にしたからです。
Google Drive、Slack、Salesforce、Confluence、さらにはNotionなどにデータがある場合、Plaidスタイルで全て処理してくれます。アプリでそれらのアプリにサインインすれば、そのデータを接続してAIアプリケーションにインデックスを作成できます。
チャットを構築していて、NotionデータやGoogle Driveデータ、あるいは他の人のデータとチャットできるようにしたい場合、これが最も簡単な方法です。認証からインデックス作成まで全て処理してくれます。書く必要のあるコードは信じられないほどシンプルです。APIキーを使ってエンドポイントにcurlを投げ、インデックスを作成したいものを伝えるだけです。
PDFを直接渡すこともできます。チャンク分割、インデックス作成、全てを行ってくれます。そして簡単なフェッチリクエストで取得できます。T3チャットでこれらを設定するのは簡単ではありませんでした。PDFの読み取りなどの機能をまだ追加している理由がここにあります。
既存のAIアプリで優れたRAG体験を構築することが、これで非常に簡単になります。また、新しいアプリのアイデアがある場合も、これが始めるのに適した方法でしょう。今回のエピソードのスポンサーとなってくれたRaggyに大きな感謝を。soy.link/raggyで今すぐチェックしてください。
直接本題に入りましょう。おそらく価格設定から始めるべきでしょう。人々が一般的によく使用する項目を全て集めて、この簡単な図表にまとめました。ChatGPT 4oと比較できます。また、入力と出力は100万トークンあたりです。フォーマットを修正するためにそうしました。
1トークンはおおよそ1単語に相当します。標準的なChatGPT 4o APIの価格設定では、100万入力トークンで$2.50、出力は$10です。4o-miniは入力が15セント、出力が60セントです。そのため、T3チャットで4o-miniを無料オプションとして提供しています。
無料枠と言えば、実は一時的にo3-miniを無料枠で提供しています。もし試してみたい場合や、現在最高のモデルを使用したい場合は、試す価値があります。また、他の全てのモデルも試してみたい場合は、月額8ドルで、提供している全てのモデルに対して非常に高いメッセージ制限が設定されています。現在、合理的に使用したいと思うものは基本的に全て揃っています。
そうですね、4o-miniは非常に安価です。o1はそれほど安くありません。100万入力トークンあたり15ドル、100万出力トークンあたり60ドルです。これがo1を使用するのが難しい理由であり、多くのサービスでは見られない理由です。
ここで特に指摘したい価格が1つあります。Claudeです。Claudeは信じられないほど高価です。特に推論モデルではないことを考えると。この価格設定には驚きました。これを回避するために、T3チャットの最大の経費は、単にClaudeの使用料をAnthropicに支払うことです。
DeepSeek V3は入力が27セント、出力が$1.10です。V3は古いバージョンです。価格設定が変更されているためです。これは私が非常に興奮した価格設定です。V3は彼らの推論モデルではありません。面白いことに、私の経験では実際にClaudeのパフォーマンスと特性に非常に近いものでした。
しかし、彼らの古いバージョンの価格設定は信じられないほど安価でした。入力が14セント、出力が28セントで、実際に4o-miniよりも安価で、Sonetに匹敵する品質レベルでした。信じられないことでした。まもなく少し高価になる予定です。APIが価格の安さと、R1が爆発的に人気を集めたことで過負荷になっているのは理解できます。
R1と言えば、入力が55セント、出力が$2.19で、4oやSonetよりも安価で、o1に近い動作をしますが、ここには欠けているものがあります。o3の価格がありません。o3-miniの価格は何でしょうか?o3-miniの入力価格は$1.10で、出力価格は$4.40です。
これは非常に競争力のある価格です。事実上、私の意見では4oに触れる価値がほとんどなくなります。3.5 Sonetの価値提案を非常に奇妙で、おそらくかなり弱いものにします。また、o3-miniをDeepSeek R1に対して本当に良いポジションに置いています。
ここで測定しているのは価格だけです。測定する必要のある他の多くの要素があります。Artificial Analysisのような素晴らしいサービスがあります。彼らは異なるモデルとその価格を比較する素晴らしい仕事をしていますが、まだo3は掲載されていません。また、彼らはMLU、GPQなどの従来のベンチマークにより焦点を当てています。
しかし、私には自分でこれらのモデルをテストするのに好んで使用する独自のものがあります。特に私が非常に楽しんでいるのは、小さなプログラミングチャレンジです。Advent of Codeです。Advent of Codeは、毎年12月の終わりに公開されるクリスマスをテーマにした問題のセットです。
太平洋時間の毎晩9時頃に1つずつ公開されます。非常に競争が激しく、楽しいプログラミングチャレンジのセットです。私は毎年積極的に参加しています。昨年は実際にとても良い成績を収めました。ここに私の数字が表示されています。ほぼ毎日トップ1,000位以内でした。
これの大部分はCursorに感謝すべきです。書きたくないものを書くのに大いに役立ちました。古典的な巡回セールスマン問題のようなものですね。二分探索を二度と書きたくありません。Cursorのおかげで、それを書く必要がなくなったことに感謝します。
しかし、これらの問題の中には残酷なものもありました。特に私を最も苦しめたのは、1時間以上かかったものです。具体的には17日目のパート2、21日目、24日目でした。そこで私がしたことは、これらの問題、17日目、21日目、24日目を取り上げ、Claude、o1、Pro、o3-mini、そしてR1に、どのように対処するか試してみました。
これは楽しいテストになると思いましたが、予想以上に楽しいものになりました。彼らが提供したコードの答えが素晴らしかったからではなく、これらのUIが全てどれほど壊れているかについて多くのことを学んだからです。
このChatGPTのスレッドを見てください。あの面白い砂時計のようなものが見えますか?これはo3-miniの高プロンプトが、おそらく30分ほどただ放置されているからです。これはちなみに全て1つのプロンプトです。ただ推論を続け、推論を続け、そして静かに死んでしまいました。タイトルさえ更新されませんでした。ひどいですね、本当にひどい。
そして私はProに再登録しました。200ドルのプランです。o1だけでなく、o1 Pro、超fancy、超高価なモデル、APIでさえヒットさせてくれないものをプロンプトできるようにするためです。ああ、彼らのUIはとても遅延があります。タブの変更にどれだけ時間がかかるか見てください。
今クリックしています。半秒ほどかかり、そして一度下までスクロールすると...ああ、なんて酷いんでしょう。どうしてこんな風に作ったんでしょう?T3チャットではこのような問題は全くありません。クリックすると即座にクリックした場所に移動します。変なスクロール移動も、変なレンダリングもありません。
そのため、できる限りT3チャットを使用しました。ホバーすると、どのモデルで生成したのかが表示されるようになったことからも分かります。これは素晴らしい追加機能で、テストと確認が格段に容易になりました。
では、結果はどうだったでしょうか?17日目から見ていきましょう。問題を理解できるように。これは面白い3ビットコンピュータの問題でした。正確に何だったか思い出してみましょう。ああそうです。
3つのレジスタがあり、プログラムがあります。プログラムが出力しようとしているものを判断する必要があります。これは一連の数字になります。オペランドが与えられます。0から3は文字通りの値を表し、4はA、5はB、6はC、7は有効なプログラムには現れません。
基本的に3ビットコンピュータを構築しているようなものです。これは楽しい問題です。彼らはこのようなことを好みます。しかし、答えはどうだったでしょうか。
パート1、これは私の答えです。o1は正解しました。o3も正解しました。R1も正解しました。Claudeは本当に面白い幻覚を見ました。コマンドZで戻してみましょう。これは面白かったです。Windowsを幻覚で見ていました。信じられないかもしれませんが、あなたのウィンドウにはNode互換のファイルシステムがありません。
それを修正する必要がありましたが、その面白い幻覚を修正すると大丈夫でした。パート2は何も正解できませんでした。R1は無限に実行し続け、Claudeは同じ幻覚を見ましたが、実行回数に制限を設定したために失敗しました。合理的な範囲内で最終的に見つけられると仮定したからです。
明らかにAdvent of Codeをよく理解していません。なぜなら、パート2はレジスタaの最小の正の初期値を見つけることで、プログラムが自身のコピーを出力するようにするものだったからです。これは残酷なパート2で、大量のキャッシングを使用して非常に長い時間がかかりました。
これをどうやって解いたのか覚えていません。しばらく前のことですが、どれも解くことができませんでした。それがこれほど難しい問題だった理由です。理解できます。
21日目はどうでしょうか?21日目は本当に興味深い問題でした。キーパッドがあり、キーパッドは人間が単に押すものではなく、ロボットがボタンを押します。ロボットに上下左右の指示を与えて、指を上下左右に動かし、押すことでどのボタンを押すかを指示します。
しかし、いくつかの落とし穴があります。空白のスポットに指が触れると失敗します。そのため、与える指示が決してここに置かれないようにする必要があります。また、落とし穴2として、直接制御するのではなく、別のパッドを通して制御します。このパッドはロボットの背後にあり、その背後には別のロボットがそれを制御し、さらにその背後には別のロボットがいます。
つまり、例えば852を押したい場合、ロボットはaから始めてあり、上、左に移動して8を押す必要がありますが、その背後のロボットは上をロボットで押さなければならず、そしてもう分かると思います。これは本当に奇妙な問題で、とても面白いものですが、同時にとても難しい問題です。
そのため、どのモデルも答えを出せなかったのです。面白いことに気づいたのは、Claudeが完全に私のプロンプトを無視したことです。プロンプトでは「input.text」という名前のファイルから入力を取得するように指定していましたが、Claudeはそれを完全に無視しました。これは興味深いことでした。
推論モデルではないからなのか、それともコンテキストが多すぎて上部の指示を見失ってしまったのか分かりませんが、Claudeはその指示を完全に無視しました。他のモデルは少なくとも正しいデータを処理するコードを書きましたが、正しい答えは得られませんでした。パート2には何も近づくことさえできませんでした。
パート2は何だったか思い出してみましょう。ああそうです、3台のロボットからパート2では25台に変更されました。残酷でしたね。私のコードは実際にそれをうまく処理しました。パート2では、私は単に数字を増やすだけで動作しました。そのおかげでこんなに良いスコアを取れたのです。
24日目は正気を失いそうでした。クリスマスイブだったのに、本当に難しい問題を出してきました。パート1はそれほど悪くありませんでした。二進数の値をAND、OR、XORで組み合わせます。そんなに悪くありません。ゲートがあり、x00とy00がz0に行くような命令があり、1と0を組み合わせてそこに置く値を作ります。
彼らはより大きな例を下に示しました。ワイヤーシステムを通じて、物事が他の物事とつながり、そこから生じる全ての値を計算する必要があります。そしてそれが終わったら、システムを解きます。z00からz12があり、これを使って二進数を作り、それを10進数に変換すると実際の数字が生成されます。
これらはどうだったでしょうか?パート1はo1が正解しました。o3も...注意しておくべきことは、o1は標準のo1ではなく、全てでo1 Proを使用したということです。これは30分ほどかかりました。出力コードを生成するだけでこれだけ時間がかかり、その後問題を解くのにさらに時間がかかりました。
実際、パート2では永遠にハングしました。o3-miniで興味深かったのは、2回目に実行したとき(面白いことに、ChatGPTウェブサイトのUIがパート1で失敗したため、パート2に進めるように新しいプロンプトを作成したため)、パート1に失敗したことです。
そのため、代わりにパート1とパート2を1つのプロンプトに組み合わせ、パート1とパート2の両方の解を記録するように指示しました。1つのプロンプトでパート1とパート2を与えた場合は全く問題ありませんでした。しかし、このハングに遭遇しました。待って、終わったんでしょうか?いいえ、終わっていません。これは組み合わせたもので、決して終わらなかったものです。
そうですね、ただそこに座っていただけです。面白いですね。特に高度な推論では、そんなに多くの作業を一度にすることは好みませんでした。しかし、ここでOpenAIのOシリーズとR1の違いが実際に現れ始めます。
R1はこの問題を全く解決できませんでした。私は非常に驚きました。推論モデルならば完全にこれを解決できると思っていました。しかし、できませんでした。とはいえ、これはOモデルとDeepSeekのR1モデルの違いがこれらの問題の1つだけだということを意味します。
全ての推論モデルがパート1を正解し、Claudeは私が助けた後でパート1を正解しました。パート2は何も正解できず、21日目も何も正解できず、OpenAIの推論モデルだけが24日目を正解しました。それでも失敗率はかなり高かったです。
これは明らかに特に素晴らしい分析ではありません。クレイジーな科学的テストをしているわけではありませんが、これは私が気にかけることです。なぜなら、これらのモデルがこれらの問題に十分に良くなってリーダーボードが無意味になることを望まないからです。
そのため、常にこれらのものをテストしようとしています。APIに対してテストするスクリプトを書いたかもしれませんし、R1のAPIが現在正常に動作していれば、T3チャットでこれを行っていたかもしれません。
T3チャットでは現在、オプションとしてHyperboricを提供しています。問題は、HyperboricはR1を実行する特に速い方法ではないということです。GrockでホストされているR1 distilledモデルがあります。これは非常に高速ですが、完全なR1推論モデルではありません。
R1推論モデルから蒸留されたLlamaのバージョンで、非常に似たように動作しますが、従来のLMのように機能します。余分なステップはありません。単に大量のテキストを出力するだけですが、今回のテキストは従来のR1からのテキストに基づいています。実際にとても優れています。全体的に感銘を受けました。
そのパフォーマンスを見ると、なぜこれほど速いのかが分かります。これらのより難しいプロンプトの1つを与えてみましょう。21日目のパート1と2を与えてみましょう。推論がどれほど速く出てくるか見てください。スクロールが追いつかないほど速いです。本当に驚異的です。
推論を終えるかどうか見てみましょう。これはo3でも詰まった同じものですが、待ってください。例では合計ステップが68で、これは4桁です。68を4で割ると、1桁あたり17ステップです。ここでの計算では最初の桁に12ステップかかります。辻褄が合いません。
おっと、試しましたが、非常に速かったものの、成功しませんでした。では、パート1だけを与えてみましょう。まだ速いですが、またここでも、この速度を見てください。同じことをR1 hyperboricモデルで行ってみると、違いが分かります。
そして、はい、T3チャットでは実際に複数の処理を同時にストリーミングすることができ、全く問題ありません。ChatGPTアプリとは異なり、Proで何かを実行中に他の場所で別のクエリを作成しても、タブを長時間放置しているだけでも失敗することはありません。
これは迷惑です。これらのクエリは時に20分ほどかかることがあるからです。時々、彼らがどうやってこれを許容しているのか分かりません。迷惑です。T3チャットではこれをより良くするために多くの作業を行っています。まだ失敗するようですが、時間をかけているだけです。違いはそれだけです。
では、これは今日のメインテーマであるo3-miniとどのように比較されるのでしょうか?私たちのUIでこれをo3-miniに切り替えると、しばらくここに座っているでしょうが、それは期待する体験ではありません。
こちらでやってみると、何か違うものが得られます。ChatGPT UIでこれを使用すると、ここで推論に関する情報の一部が表示されます。これは実際に見るのがとても面白いです。しかし、落とし穴があります。彼らはこの情報を自分たちのUIでのみ提供し、APIを通じては全く公開していません。
なぜそうするのでしょうか?なぜこのデータをAPIを通じて提供しないのでしょうか?彼らは私たちにそれを持たせたくないのです。一方では、私のような人々が彼らができる以上のUIエクスペリエンスを提供できるようにしたいからですが、それが主な理由だとは思いません。
主な理由は推論だと思います。ChatGPTが何かをしている理由に関するこの推論データをDeepSeekのような企業に与えたくないのです。なぜなら、もしDeepSeekがそのデータにアクセスできれば、そのデータの上にモデルを訓練するのがはるかに簡単になるからです。
わお、これらのモデルは本当にこの問題に苦戦していますね。17日目を与えてみましょう。それはもう少しマシです。はい、文字通り全てのモデルが失敗するか、無限ループに陥っています。この問題を与えられると。それは本当に面白いですね。17日目のパート1は簡単です。それを与えてみましょう。
新しいモデルについて興味深いことが他にもあります。推論の努力レベルには、低、中、高があります。o3-miniで気づいた他の特徴として、APIで推論がストリーミングされないため、レスポンスもストリーミングできません。全て完了すると同時に送信されるだけです。
これは私が好まないユーザーエクスペリエンスです。モデルが物事を一つずつ吐き出すのを見るのが本当に好きになってきました。そして、望まないことをしているのが見えたら、止めることができません。T3チャットに停止ボタンを追加しましたが、まもなく登場予定です。
ただ、上に戻って編集し、メッセージを変更すれば、2回目はもう少し良くなることを期待できます。他に気づくかもしれないのは、ここのフォーマットからです。なぜこのようになっているのか分かりませんが、何らかの理由でo3には全く異なるフォーマットがあり、それを出力するのが好きなようです。
非常に奇妙です。この出力をコピーすると、他の全てのモデルがデフォルトでマークダウンフォーマットを好むにもかかわらず、マークダウンフォーマットを行っていません。これらの奇妙なバーを至る所に追加するのが大好きです。
言語ファイルが何なのかをほとんど表示しません。私はそれを助けるためにシステムプロンプトを追加しましたが、十分には助けになっていません。彼らがなぜこのようにしているのか、全く分かりません。
このようなフォーマットを持つモデルを見たことがありません。そして、結果は私たちが構築するのに最悪です。これがどれだけ意図的なものなのか、彼らが訓練したものの奇妙な結果なのか、それとも私たちが彼らと競争するのを防ごうとする試みなのか分かりませんが、奇妙に感じます。好きではありません。
ここのフォーマットには何か奇妙なことが起きています。私たちのUIでそれを回避するために最善を尽くしています。実際にデータを生成する方法を変更する必要があるかもしれません。これを全て処理するための奇妙なツールを与える必要があるかもしれませんが、作業中であることを知っておいてください。
特にPHP開発者の間で、Twitterでこれらの恐ろしいフォーマットを見かけています。受け入れられません。私たちが取り組んでいることを知っておいてください。ベンチマークを探そうと思っていましたが、このツイートを思い出したので、これを見せなければなりません。
OpenAIがDeepSeekのものを直接批判しています。「AIの蒸留を5歳児に説明するように」というこれは、人々が蒸留モデルにとても興奮していることを馬鹿にし、また彼らの意見では、DeepSeekが行ったモデルが蒸留モデルかもしれないことを指摘しています。
標準的なR1は蒸留モデルとは言えないと思います。通常、蒸留とは、より多くのデータを得るために別のモデルにプロンプトを与えることで、既存のモデルをより良くしようとすることを意味します。
それはDeepSeekがR1を使用して蒸留したLlamaバージョンで行ったことです。しかし、彼らのホワイトペーパーを読むと、彼らが行った価格に見合うほど良いモデルを作るために、本当に斬新なテクニックがいくつかありました。
しかし、ここで彼らが批判を投げかけているのを見るのは面白いですね。これは最近多くの面白いAIの仕事をしているMck Wrigleyからのものです。フォローしましょう。彼のデータは見ていて良かったです。
彼は現在o1を使用するアプリを構築しています。プロンプトが十分に難しいため、彼は大きな利点を見出しています。o1を使用していた彼のエージェントは現在o3-miniに移行され、全て少なくとも以前と同じように動作していますが、一部はさらに良くなっています。しかも9倍安価で、かつ大幅に高速です。
o3-miniのCode Forceスコアを見ると、低使用・低電力ソリューションの低スコアはo1と同等で、中程度の電力はo1を上回り、高電力はo1を圧倒しています。価格を比較すると、なぜこれがこんなにクレイジーなローンチなのかが分かります。
モデルの価格がこんなに早く安くなったと考えるのはクレイジーです。彼ら自身の非推論モデルの価格さえも下回っています。これが全てから得られる最も驚くべきことは、アメリカの企業による推論モデルが、DeepSeekが行っていることを非常に恐れているために、彼らの非推論モデルよりも安価になったということです。
まだほぼ正確に...実際に正確に2倍の価格です。これは面白いですね。これは選択によって行われました。o3-miniの価格を2倍以上にすれば、みんなはDeepSeekを見せ続けるだけだと気づきました。しかし、このように価格設定することで、DeepSeekを自身でホストしている人々が比較可能な価格を実現するのがはるかに難しくなります。
特に得られるパフォーマンスを考えると、なぜなら自分でR1を実行させるのは地獄のようです。Lexはこれについて良いツイートをしていました。それも含めたかったのです。
o3-miniは良いモデルですが、DeepSeek R1は同様のパフォーマンスで、まだ安価で、その推論を明らかにします。これが最大のことです。DeepSeekは推論を隠しません。APIを通じて使用している場合、セルフホスティングしている場合、または他の何かをしている場合でも、常にそのデータを直接出力します。
OpenAI は、「OpenAI」という名前にもかかわらず、これらのものを隠すのが大好きです。Lexがここで言うように、より良いモデルが登場するでしょう。彼はまだo3 proを待ち望んでいますが、DeepSeekの瞬間は本物です。
5年後も、地政学的な意味を持つ重要な出来事として、そして他の多くの理由で、記憶に残るだろうと思います。明らかにこれについてのポッドキャストが出る予定で、とても楽しみです。
しかし、核心を言えば、o3は素晴らしく、OpenAIが大きく遅れをとるのを防ぎますが、DeepSeekで私たちがとても興奮していた多くのものをもたらしてはくれません。
それは本当に、ここで起きたことに追いつこうとする試みのように感じます。モデルがこれよりも悪いという意味ではありません。実際、o3はR1よりもかなり優れていると言えます。特に速度を考慮した場合の生のパフォーマンスの点で。
しかし、R1は考えていることを見せてくれます。R1はどこでもホストできるオープンソースモデルです。R1ははるかに安価です。o3-miniは、DeepSeekが市場に置いた場所に追いつこうとする試みです。そしてそれは非常に興奮させるものです。
私たちがしばらくの間無料で提供するほど興奮させるものです。そして、私には試してみたい面白いことがたくさんあります。個人的なプロジェクトで。それは革命でしょうか?いいえ。しかし、私が革命だと主張するものの結果です。それはDeepSeekが取り組んでいるクレイジーなものです。
しかし、彼らのUIがこんなにひどいことには、まだ納得がいきません。一日中それと戦っていました。o1 Proのプロンプトを試そうとしていたからです。下までスクロールすると、他のタブが表示されるまでに最大10秒かかります。
なぜこのようなのでしょう?ページネーションがこんなにひどいのはなぜでしょう?スクロールコンテナがこんなに壊れているのはなぜでしょう?皆さん、皆さん、私たちはトレンチコートを着た2人の開発者にすぎません。私たちにはこのような問題は全くありません。
クリックすれば全てが動作します。そんなに難しくありません。真面目な話、助けが必要なら私の電話番号はbookfaceにあります。
これは革命的ではないとしても、とても興奮させるリリースです。革命が起きたことを示しています。皆さんはどう思いますか?o3-miniは皆さんにとって興奮するものですか?それとも次まで見送るリリースですか?
また会いましょう、ナードたち。

いいなと思ったら応援しよう!