見出し画像

OpenAI、o3-Miniをリリース!超高速なプログラミング性能を誇る驚異的モデル!

8,770 文字

OK、OpenAIが今ChatGPT o3-miniをリリースしました。これは明らかにAnthropicの影響を受けたものです。OpenAIはこの高度なモデルのリリース日を前倒ししたと思われますが、実はそれは悪いことではなく、私たちにとってはむしろ良いことです。私も既にChatGPTで試してみましたが、これは本当に驚くべきことです。通常、ヨーロッパではこういった機能が利用可能になるまでにかなり時間がかかるのですが、Sam Altmanは完全にパニック状態にあるようで、中国とアメリカの間で起きたことに対してOpenAIがどう対応すべきか分からなかったようです。
それでは、具体的にどういったものなのか見ていきましょう。かなり驚くべきものですよ。基本的に、今日彼らはChatGPT o3-miniを無料ユーザーを含む全ユーザーに向けてリリースしました。これには3つのバージョンがあります。low、medium、highです。これらは必要な思考と計算のレベルに応じて選択できます。つまり、タスクが難しければ難しいほど、より高度なモデルを選択する必要があるということです。
彼らによると、これは既にChatGPTとAPIの両方で利用可能で、すぐに本番環境でも使用できるとのことです。正直、OpenAIからこのような対応を見るのは全く普通ではありません。彼らは完全に慌てているのです。通常、彼らは機能を徐々にリリースするという慎重な姿勢を取っていました。だからこそ先ほどヨーロッパの話をしたのですが、私たちヨーロッパは通常ChatGPTの完全な機能を最後に受け取る地域だったのです。
しかし今回は、Anthropicに対して何かをする必要があったので、同時に特に驚くことではありません。OpenAI側はパニック状態にあり、もはや規制などを考える余裕はなく、とにかく全てのユーザーに向けてリリースしたという状況です。
実は私もChatGPT o3-miniにアクセスできましたので、すぐにテストをしてみましょう。しかしその前に、このモデルについてもう少し詳しくお話ししたいと思います。o1やAnthropic、その他のモデルは思考、つまりSTEMタスクの実行に非常に優れています。
ウェブサイトの翻訳が間違っているのが分かりますが、元のページを見るとSTEMという言葉が出てきます。これが何を意味するのか理解するのは簡単です。STEMとは4つの主要分野の略語です。science(科学)、technology(技術)、engineering(工学)- これは英語のままですが - そしてmathematics(数学)です。つまりSTEMタスクとは、これらの分野に関連するタスクのことを指します。
これらの思考・推論モデルがSTEM分野で優れているのは、強化学習のおかげです。このチャンネルでよく話題に上がりますが、これはAIにおける驚くべきブレークスルーを可能にした技術です。もし詳しく知りたい方は、説明のリンクを参照してください。
基本的に、これらのモデルに対して報酬関数をうまく定義できる場合に効果を発揮します。これはAIを訓練する方法の一つで、正しい答えを出した時には報酬を与え、間違った答えを出した時にはペナルティを与えるというものです。動物の訓練や、実は人間の訓練とも似ています。
人間の場合、ドーパミン系がこれに関係しています。つまり、私たちの行動を促す仕組みです。何かをして、それによってドーパミンが放出されると、それが私たちにとっての報酬となり、同じような行動を取るようになります。逆に、例えば熱湯に手を入れて素早く引っ込めるのは、一種の罰として機能し、同じ行動を繰り返さないように学習するわけです。
AIも同じような方法で訓練されています。この訓練方法を導入して以来、AIの性能は飛躍的に向上しました。例えば、「詩を書いて」といった開かれた質問の場合、決まった正解はありません。ここで創造性が重要になってきます。しかし「2+2は?」といった質問には、唯一の正解があります。これらの論理的な、または閉じた質問に対して、このAIは最高の性能を発揮します。
また、このモデルに3つの思考レベル(low、medium、high)が用意されているのも良いですね。これらは実際にはモデルのパワーレベルを示しています。長時間の思考を必要としない場合は、コストを節約し、効率を上げ、レイテンシーを下げることができます。これは特に、このAPIを使ってソフトウェアを開発する人々にとって重要です。通常のChatGPTユーザーの場合は、コストの違いはありませんが。
このモデルは今日からデプロイされ、先ほど述べたようにChatGPT Plus、TeamおよびProユーザーは今すぐにアクセスできます。無料プランのユーザーでもアクセス可能です。ChatGPTにアクセスして上部を見ると、ここにo3-miniがあり、o3-mini highまで利用可能です。
彼らは制限も完全に変更しています。これまでは1日50メッセージという制限がありましたが、今では1日150メッセージまで送信できます。o3-miniは検索機能も備えており、最新の答えがない場合はインターネットで検索することができます。つまり、全ての機能を一気に解放したということです。OpenAIからこのような対応を見るのは本当に珍しいのですが、今は危機的状況、緊急事態といえるでしょう。
一つ注意点として、o3-miniはまだOpenAIの最も強力な機能の一つである視覚機能を搭載していません。開発者が視覚システムを使用したい場合は、引き続きo1を使用する必要があります。しかし、これも時間の問題でしょう。
もう一つ注意すべき点があります。彼らは、o1が依然として最も大規模な推論・知識モデルであり、o3-miniは精度と速度を必要とする技術分野に特化した代替モデルを提供すると述べています。私の解釈では、これは「このモデルはまだ完成していない、Anthropicに追い込まれて仕方なくリリースした」というメッセージなのだと思います。まだ実験段階にあるということです。正直、この文章はそういう意味なのだと思います。
とはいえ、このモデルを試してみる価値は十分にあります。ベンチマークを見てみましょう。かなり興味深い結果が出ています。既に述べたように、o3はSTEM向けに最適化されているので、数学的な質問により適切に答えることができます。
このベンチマーク、MME 2024について見てみましょう。このチャンネルでよく言及しているベンチマークですが、それは現在のAIの標準的なテストとなっているからです。これは複雑な数学的質問を使ってAIをテストし、その分野での性能を評価するものです。
見ての通り、o3のlowとmediumバージョンはo1の完全版よりも低い性能を示していますが、mini highバージョンはo1を上回っています。そして覚えておいていただきたいのは、このo3-mini highは誰でもChatGPTでアクセスできるということです。
選択するモデルによって、技術的で論理的な質問に対する回答の精度が大きく影響されることが分かります。個人的に本当に素晴らしいと思うのは、モデルが質問の内容や自身の回答能力に応じて、low、medium、highモードを自動的に選択できるようになることです。質問の複雑さに基づいてプロンプトを分類する方法があるはずですが、今のところはこういう仕組みになっています。
次に、PhD(博士課程)レベルの科学的質問を見てみましょう。ご覧の通り、o3-mini highの精度(パーセンテージで表示)は非常に高く、彼らの最も強力なモデルであったo1 previewに近い性能を示しています。博士課程レベルの科学的質問に対して80%の正答率を達成しているのは印象的です。
次は「frontier math」、さらに別のテストです。これは数学における非常に複雑なテストで、現在AIを評価するために使用される最も難しいテストです。1-2年前のAIでは、当時でも難しいとされていたテストでさえ、うまく対応できませんでした。しかし、現在のAIにそれらの古いテストを受けさせると、100%以上の正答率で簡単にクリアしてしまいます。
つまり、時代とともにテストも進化しているのです。この動画を見ている今この瞬間、このテストがAIにとって最も難しいものとなっています。これは数学的質問に対するAIの精度を本当の意味で評価するためのテストです。世界最高の数学者でも、運が良ければいくつかの問題を解けることを期待するレベルの複雑な質問です。
pass 1、pass 4、pass 8は、それぞれ与えられた試行回数を示します。1回、4回、8回の計算機会が与えられています。o1が5.5%、o1 miniが5.8%、そしてo3-mini highが9.2%という結果を示しています。これはかなりの差です。8回の試行を許可した場合、20%の成功率に達します。これはかなり印象的です。
次はプログラミングのベンチマークを見てみましょう。これはAIモデルに対する情報工学の質問です。Codeforceは、チェスのように使用されるEloレーティングシステムを採用しています。個人的には、パーセンテージや精度による順位付けよりもこの方が良いと思いますが、それは別の議論になりますね。ご覧の通り、o3-miniは2132 Eloという素晴らしい成績を収めています。
もう一つのプログラミングベンチマークでも、o3-miniは50%近い成功率を達成しています。もちろん、失敗するベンチマークのモデルをリリースするはずがないことは明らかですが、それでもこれらの結果を見るのは興味深いですね。
ここで注目すべきなのは、これまでo3-miniについて話してきましたが、通常のo3については触れられていないことです。実は完全版のo3は非常に強力なはずですが、1プロンプトあたり1000ドル以上という非常に高価な価格設定だったと聞いています。これは少し行き過ぎですね。
現時点では、完全版o3が持つ高度な知能は手の届かないものとなっています。これは彼らがまだ自分たちのために取っておいているものですが、いつまでそうなのかは分かりません。様子を見ていきましょう。
このグラフは非常に興味深いです。これは人間の好みを示しています。基本的に、AIにテストを実施する際、以下のような方法を取ります。ChatGPTを使用している時に、2つの回答から良い方を選ぶように求められた経験があるかもしれません。まさにそれと同じです。
例えば、o1とo3-miniの2つのモデルで回答を生成し、人間にどちらが良いかを選んでもらいます。これはブラインドテストで、人間の好みを測定する方法です。Y軸に勝率が示されており、例えばo3-mini mediumは、比較対象のo1に対して約60%の選択率を示しています。つまり、一般的にユーザーはo1よりもこちらを好むということです。
これまで見てきたのは全て、STEM分野(科学、技術、工学、数学)のタスク、つまり多くの論理を必要とする推論タスクに関するテストでした。今後、ユーザーは非STEMのベンチマーク、例えば詩を書くなどの創造性を必要とする質問でテストを行うでしょう。これはリアルタイムで評価できます。モデルは今リリースされたばかりなので、重要な結果が出れば別の動画で紹介するかもしれません。閉じた質問とは異なり、このモデルにオープンエンドな質問をする場合は、さらなるテストが必要です。
最後にもう一つ、このモデルをテストする前に、o1とo3のレイテンシーを見てみましょう。基本的に、o3ファミリーと全てのminiモデルは速度に重点を置いています。このグラフは最初のトークン(最初の文字や回答)が到着するまでの平均時間を示しています。o3の場合は約7500ミリ秒、o1は10000ミリ秒です。一見わずかな差に見えるかもしれませんが、100万トークンの出力を考えると、その差は大きな意味を持ちます。大数の法則により、この初期条件のわずかな違いが、大規模なデータセットでは巨大な影響を及ぼすことになります。結果として、非常に高速な応答が得られます。これは後ほどテストで実際に確認できます。ChatGPTではこれまで見られなかった高速な応答が実現されています。
最後に、価格設定も非常に積極的です。これもAnthropicの影響によるものでしょう。GPT-3 miniの場合、入力トークン100万件あたり1.1ドル、キャッシュでの入力トークン100万件あたり55セント、出力トークン100万件あたり4.4ドルとなっています。
これをAnthropicと比較してみましょう。Anthropicのホストされたバージョンを使用する場合、入力トークン100万件あたり55セント、出力トークン100万件あたり2.19ドルです。基本的に、o3-miniとAnthropic Claude-1は非常に似た価格設定ですが、それでもAnthropicの方が安価なのは興味深いですね。
さて、十分に説明しましたので、楽しい部分に移りましょう。ChatGPTに直接アクセスして、o3の巨大な可能性をテストしてみます。ライブテストのような形で行いましょう。最初に試したいのは、少し面白い例でプログラミングをテストすることです。Pythonで有名なSnakeゲームを書いてみましょう。これは一種のミームとなっており、AIの「Hello World」のようなものですが、ここで見たいのは、エラーなしで実行される速度です。
出力されたコードは一切変更せず、そのまま取得して実行し、何が起こるか見てみましょう。もちろん、私はトレーニングで紹介しているように、モデルが最初から良い回答を出すように、うまく構築されたプロンプトを使用します。これにより、何度も修正を繰り返す必要がなくなります。
通常の導入を行い、詳細を提供し、出力テンプレートを与えるなど、技術的な部分には深入りしません。ここでは単にデモンストレーションを行います。ChatGPT o3-mini highに切り替えて、最も強力なモデルを直接使用しましょう。
実行ボタンを押すと、興味深いことに、推論の連鎖を見ることができます。回答を出す前に何を考えているのかが分かります。応答速度の速さにも注目してください。ChatGPTでは全くこのような速度は見られませんでした。はるかに時間がかかっていました。
完了しました。数えていませんでしたが、おそらく4-5秒程度でしょうか。これは信じられないほどです。開発者、特に初心者の場合、有名なSnakeゲームを書くのに4秒では済まないことを考えると、その速さは驚異的です。
では、すぐにテストしてみましょう。コードをコピーして、Sublime Textを開きます。ちなみに、複雑なIDEなどは使用せず、単純にSublimeにコードを貼り付け、Pythonスクリプトとして保存します。
プログラマーの方々へ一言:はい、私は少し古い学校の人間で、Sublime Textを使用していますが、これは実際に非常に強力なツールなのです。しかし、ここではプログラミングの詳細は重要ではありません。重要なのは、どのように動作するか、そして数回のクリックでSnakeゲームを作成できるということです。
コードがPythonファイル、基本的にはテキストファイルにコピーされました。ChatGPTの出力をテキストファイルに貼り付けただけで、ゲームの準備は完了です。実行してみましょう。
全ての準備が整いました。Enterキーを押すだけでモデルが起動します。他のモデルでも動作していますし、o3はさらに優れているはずなので、うまく動作するはずですが、指を交差させて祈りましょう。では、Enterキーを押して実行してみます。
はい、Snakeゲームが起動しました。ご覧の通り、完璧に動作しています。わずか4秒でSnakeゲームを作成しました!見ての通り、AIが自動的にプレイして負けてしまいました。プロンプトで自動プレイAIを要求したからです。
もう一度実行してみましょう。ご覧ください。蛇は緑色で表示され、集める必要のある餌があり、壁にぶつかることもありません。非常に印象的です。4秒で実現できたことを考えると、実際にはどんなプロジェクトでも可能だということが分かります。
プログラミングをあまり知らなくても、明日何か思いついたら - 例えば、ある事柄の成功確率を計算するソフトウェアを作りたいと思ったら(適当な例ですが)- OpenAIを使えば非常に簡単に実現できます。ご覧の通り、o3はプログラミングに特に優れており、プログラミングがさらに容易で生産的になっています。
これはNo Codeへの大きな一歩です。Mark Zuckerbergが中級レベルのエンジニアを大量に解雇すると発表したMetaに関する私のNo Codeの動画をご覧になった方もいるでしょう。なぜなら、AIが彼らの仕事を代行できるようになったからです。このようなAIによる自動プログラミングの方向に、ますます進んでいます。
開発者の方々、あまり心配する必要はありません。将来の職業に関する動画も作りましたが、これを代替として見るのではなく、需要を大幅に増加させるものとして見るべきです。特に、知識のある開発者への需要は非常に高まるでしょう。時間が経つにつれて、この分野を理解している人は少なくなり、少しでも理解している人々への需要は非常に高まるでしょう。
忘れないでください。時代が進むにつれて、社会はますますデジタル化されています。ロボットが登場し、自動運転車が登場し、他にも多くのものが登場しますが、これらは全てデジタル、つまりコンピュータープログラミングに関連しています。したがって、この分野を理解している人々への需要は増加します。
これを開発者の終わりと見るべきではありません。バックグラウンドで開発者は常に必要とされます。ただし、開発の方法が変わるのです。コードを書くことよりも、推論を書くことに重点が置かれるようになります。これは別の次元の話です。プログラミングを学び始める時に最初に教えられることは、関数の書き方を学ぶ前に、まずアルゴリズム的な思考を身につけることです。
話が少しそれてしまいましたが、この点を強調したかったのです。多くの人々が私のところに来て、プログラミングやその他の分野で将来への不安を抱えているからです。しかし、私が見る限り、これは単なる職業の進化です。開発者のような職業は消えません。別のものへと進化するのです。
開発者が必要とされなくなるとは考えにくいです。その需要は非常に大きいのですから。まあ、私は少し長く話しすぎてしまい、動画も少し長くなってきました。
最後に、OpenAIのこの素晴らしいリリースを祝福したいと思います。明らかにAnthropicと中国によるパニックと焦りの結果ですが、非常に興味深いものです。私はこれを徹底的にテストし、生徒の皆さんのために特別な動画を作ろうと思います。
トレーニングを受講している方々が本当に多くなってきました。この動画をご覧になっている方、ありがとうございます。o3に関する新しいコースがまもなく登場します。最近、AIに関して本当に多くの素晴らしいことが起こっています。現在は非常にエキサイティングな時期を過ごしています。
正直なところ、いつ全てが落ち着くのか、それとも更に加速するのか、分かりません。いずれにせよ、いつも通り、この動画が気に入っていただけ、まだ登録されていない方は、チャンネルの成長をサポートするためにご登録いただけると幸いです。
科学技術やAIに関するこのような最新情報を見逃さないようにしましょう。現在、新しい展開が絶え間なく続いています。トレーニングに関する全てのリンクは、動画の説明欄にあります。
このトレーニングについて一言注意点を。プログラミングの知識は全く必要ありません。これはNo Codeトレーニングです。この技術をできるだけ多くの人々に紹介したいと考えているからです。
このトレーニングの目的は、関連する全てのAIツールを学び、技術の進化に遅れを取らないようにすること、何が行われているのか、どのように機能するのか、自分の分野の最新情報を把握し、特に日常生活で簡単にツールを使用する方法を学ぶことです。
今回は少しプログラミングを行いましたが、実際には何もプログラミングをしていません。ご心配なく、トレーニングは全くこのようなものではありません。本当にNo Codeです。もちろん、もっと深く学びたい方のために、何か興味深いものを準備中です。
いずれにせよ、ありがとうございました。また近いうちにお会いしましょう。この分析に興味を持っていただき、現在の地政学的課題についてさらに理解を深めたい方は、私の新しいチャンネル「Vision Actu」をご覧ください。そこでは、現在と未来を形作るこのようなトピックについて、より深い分析を見つけることができます。両方のチャンネルを登録して、何も見逃さないようにしましょう。新しい分析でまたお会いしましょう。

いいなと思ったら応援しよう!