見出し画像

OpenAIの新しいo3はAGIへの道を進む - Arc Prizeも解決し、さらなる進化を約束

6,295 文字

ミゲル・ニコレリス著「もう何も以前のようではない」という本のタイトルのように、私たちは今、人工知能が本当に知的になりそうな段階に到達しています。これはOpenAIの12日間の12日目の発表であり、もし他の日を見逃した方は、このプレイリストでご覧ください。今日は非常に重要な日で、詳しく見ていく必要があります。なぜなら、ここには多くの情報が含まれており、これが2025年の人工知能の方向性を決定づけるからです。
人工知能について耳にしてきたことが、これからいよいよ現実になりそうです。現在発表されているのがo3モデルです。これはまだ一般に公開されていませんが、高度な推論を行うo1モデルの進化版です。基本的に、最終的な回答を出す前により時間をかけて考え、アイデアを熟考するという推論を行います。これが回答の質に大きな違いをもたらします。
NVIDIAのCEOジェンスン・ファンは、モデルがより長く考え、回答する前に熟考する傾向になると既に予測していました。つまり、シンプルなプロンプトで即座に超天才的な回答を出すのではなく、プロンプトはシンプルでも、回答にはかなりの時間をかけて熟考するということです。
OpenAIが何を言っているのか、将来何を期待できるのか見てみましょう。まず彼らが示しているのは、現行のo1モデルとo3モデルの比較です。ソフトウェアテストでは、o3が71%の精度を達成している一方、o1は48%でした。CodeForceの競技では、o3が2,727点(ほぼ3,000点)を獲得し、o1は1,800点、o1プレビューは1,250点でした。
興味深いのは、開発者に自身のスコアを尋ねたところ、「自分の最高得点は2,500点で、それ以上は達成できなかった」と答え、o3が「OpenAIには3,000点を取った人がいないの?」と冗談めかして聞くと、「いや、3,000点を取った人がいる」と返答があったことです。つまり、2,500点を取るのは既にかなり高度で、3,000点を取る人は周囲から「あの3,000点を取った人」として知られるレベルだということです。
数学の競技でも改善が見られます。2024年のAIMEでは、現在9.7%の正解率を達成しており、これは基本的にコードを実行するたびに1問しか間違えないレベルです。これは以前のo1モデルと比べて10%以上の向上です。PhD レベルのGPQでも、o1より約10%上回っています。
彼らは「全員が100%に近づいているのがわかりますか?」と指摘し、「もはやこれらのテストを続ける時期は過ぎており、より困難なテストが必要だ」と結論付けています。そのため、テストの難易度を上げ始め、以前は最高のモデルでも2%しか正解できなかったテストに挑戦させています。o3は最大25%のスコアを達成しています。
これは2025年には、誰もが今までよりもはるかに複雑なテストを解くことになることを意味します。私の頭には既視感があります。他の全ての人工知能モデルも、人間のレベルに達した頃に、自己学習を始め、互いに学び合い、AIが互いに挑戦し合って超知能になっていきました。したがって、サム・アルトマンが2025年にAGIが可能だと言うのは、根拠のない発言ではないようです。
もう一つの発表は、Arc Prizeチームとの提携についてです。Arc Prizeとは何か、私は既にチャンネルで動画を作っていますが、彼らが提案するテストをクリアした人に最大100万ドルの賞金が与えられるものです。Arc Prizeの代表者が、o3が前例のない結果を達成し、それを見て自身の人工知能に対する考えを変えざるを得なかったと発表しに来ました。
Arc Prizeの例を理解するために、最も基本的なレベル1のテストを見てみましょう。入力と出力があり、その入力に基づいて出力を予測する必要があります。この場合の答えは単純で、より明るい四角の空白を濃い青の四角で埋めるだけです。テストで回答を書き込み、色を付けるという単純なものです。一見簡単なテストに見えますが、人工知能はこのテストを全く解けませんでした。
より正確に言えば、AIがこのテストの5%を初めて正解するまでに5年かかり、o3以前の現行モデルでも30数%程度の正解率でした。同時に、これらのテストの難易度は変化し、より高度になっていきます。プレゼンテーション中に示されたテストでは、四角の数と色に応じて、黄色い円の周りに追加される層の数が決まるというものでした。
このテストも私たちには単純に見えますが、人工知能にとっては簡単ではありませんでした。Arc Prizeの興味深い特徴は、答えを暗記して正解することができないように意図的に設計されていることです。提示される全ての問題が独自の特徴を持ち、その場で考える必要があります。一般的なルールを暗記して適用しようとしても、このテストは常に予想外の展開を見せます。
この詳細は重要です。なぜなら、彼らは人工知能に暗記させるのではなく、目の前にあるものに基づいて解決させることを望んでいたからです。大学入試を受けたことがある人なら、これがよく似ていることに気付くでしょう。多くの場合、質問は単純で簡単かもしれませんが、大学入試の考え方は、事前の知識を持っていながら、試験時にその場で提示される情報について推論する必要があるということです。家で暗記してきた答えを持ち込んでも役に立ちません。
彼らが示した結果を見てみましょう。Arc Prizeの以前のモデルは、最高のパフォーマンスでも88%、13%、25%、31%、32%といった正解率でした。これはo1の最高成績です。しかし、青で示されたo3シリーズは、低計算バージョンで75.7%のパフォーマンスを示しています。
この得点が重要なのは、低計算が試験の要件の一つだからです。50年かかって答えを出すプログラムを作ることは望まれていません。素早く答えにたどり着く必要があります。そのため、この結果は一見劣るように見えても、実際にはより優れています。素早く考えて、できるだけ早く回答を出す十分な知能があることを示しているからです。一方、計算量の制限を解除すると、87.5%の正解率を達成しました。
ここで驚くべき点は、人間がこのテストを解く場合の正解率が85-86%程度だということです。これは私が言及した既視感、Alpha Go、Alpha Star、その他多くの人工知能で見てきた現象です。人間のパフォーマンスを超え始めると、そこから驚異的な成長段階に入るのです。
Maritaca AIのスタッフとのインタビューが近々公開される予定です。おそらく明日か明後日だと思いますが、そこでご覧ください。私が話をしたHugoさんは、まさにこの点について言及しています。彼によれば、単純に言って、行き止まりはないように見えるそうです。壁は存在せず、非常に有望な道筋があり、人工知能がより知的になっていくための多くの可能性が探求できるそうです。
テストの難易度を上げ、改善していることを考えると、Arc Prizeチームは今後OpenAIと提携して、より困難なテストを作成し、協力を続けていくことになります。人工知能の発展はこの方向に向かっているようです。より困難で、より挑戦的なテスト、そして人間でさえ解決できない問題に人工知能を直面させること、それが彼らが今行っていることであり、AGIが取る方向性のようです。
これは、大量のデータを人工知能に与えるという、これまでの方法とは大きく異なります。今日のインターネットではデータ量はそれほど増加せず、大量の情報の中から良質なデータを見つけ出すのにも限界があるようです。では、限界のない方法で人工知能に挑戦させ、無限に成長させるにはどうすればよいのでしょうか。
第三に、彼らはミニバージョンのo3をテストバージョンとして紹介しています。o3を低、中、高の3つの思考時間・熟考時間バージョンで示しています。この低熟考バージョンのo3が、以前のo1バージョンとほぼ同じレベルに達し始めていることがわかります。中レベルと高レベルは既に以前のモデルを超え、o3にわずかに及ばない程度です。
このBMKは、これらの小さなモデルの計算コストがo3よりもはるかに低く、そのため多くの人々がアクセスしやすいことを示しています。注目すべきは、このo3ミニバージョンと中レベルバージョンが、これまでの最高モデルであったo1を超えているということです。
そして彼らはプログラミングチャレンジを始めます。基本的に、モデルに与えられた課題は、プロンプトから別のプログラムを生成し、そのコードを実行することです。このo3がコードを生成し、実行すると、すべてが正常に動作します。今度は何をする必要があるのか、プロンプトを渡し、このプログラムがこのコードを実行して、うまくいったかどうかを確認します。
基本的に、ここでOpenAIと乱数のプリントを行い、実行して何が起こったかを確認します。プログラムは「OpenAI 41」と正確に出力し、すべてが正常に動作しています。次に、GPQという科学テストを行うプログラムを作成します。モデルはコードを作成し、この評価を行い、人工知能が単独でこの評価を実行した結果を確認する必要があります。
単純なプロンプトから、テストを解き、すべての問題を単独で解決しているのです。プログラミングは何もしていません。ただ「このテストを解いて、何点取れるか見てください」と言っただけです。人工知能が解決している間、99%で止まっています。彼らはこのテスト全体で2、3問が本当に難しいと言及しています。このテストでは61-62%のスコアを自動的に達成しました。
これは驚くべきことです。なぜなら、もはやプログラムを作成し、評価を行い、何が起きているかを監督する人間がいないからです。単に「テストを解いて、何点取ったか教えて」と言うだけで、人工知能が単独でテストを解き、結果を出すのです。
そして彼らは、このAI数学テストの結果を、low、medium、highのミニバージョンで示しています。o3ミニのhighバージョンが既にo1よりも良い結果を出していることがわかります。これは、ミニバージョンが既に以前のモデルと競争できる優れた性能を持っていることを意味します。
これらのコードの実行時間を評価すると、モデルがはるかに高速になっていることがわかります。最も遅いのはhighバージョンだけで、他のバージョンは現行モデルよりも優れた処理と高速性を示しています。関数呼び出し、構造化出力、その他多くの機能でも、パフォーマンスは非常に高く、常に以前のo1モデルと互角に競争しています。これはPHDレベルのテストであるGPQでも同様です。
再び結果を見てみると、より知的なこれらのモデルは、o1バージョンでも既に100%に近づいています。これは2024年が一般的な最も難しいテストの上限に達する年であり、次の段階はさらに高度なものになることを意味します。
では、これからどうなるのか、彼らは何を想定しているのでしょうか。彼らは現在、モデルの新しい評価段階を開始しており、現在リリースしているモデルのセキュリティテストへの参加を求めています。参加するにはフォームに記入し、このプログラムに登録する必要があります。そうすることで、これらのモデルをテストし、セキュリティテストを行うことができます。
システムの欠陥を見つけようとすることは、多くの人が無償の仕事だと考えていますが、もし優れたテスターであれば、あなたのテストは間違いなくOpenAIのスタッフの注目を集め、これらの重要な企業に認知されるための戦略となる可能性があります。
彼らが言及しているもう一つの点は、以前の評価では、ユーザーに問題を警告して確認してもらうための単なる警告なのか、それともOpenAIに確認を送って何らかのセキュリティ対策を取る必要があるのか、判断が難しかったということです。緑で示されているo1バージョンのモデルは、保護を破ろうとする試みの検出が非常に優れています。
これは、モデルが人々が異なる言葉で本当の意図を隠そうとしたり、モデルに問題がないと信じ込ませようとしてストーリーを語ったり、脆弱性を見つけようとする際に、より賢くなっているからです。モデルはこれらの試みを検出することがますます巧みになっています。
これが重要な理由を理解するために、以下のことを考えてください。モデルはより知的になっており、これはより正確にタスクを実行できることを意味します。これは自動的に大きなセキュリティの問題をもたらします。なぜなら、非常に間違った、違法なタスクを要求する可能性があるからです。
したがって、これらのアラインメントの問題は、適切なタイミングで進展しているように見えます。知能がますます高度になるにつれて、セキュリティもますます向上しており、物事はこのように進んでいくようです。
これらのモデルはいつ私たちが利用できるようになるのでしょうか。サム・アルトマンによると、o3ミニバージョンは1月末に全ての人が利用できるようになりますが、通常のo3にはまだ明確な日付がなく、おそらく2月頃になるでしょう。
このニュースに興奮しましたか?あなたはどう考えていますか?私は、私たちは本当に認知革命を経験していると信じています。2025年末には、間違いなくAGIに非常に近いものを手に入れることになるでしょう。これは徐々に進化しており、進歩は目に見えています。遠い境界線に行き詰まっているような進歩ではなく、むしろ可能性の青い海が見えており、事態は改善し続けています。
うまくいけば、私たちは大きなプロジェクトを始め、このチャンネルで科学を、歴史を作ることができるでしょう。私はブラジルの人工知能開発の動きの遅さにとても失望しており、この研究と開発の加速に貢献したいと考えています。
これはもはや単なる人工知能の開発の問題ではなく、戦略的な問題となっています。OpenAIの発表を待つだけというのは、主権の観点から、そして他の多くの観点から見ても、非常に複雑なシナリオです。世界をリードする1つの企業があり、私たちはただ傍観して、APIを購入し、彼らに仕事をしてもらうために支払いをしているだけです。
彼らは基本的に、私たちが何をしているのか、何を研究しているのか、どんな質問をしているのかを全て知ることになります。これは非常に懸念すべきことです。そのため、私たちは多くの研究を行い、他者の手に委ねられないよう、これを本当の意味で民主化する必要があります。
私は皆さんの協力を大いに期待しています。具体的にどうするかはまだわかりませんが、道は開け始め、私たちは適切な人々と出会い、このプランを実行するための正しい道を見つけることができると確信しています。
これら全てについてあなたはどう考えているのか、o3のアイデアに興奮したのか、既に何か活用方法が見えているのか、コメント欄に残してください。このようなビデオを継続して見たい方は、メンバーになってください。メンバーはWhatsAppグループへのアクセス、事前公開動画などの特典があります。それではいいねをお願いします。ありがとうございました!

いいなと思ったら応援しよう!