
このAIは独学で世界のプログラマーの99.8%を打ち負かす!
8,890 文字
世界最大のAI企業であるOpenAIが、AIが世界最高のデベロッパーになるために必要なことを明らかにする論文を発表したばかりです。しかし重要なのは、OpenAIがこの科学論文で明らかにした戦略がプログラミングだけに限定されていないということです。彼らは大規模な強化学習が汎用人工知能(AGI)、そしてその先への明確な道筋であることをA+Bで証明しようとしています。
この新しい研究論文を詳しく解説し、強化学習とテストフェーズにおける計算能力を組み合わせることで、可能性が無限に広がることをお見せしたいと思います。
本題に入る前に、数週間前にOpenAIのCEOであるサム・アルトマン自身が日本でインタビューを受けた短い動画をお見せしたいと思います。彼の言葉を聞いてください。
「12月に公開した私たちの3番目のモデルは、世界で175番目に優秀な競技プログラマーでした。現在の基準は50位前後で、年末までには1位に到達するかもしれません。」
OpenAIが年末までにどこまで到達できると自信を持っているのか、その理由がすぐにおわかりいただけると思います。
論文のタイトルは「大規模推論モデルによる競技プログラミング」で、OpenAI自身が発表したものです。DeepSeekの登場以来、そしてDeepSeekに関する科学論文の発表以来この分野をフォローしている方なら、私が以前の動画で取り上げたように、私たちがどこに向かっているのかはすでにご存知でしょう。
検証可能な報酬による強化学習に、さらに計算能力を加えると、これらのモデルで指数関数的な知能を達成するために必要な2つのレバーとなることがわかります。簡単な言葉で説明すると、DeepSeek以来彼らが発見したのは、人工知能の方程式から人間を取り除くことが、知能の指数関数的な進歩、あるいは「知能の爆発」を引き起こす鍵になるということです。これはAIの共同創設者の一人が、AIの分野で非常に有名な論文である「状況認識」で説明したものです。この分野に詳しい方なら、AGIに至るまでの知能の段階について記述したこの論文をご存知でしょう。
本題に入る前に、DeepSeekについて簡単におさらいしましょう。このDeepSeekというモデルは、数週間前に大きな話題を呼びました。多くの人がそのコストと効率性に注目しましたが、訓練費用がわずか500万ドルだったことは、あまり公平な比較とは言えないかもしれません。
彼らが行ったことは驚くべきものでした。DeepSeekの論文の本質的なポイントは、強化学習がモデルのパフォーマンスにおける重要な鍵であり、この方法を使用することでコストを大幅に削減できることを世界に示したことです。
それ以来、私たちは非常に小さなモデルでさえも内省的な振る舞いを引き起こすことができる、検証可能な報酬を伴う強化学習の例を多く目にしてきました。これは今まで成功したことのなかったものです。1週間前には、バークレーの博士課程の学生チームが30ドルだけで同様のモデルを再現することに成功したという動画も投稿しました。彼らは15億のパラメータしかないモデルで、AIの内省的な振る舞い、反省的な振る舞いを実現することができました。そのコストは、ご想像の通りたった30ドルでした。
私の意見では、これは明らかに人工知能の次のレベルへと導く戦略であり、OpenAIもそう考えています。ここが重要なポイントなのです。
では、検証可能な報酬による強化学習について詳しく説明させていただきましょう。これはAlphaGoが世界最高の囲碁プレイヤーになり、人間が想像もしなかった、あるいは不可能だと思っていた戦略を発見することを可能にした同じ方法です。例えば、数年前に世界を驚かせた有名な第37手などがそうです。AlphaGoの時代でしたが、このイベントが引き起こした反響は途方もなく大きく、それは当然のことでした。
簡単に言えば、これはAIが自分自身でトレーニングする方法と見ることができます。AIはさまざまなことを試み、最も驚くべきことは、これを望むだけ増やすことができるということです。正解を見つけると報酬を得、間違えると何も得られません。もちろん、これは実際のプロセスを大幅に単純化したものですが、理解を深めるために囲碁の例に戻ってみましょう。
2つのAIが互いに囲碁や、例えばチェスで対戦することを想像してください。囲碁とチェスは同じではありませんが、この例では同じように考えることができます。いずれにせよ、2つの人工知能が囲碁の対局を行うとき、勝利するのはより良い戦略を持つ方です。そこで勝利に対して報酬を与えることができます。
これを何十回、何百回、何千回、さらには何百万回と繰り返すことを想像してください。つまり何百万回も連続して対局を行い、そのたびに最も賢かったAIを選び、最適な戦略を反復的に学習していくのです。最終的に、このAIはあらゆる状況での最適な囲碁の戦略を学習することになります。
この方法には複数の特別な理由があります。第一に、理論的には無限に発展させることができます。これらのAIシステムを無限に対戦させ続けることができ、進歩の速度は理論的に無限です。もちろんこれが可能なのは、人間がループ内にいないからです。人間の介入がないのです。
AlphaGoは既存の対局データで学習したわけではありません。単にルールを与え、勝てば報酬を得られ、それが自分の利益になるということ、負ければ単に負けて何も得られないということを説明しただけです。しかし、その背後には性能を評価する人間は一切いません。人間の監視なしで動作させることができるのです。
実は、当時からこのような方法を使っていました。その後ChatGPTが登場し、人間の監督下での強化学習、つまりChatGPTの回答を人間が評価する方法が採用されました。そしてChatGPTはこの方法でどんどん賢くなっていきましたが、ある限界があることがわかりました。
そして今、DeepSeekの登場以来、人間の監督は実はそれほど良くないのかもしれないということが再発見されました。DeepSeekは人間の監督なしで、自分自身によって訓練されました。私が先ほど説明したような方法で訓練されたのです。o3でも同様のことを行い、結果として古い方法に戻ることになりました。ただし、現在ではその方法をはるかに上手く実行できるようになっています。
AlphaGoの例に戻ると、AlphaGoは人間なしで世界最高の囲碁プレイヤーを打ち負かすことができたのです。ここでは検証可能な報酬について話しています。「検証可能な報酬による強化学習」という言葉において、「検証可能な報酬」という用語が重要です。なぜなら、例えば囲碁には定義された唯一の解があり、いつ勝ち、いつ負けるかがわかります。これが「検証可能」という側面です。
しかし、これは他の分野、特にSTEM(科学、技術、工学、数学の頭文字)にも適用できます。これらの分野に関連するすべての問題には検証可能な報酬があります。1+1は常に2です。したがって、モデルが1+1=3と言えば、それが間違いであることがわかります。
プログラミングも同様です。検証可能な報酬を持つことができます。プログラミングの問題があるとき、コードは様々な形で書くことができますが、最終的な結果は機能しなければなりません。コードの書き方に関係なく、期待される結果が得られる必要があります。
例えば、1から10までの数字の配列を作成する問題があった場合、期待される結果はわかっていますが、その配列の生成方法は様々です。または、コードを実行してエラーが発生した場合、プログラムを実行してエラーが出た時のように、それが明らかに間違った回答であり、その場合AIは「罰を受ける」ことになります。
この論文を見ていく間、これらのことを念頭に置いておいてください。なぜなら、これこそがまさに検証可能な報酬による強化学習だからです。この訓練方法によってAIがSTEM分野でこれほど優秀になった理由がおわかりいただけたと思います。
現時点では、明確な解決策のない、より創造的な分野に対してこの方法を再現するのは少し難しいでしょう。これについては動画の最後に触れたいと思います。
基本的に、この論文では複数のアプローチを比較していますが、主に2つあります。まず、ベースラインとして、プログラミングコンテストでChatGPT-4を使用しており、かなり良い成績を収めています。次に、o1とo3などの推論モデルに移り、テストフェーズでの計算能力、つまり推論中にモデルが考える能力を使用します。これによってコードの品質が大幅に向上し、それがこの論文の目的です。
手動で書かれた推論戦略の使用、つまりモデルのより一般化されたスケーリングとともに、ここでは2つのアプローチが比較されています。最初のアプローチでは、人間がAIの推論を導くための詳細な指示やレシピを書きます。これはAIに問題解決のための詳細な手順書を与えるようなものです。
2番目のアプローチは、単純により大きく、より強力なAIを使用し、そのような特定の指示なしで実行するというものです。主なアイデアは、人間が書いた指示によって導かれるAIと、AlphaGoが独力で囲碁を学習したように、より高性能なAIのどちらが効果的かを見ることです。
これは誰かに料理を教える2つの方法を比較するようなものです。非常に詳細なレシピを与える(人間の介入を伴うアプローチ)か、より多くの経験と一般的な知識へのアクセスを与える(AIの自己学習アプローチ)かのどちらかです。
この論文から一部を引用させていただきます:「複雑なアルゴリズムの問題解決には、計算的思考と問題解決能力が必要です。これらの問題は客観的に評価可能です」。これが先ほど説明した検証可能な報酬の鍵となります。「客観的に評価可能」であり、「これによってAIモデルの推論能力を評価するための理想的なテストの場となっています」。
その後、彼らは最初に標準的なモデル、つまり「思考しない」モデル(ChatGPT-3、ChatGPT-4o、2億4400万から1370億のパラメータを持つモデル)を持っていたと説明しています。これらはかなり良いコードを生成できましたが、「モデルサイズに応じて性能が対数線形的に向上し、ファインチューニングが精度を大幅に改善する」ことがわかりました。
「alpha」という用語を聞いたら、強化学習を思い出してください。これが彼らがここで使用している技術です。AlphaCodeでは、ここが重要なポイントです。
ここで20秒ほど時間を取って、私が作成したVision AIという研修について簡単にお話ししたいと思います。AIの理解をさらに深め、特に日常生活にAIを統合する方法を学びたい方のために、完全な初心者からすでにChatGPTを使用している方まで、すべてのレベルに対応するよう明確で的確な研修を設計しました。
温かい歓迎をいただき、ありがとうございます。すでに600人以上の参加があり、フィードバックは本当に素晴らしいものです。人工知能は減速しないことを覚えておいてください。6ヶ月後には、今日アドバンテージを取った人々に追いつくには遅すぎるかもしれません。ご興味のある方は、動画の下のコメント欄にリンクがありますので、ぜひチェックしてみてください。
では、動画を続けましょう。彼らは「大規模なコード生成とRLの違いを使用して競技プログラミングの課題に取り組んだAlphaCode 2は、AlphaCodeが解決した問題数をほぼ2倍に増やし、Codeforceのベンチマークで85パーセンタイルにランクインしました」と述べています。
このベンチマーク、この試験、これらの証明は、AIがコーディングできるかどうかを確認するために行われています。両方のAlphaCodeシステムは、問題ごとに最大100万の候補解をサンプリングし、人間がループに入った手動で設計された推論戦略を使用して、上位10個の提出を選択します。つまり、これらはまだ人間の介入を伴うものでした。
次に、大規模推論モデルのo1とo3があります。以下のように続きます:「これらのモデルは、数学やプログラミングなどの複東な問題に取り組むために思考連鎖推論を使用します。DeepSeek R1とKimi 1.5の研究(ちなみにKimi 1.5はあまり注目されませんでしたが、DeepSeekが達成したことの多くを成し遂げました。確かに私はこのモデルについて動画を作っていませんでしたが、機会があれば作るかもしれません)、そしてo3も独自に達成し、思考連鎖学習が数学とプログラミングの課題におけるパフォーマンスをどのように向上させるかを示しました」。
この思考連鎖は本当に強力ですが、手動で設計された推論戦略が最良のアプローチなのか、プログラミングにおけるAIの1位を達成するために本当に必要なのかという疑問が現在も残っています。
ここで彼らは、この問題を解明するために3つのシステムがあると述べています。単なる推論モデルであるo1、より洗練された推論と選択基準を持つ推論モデルであるo1 IOI(後で詳しく説明します)、そしてo3の初期バージョンです。
おそらくすでに私が何を言いたいのかお分かりでしょうが、別の例を挙げさせてください。数年前のテスラの自動運転を考えてみましょう。テスラの自動運転は、ニューラルネットワーク(AI)と人間が手動で書いたルール(従来型のアルゴリズム)のハイブリッドアプローチでした。
つまり、例えばカメラが赤信号を検知したら車を停止させるという、AIを使用しない明確なルールです。テスラはこれら2つのアプローチを組み合わせ、少しのAIと少しの人間が書いたルールを使用していました。しかし、彼らはパフォーマンスの上限に達し、数年前には進歩が止まってしまいました。
そこで彼らは基本的にこのシステムを解体し、先ほど説明した強化学習を使用した完全なエンド・ツー・エンドのニューラルネットワーク、純粋なAIに移行することを決定しました。これは、テスラ車の学習ループから人間を完全に排除したことを意味します。それ以来、彼らはその上限を打ち破り、現在のパフォーマンスは本当に信じられないほどです。
ここでの重要なポイントは、人間が必ずしも必要ではなかっただけでなく、実際にはパフォーマンスを制限する要因だったということです。そして驚くべきことに、これはOpenAIがプログラミングAIでも同じように発見したことであり、この論文で説明されています。
まずOpenAI o1から始めましょう。これは推論モデルですが、o3が行うような洗練されたプロンプト戦略や推論時間は使用していません(後で説明します)。次のように書かれています:「複雑な問題に対する回答を出す前に、広範な内部思考連鎖を生成することで、o1は複雑な問題を段階的に methodically に解決する人間に似ています。強化学習はこの思考連鎖プロセスを洗練し、モデルがエラーを特定して修正し、複雑なタスクを管理可能な部分に分解し、回答やアプローチが失敗した時に代替の道筋を探索することを可能にしました」。
私たちは皆、思考連鎖がいかに効果的であるかを見てきました。これが基本的な仕組みです。それだけでなく、o1は安全な環境でのコードの作成と実行など、外部ツールの使用にも訓練されています。これにより、生成したコードが正しいかどうかをリアルタイムでテストできると思われます。
では、Codeforceのベンチマークを見てみましょう。「Codeforceは、世界最高の競技プログラマーたちが参加する国際競技をホストするプログラミングコンペティションサイトです」と書かれています。
このグラフを見ると、Y軸にはこのベンチマークでのランキング、X軸には異なるモデルが示されています。ChatGPT-4は808、o1 previewは1258、o1は1673となっています。モデルのアップグレードごとに劇的な改善が見られ、複雑な推論における強化学習(RL)の効果を本当に示しています。
そして、ここで本当に重要なことがあります。o1 IOIモデルについてです。IOIがどのように機能するか後で詳しく説明しますが、基本的にo1の開発中に、強化学習のための計算能力と推論時間の両方を増やすことで、モデルのパフォーマンスが継続的に向上することを発見しました。
つまり、強化学習でソロプレイをさせるだけでなく、推論時時、つまり回答する際により長く考えさせ、より多くのトークンを使用させ、先ほど説明した思考連鎖を実行させる方が良いということを発見したのです。
私の前回の科学論文分析動画でも、まさにこのことについて話しました。モデルにより多くのトークンを生成させ、回答する前に自分自身で考え、考え、考え、自分自身と対話して、最終的な回答が正しいかどうかを確認する能力を与えているのです。
ここで見られるように、訓練の計算時間を増やすにつれて、パフォーマンスは向上しています。左側は強化学習、右側は訓練後のテスト時の計算時間です。
では、IOIについて簡単に説明させていただきます。これは競技プログラミング専用に設計された特殊な推論戦略を組み込んでいますが、繰り返しになりますが、これは人間によって手動で書かれています。
その仕組みは次の通りです。各問題をサブタスクに分割し、各サブタスクに対してo1から10,000の解をサンプリングし、クラスタリングとリランキングに基づくアプローチを使用して、どの解を提出するかを決定します。
もし「わー、これは本当に複雑そうだ」と思われたなら、その通りです。これ以上の説明は避けますが、基本的にo1とo3の間にこのようなモデルがあり、後で再利用される可能性のある方法かもしれないということを知っておいてください。
次に、手動で書かれた戦略を一切使用しないo3モデルに移ります。これがo1とo3の大きな違いです。これこそがDeepSeekを可能にしたもの、つまり人間の学習から脱却することです。もはや人間はループの中にいません。
o1 IOIは人間の強化学習とさきほど説明したものを組み合わせて良い結果を出しましたが、それでは十分ではありませんでした。o3は文字通り前の2つのモデルを爆発的に上回りました。
そしてそれを、テスラが彼らのニューラルネットワークから人間を排除し、同様に大きな改善を見たのと全く同じ方法で、AlphaGoが機能したのと同じ方法で実現しました。彼らは学習ループから人間を排除し、単純にAIに自分自身と対戦させ、自己改善させただけです。
これが今からお見せすることです。o3はCodeforceのランキングで99.8パーセンタイルに到達し、スコアは2724です。これはo1 IOIからの大きな飛躍です。98パーセンタイルから99.8パーセンタイルへの移行は大したことないと思われるかもしれませんが、とんでもありません。スコアの差を見てください。2200から2700への jump は完全に驚異的です。
o1 IOIが人間によって定義された非常に複雑なテスト戦略に依存していたのに対し、o3ははるかにシンプルなアプローチを取り、o1を大きく上回りました。特定のプロンプトや人間の介入なしに、単純に強化学習と計算時間または計算能力を増やすだけで、AIは再び進化したのです。
モデルを進化させることが、AIを世界最高のプログラマーにするために必要なことのようです。そしてそれ以上に、最高の推論者、数学者、科学者、技術者となり、そしてAGIが来て、最終的にはある日ASI(超人工知能)が出現するでしょう。これがこの論文が示していることであり、ここ数週間このチャンネルをフォローしている方なら、すでにご存知のことです。
強化学習と計算能力がAGIへの明確な道筋です。サム・アルトマンもすでにそう言っています。彼らにはそこに到達する方法が明確にわかっているが、単にそれを構築する必要があるだけだと述べています。だからこそ、5000億ドルのStargateプロジェクトなどの巨大プロジェクトを発表したのです。これらは、まさに私がこの動画で説明したことを実行するための計算センターです。彼らはアルゴリズムとアプローチを持っていますが、それを進化させる必要があるだけなのです。
この動画が気に入っていただけたなら、ぜひLikeを押し、まだの方は購読をお願いします。このチャンネルでは毎日このような最新情報を配信していますので、これらの情報を見逃さないようにぜひ購読してください。
また、動画の下のピン留めされたコメントに、私の研修へのリンクがあることをお伝えしておきます。今日は少し複雑な概念について話しましたが、研修では基礎から始めますので、AIについてあまり知識がない方でも心配ありません。このような概念に至るまで、すべてを段階的に学んでいきます。ぜひ一度チェックしてみてください。
以上です。ここまで動画をご覧いただき、ありがとうございます。また明日、次の動画でお会いしましょう。
この分析に興味を持っていただき、現在の地政学的な問題についてさらに理解を深めたい方は、私の新しいチャンネル「Vision Actu」をご覧ください。そこでは、私たちの現在と未来を形作るこのようなトピックについて、より深い分析を見つけることができます。両方のチャンネルを購読して、最新情報をお見逃しなく。また新しい分析でお会いしましょう。