強化学習が復活！💥 Deepseek R1の自己内省的な性質の再現💥

2025年1月26日 05:07

3,132 文字

強化学習は、Deepseekモデルのおかげで大きな復活を遂げています。研究者たちはDeepseekの成功を再現しようと試みましたが、かなり小規模なスケールで、それがDeepseek R1の働きでした。多くの人々が、より優れたモデルを生み出しているのはデータのスケールによるものだと考えているかもしれませんが、研究者たちが発見したのは、同じ強化学習のレシピを小規模なモデルに適用できるかということでした。
そして、これが今回のビデオで見ていく内容です。70億のパラメータを持つモデルを、わずか8,000の例で使用します。モデルパラメータの規模も、使用するデータの規模も大きくありません。教師付き微調整も報酬モデルもなく、純粋でシンプルな強化学習のレシピだけです。
そして彼らは、魔法のように2つのことが起こっていることを発見しました。1つは、モデルが長い思考の連鎖を生成し始めたこと。2つ目は、自己内省の出現です。モデル自身が内部対話を持ち始め、「これは矛盾していますね。間違いを犯したに違いありません。もう一度試してみましょう」というような会話を始めました。
論文はまだ公開されていませんが、これらの研究者たちはTwitterのスレッドで発見を公開し、GitHubリポジトリでも公開しているので、再現したい人は可能です。
この研究は何に関するものなのでしょうか。彼らは70億パラメータのモデルを用意しました。これはQwen 2.5 math 70億パラメータモデルで、教師付き微調整されていない純粋なベースモデルです。アライメントや教師付き微調整は一切行われていません。
彼らがやりたかったのは、Deepseekモデルが行ったことを再現することでした。教師付き微調整や報酬モデルなしで、わずか8,000の数学の例題だけを使って強化学習を使用できるかを確認したかったのです。これらの例題は数学データセットから選ばれました。
そして8,000の例題で、彼らのモデルはAIMIM数学データセットのベンチマークで33.3%、AMCで62.5%、数学で77%のスコアを達成しました。これは教師付き微調整モデルを上回る性能です。これはベースモデルであり、教師付き微調整モデルですが、強化学習で訓練したモデルは、より多くのデータセットで訓練されたこのモデルを上回りました。
さらに、Prime やR* mathが50倍以上のデータを使用していることと比較しても、遜色ない結果を出しています。より少ないデータ量で、モデルは思考の連鎖の長さを増加させ、自己内省の能力も獲得したことが分かりました。
これはブログ投稿で詳しく説明されていますが、私が直接説明したい部分は、この強化学習のレシピがどのように機能したかということです。これは非常にシンプルな強化学習のレシピで、Deepseek R1の論文から直接採用されています。
彼らのレシピはPPOアルゴリズムを使用することです。これは強化学習アルゴリズムの一つです。彼らはシンプルなルールベースの報酬関数を採用しました。強化学習には何らかの報酬関数が必要です。
生成された応答のフォーマットと正確さに基づいて報酬を与えます。指定されたフォーマットで最終的な回答が提供され、それが正しい場合は+1の報酬を受け取ります。数学の問題を想像してください。回答には2つの部分があります。1つは正しいフォーマット、2つ目は回答が正しいことです。
回答が最終的な答えを提供したが不正解の場合、報酬は-5に設定されます。正しい回答を提供できなかった場合、報酬は-1に設定されます。この場合の強化学習の実装はOpenRLHFに基づいています。
彼らには他の複数の実験もあります。私が説明しているのはパート1で、イミテーションウォームアップと呼ばれるパート2もありますが、今回は説明しません。現時点で見えることは、このシンプルな方法だけで非常に良いスコアを達成し、Deepseekの論文で「アハモーメント」と呼ばれた現象が、ここでも40ステップ目で同様に発生しているということです。
0、20、40、60のステップがありますが、40ステップ目でモデルが自己内省的な議論を始めていることが分かりました。40ステップ目でモデルは「セットアップを再確認しましょう」と言い始め、明示的な自己内省トレーニングや教師付き自己内省微調整を行うことなく、自己内省を始めました。
ベンチマークを純粋に見ると、彼らはDeepseekのアプローチを使用し、このモデルをSimple RL-Zと呼んでいます。ベースモデルはQwen 2.5 math 70億パラメータモデルです。これらのモデル全てに対して、同じベースモデルが使用され、教師付き微調整データはありません。
一方、Math 7B Instructモデルには250万の教師データセットが使用され、NumaMathやその他のデータセット（236,000、3,000）があり、報酬モデルも使用されています。しかし、この場合は強化学習のみが使用され、わずか8,000のクエリと例で、このモデルははるかに優れた性能を示しました。
シンプルな強化学習アプローチ（バージョン0.1ではない）は平均50.9のスコアを達成し、同じサイズの他のモデルを上回っています。これはベースモデルから派生したものです。
最後に、ここで何が起こっているかを示す特に興味深いチャートがあります。推論パターンの出現を示しています。ある時点で、最初はコードを生成して推論していたモデルが、詳細な応答を生成し始めました。そして約40ステップ目で、モデルは自己内省を始めました。
モデルは「これは矛盾しています。間違いを犯したに違いありません。もう一度試してみましょう。左辺の分子は...」というように話し始めました。コードから、より長い思考の連鎖へ、そして自己内省の出現へと進化したのです。これは既存の数学データセット（MMath）からのみ生じました。
イミテーションウォームアップと呼ばれる異なる強化学習でどのように改善されたか、ベンチマークでモデルが他にどのような成果を上げたかなどの詳細も確認できます。
私たちにとって主要な学びは、強化学習が復活しているということです。OpenAIが始まった頃、OpenAI Gymと呼ばれるものを実験していた人がどれくらいいるか分かりませんが、それは主に強化学習アルゴリズムに関するものでした。Deep Q-learningなどがあったと思います（正確に覚えているかどうかは分かりません）。
当時は強化学習アルゴリズムに多くの関心が寄せられていました。棒が歩いて倒れて起き上がって戻るといった具合です。多くの関心がありましたが、トランスフォーマーベースの大規模言語モデルが登場すると、人々はそれをどう扱うべきか分からなくなり、教師付き微調整の方向に移行し始めました。
しかし、まず第一に、その規模でDeepseek R1が非常に優れた性能を示していることを見られて嬉しく思います。さらに、小規模なレベルでも、彼らが採用したアプローチは小規模なモデルに本当に良い効果をもたらす可能性があります。つまり、自分のコンピュータで実行できるものでも、このようなアプローチで本当に効果的なモデルを持つことができるかもしれません。
これについては、さらに多くの独立した研究を見る必要がありますが、今のところは、この論文とその詳細を楽しんでください。また、異なるデータセットで訓練したい場合のコードも共有されています。また別の動画でお会いしましょう。ハッピープロンプティング！

強化学習が復活！💥 Deepseek R1の自己内省的な性質の再現💥

いいなと思ったら応援しよう！