見出し画像

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

URL:
http://arxiv.org/abs/2501.12948v1
Authors:
DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang
Published:
January 22, 2025

Summary
研究目的:
この研究では、教師付きデータを使用せずに、純粋な強化学習(RL)プロセスを通じて、大規模言語モデル(LLM)の推論能力を向上させる可能性を探ることを目的としています。特に、DeepSeek-R1-ZeroとDeepSeek-R1という二つのモデルを用いて、LLMが自己進化する過程でどのように推論能力が向上するかを検証しています。
用いたデータ:
DeepSeek-R1の開発には、数千のChain-of-Thought(CoT)例を用いたコールドスタートデータが使用されました。また、DeepSeek-R1-Zeroの訓練には、教師付きデータは使用せず、純粋な強化学習のみが行われました。
手法:
本研究では、Group Relative Policy Optimization(GRPO)という強化学習アルゴリズムを採用しました。このアルゴリズムは、ポリシーモデルを最適化するためにグループスコアからベースラインを推定します。DeepSeek-R1は、初期のコールドスタートデータを用いた微調整から始め、その後、強化学習による訓練が行われました。最終的には、新たに生成された教師付きデータを用いて再度微調整が施されました。
結果:
DeepSeek-R1-Zeroは、AIME 2024でのPass@1スコアが15.6%から71.0%に向上し、多数決を用いるとさらに86.7%まで向上しました。DeepSeek-R1は、OpenAI-o1-1217と同等のパフォーマンスを達成し、特にAIME 2024でのPass@1スコアは79.8%、MATH-500では97.3%を記録しました。また、DeepSeek-R1から得られた推論パターンをより小さなモデルに蒸留することで、これら小型モデルのパフォーマンスも向上しました。
その他の成果:
DeepSeek-R1は、創造的な執筆、一般的な質問応答、編集、要約など、幅広いタスクにおいても優れた能力を示しました。AlpacaEval 2.0での長さ制御勝率は87.6%、ArenaHardでの勝率は92.3%と、試験指向でないクエリを賢く扱う強力な能力を示しています。

研究目的
研究目的の詳細:
この研究の主な目的は、教師付き学習を使用せずに、純粋な強化学習(RL)を通じて、大規模言語モデル(LLM)の推論能力を向上させることです。これにより、モデルが自己進化する過程でどのように推論能力が向上するかを検証し、理解を深めることを目指しています。
モデルの説明:
DeepSeek-R1-Zero
DeepSeek-R1-Zeroは、教師付き微調整(SFT)を行わずに、大規模な強化学習(RL)を通じて訓練されたモデルです。このモデルは、自然に多くの強力で興味深い推論行動を示し、RLのプロセスを通じて推論能力が向上することが確認されています。
DeepSeek-R1
DeepSeek-R1は、DeepSeek-R1-Zeroの課題を解決し、さらに推論性能を向上させるために開発されました。このモデルは、RL前にマルチステージの訓練とコールドスタートデータを組み込んでおり、推論タスクにおいてOpenAI-o1-1217と同等の性能を達成しています。
推論能力の向上:
DeepSeek-R1-Zeroは、特に読解性や言語混合といった問題に直面しながらも、RLを通じて自然と推論能力を発揮しています。一方、DeepSeek-R1は、これらの問題に対処しつつ、より高い推論性能を目指して設計されました。コールドスタートデータの使用や、より人間に優しい推論プロセスの構築が行われています。
研究コミュニティへの貢献:
DeepSeek-R1とDeepSeek-R1-Zeroは、研究コミュニティにオープンソースとして提供されており、これにより他の研究者がこれらのモデルを利用し、さらなる研究や改善を行うことが可能です。また、これにより、LLMの推論能力を強化学習のみで向上させることが可能であることが示され、将来の研究の方向性を示しています。

用いたデータ
コールドスタートデータの使用:
DeepSeek-R1の開発においては、コールドスタート段階で数千のChain-of-Thought(CoT)例を含むデータが使用されました。このデータは、モデルが初期の学習段階で不安定になることを防ぎ、より人間にとって読みやすい形での推論プロセスを学習する基盤を提供しました。具体的には、長いCoTを示す例を用いて、モデルに詳細な答えを生成させる訓練が行われ、これによりモデルは高品質なデータから学習を開始することができました。
教師付きデータの非使用:
DeepSeek-R1-Zeroの訓練には、教師付きデータは一切使用されませんでした。このモデルは純粋な強化学習のみを用いて訓練され、この過程で自己検証、反省、長い推論プロセスの生成などの能力を自然に発揮するようになりました。このアプローチにより、教師付き学習を介さずに、モデルが複雑な問題を解決するための推論能力を向上させることが可能となり、言語モデルの推論能力を強化学習だけで向上させる可能性を示しました。

手法
GRPOアルゴリズムについて:
Group Relative Policy Optimization(GRPO)は、批判モデルを使用せずにグループスコアからベースラインを推定することで、訓練コストを削減します。具体的には、各質問に対して、旧ポリシーモデルから複数の出力をサンプリングし、それらを用いてポリシーモデルを最適化します。このプロセスは、選択された出力が目標とするパフォーマンスを達成するように、モデルのポリシーを逐次的に調整していくことにより行われます。
コールドスタートデータの使用:
DeepSeek-R1の訓練は、コールドスタートデータを用いた初期の微調整から始まります。この段階では、数千の長い連鎖思考(Chain-of-Thought)の例を用いてモデルを微調整し、基本的な推論能力を植え付けます。これにより、モデルは複雑な推論タスクに取り組む前の準備が整い、その後の強化学習プロセスでの学習効率が向上します。
強化学習による訓練:
コールドスタートデータによる初期微調整後、DeepSeek-R1は強化学習プロセスに移行します。この段階では、モデルは自己進化を遂げることが期待され、複雑な推論タスクや未知の問題に対しても、より高度な推論能力を発揮するようになります。強化学習を通じて、モデルは実際のタスクパフォーマンスに基づいて連続的に自己最適化を行い、その推論能力を高めていきます。
再度の微調整:
強化学習による訓練の後、新たに生成された教師付きデータを用いてモデルの再微調整が行われます。このステップでは、強化学習で獲得した知識と能力をさらに精緻化し、特定のタスクやベンチマークでのパフォーマンスを最大化するための調整が施されます。これにより、DeepSeek-R1はさらに高いレベルの推論能力とタスク遂行能力を実現します。

結果
DeepSeek-R1-Zeroのパフォーマンス向上:
DeepSeek-R1-Zeroは、AIME 2024ベンチマークにおいて、初期のパフォーマンスが15.6%のPass@1スコアから、大幅に改善され71.0%に達しました。さらに、多数決を用いることでパフォーマンスが86.7%まで向上することが確認されています。この結果は、モデルが単独で学習する能力に加え、多数決を通じて誤りを補正し、より正確な推論が可能になったことを示しています。
DeepSeek-R1のパフォーマンス:
DeepSeek-R1は、DeepSeek-R1-Zeroの進化版として更に改良が加えられています。特にAIME 2024でのPass@1スコアは79.8%と非常に高く、MATH-500では97.3%という卓越したスコアを記録しました。これは、DeepSeek-R1がOpenAI-o1-1217と同等、あるいはそれ以上のパフォーマンスを達成していることを示しており、複雑な数学的問題解決能力において高い能力を持っていることを示しています。
モデルの蒸留による小型モデルのパフォーマンス向上:
DeepSeek-R1から得られた推論パターンをより小さなモデルに蒸留することで、これらの小型モデルのパフォーマンスも向上しました。このプロセスは、大規模なモデルの知識を小型モデルに効率的に伝達し、リソースが限られた環境でも高い推論能力を発揮できるようにすることを目的としています。これにより、小型モデルでも高度な問題解決が可能になり、幅広いアプリケーションでの利用が期待されます。

その他の成果
創造的な執筆:
DeepSeek-R1は、創造的な執筆においても高い能力を示しています。このモデルは、文章の生成やアイディアの創出において、ユーザーのニーズに応じた柔軟な対応が可能です。特に、長文の生成や複雑な内容の表現においても、その性能を発揮しています。
一般的な質問応答:
一般的な質問応答タスクにおいても、DeepSeek-R1は優れた結果を示しています。このモデルは、様々なトピックに対する質問に対して、正確かつ詳細な回答を提供する能力を持っています。これにより、ユーザーが求める情報を効率的に得ることができます。
編集:
編集タスクでは、DeepSeek-R1は文書の改善や修正において高い精度を持っています。誤字脱字の訂正はもちろん、より適切な表現への置き換えや、内容の論理的な整理も行うことができます。これにより、より読みやすく、質の高い文書を作成することが可能です。
要約:
DeepSeek-R1は、長文の内容を短く要約するタスクにおいても優れた能力を示しています。このモデルは、文章の主要なポイントを抽出し、簡潔にまとめることができます。これにより、時間がない場合でも、文章の要点を迅速に把握することが可能です。
AlpacaEval 2.0での長さ制御勝率:
AlpacaEval 2.0では、DeepSeek-R1は87.6%の高い勝率を記録しました。この評価は、文章の長さを制御しながらも内容の質を保つ能力を測定するもので、DeepSeek-R1はこの分野で優れた性能を持っていることが示されています。
ArenaHardでの勝率:
ArenaHardでは、DeepSeek-R1は92.3%の勝率を達成しています。この成果は、一般的な質問応答タスクにおいて、DeepSeek-R1が高い精度と効率で応答できることを示しており、非常に優れた一般化能力を持っています。

いいなと思ったら応援しよう!