DeepSeek-R1とは?~推論特化のLLM
技術革新により進化し続けるAIの世界で、OpenAI-o1の登場により「推論能力に特化した大規模言語モデル」が注目されている。その一つが、前モデルであるDeepSeek-V3をベースに、大規模強化学習を取り入れて推論性能を飛躍的に向上させた「DeepSeek-R1」だ。推論能力を必要とする多種多様な課題に挑む人にとって、DeepSeek-R1は新たな可能性を拓く道具となるかもしれない。
DeepSeek-R1は、DeepSeekシリーズの最新モデルであり、推論能力に特化した大規模言語モデル(LLM)。前モデルであるDeepSeek-V3をベースとし、強化学習(RL) を適用することで、推論性能を大幅に向上させている。また、DeepSeek-R1オープンソース・低価格でありながら、推論、数学、コーディングといったタスクにおいて、OpenAI-o1と同等の性能を達成している。
DeepSeek-R1の開発過程では、まず、DeepSeek-R1-Zeroというモデルが開発された。このモデルは、「教師あり微調整(SFT)」を一切行わず、強化学習(RL)のみで学習させたもの。DeepSeek-R1-Zeroは、自己検証、内省、長い思考連鎖(CoT)の生成といった、高度な推論能力を示すことが確認された。一方で、無限ループ、可読性の低さ、言語の混在といった課題も抱えていた。これらの課題を解決し、さらに性能を向上させるために開発されたのがDeepSeek-R1なのだ。
DeepSeek-R1では、強化学習の前に、少量のコールドスタートデータ(強化学習を開始する前に、モデルに初期の手がかりや方向性を与えるために使用される、少量の高品質なデータ)を組み込むことで、DeepSeek-R1-Zeroの課題を克服し、より安定した、人間が読みやすい出力を実現した。
DeepSeek-R1は、小さなモデルへの知識蒸留を容易にし、効率性と性能のバランスが取れたモデルの実現を視野に入れている。このアプローチによって開発されたのが、DeepSeek-R1-Distillモデルだ。DeepSeek-R1-Distillモデルは、DeepSeek-R1によって生成された推論データを用いて、Qwen2.5やLlama3といったオープンソースモデルを微調整することで、性能を向上させている。現在、1.5B、7B、8B、14B、32B、70Bのパラメータを持つ、6つのDeepSeek-R1-Distillモデルが公開されている。
DeepSeek-R1は、MITライセンスの下で公開されており、商用利用、改変、派生物の作成が自由に行える。ただし、DeepSeek-R1-Distillモデルは、ベースモデルのライセンス(Apache 2.0、Llama 3.1、Llama 3.3)に従う必要がある。このように、DeepSeek-R1は、強力な推論能力とオープンソース戦略を組み合わせた、革新的なAIモデルと言える。
DeepSeek-R1は、様々なベンチマークにおいて、優れた性能を示している。特に推論、数学、コーディングといったタスクにおいて、高い性能を発揮する。
【推論】
AIME 2024 (Pass@1): 79.8% (OpenAI-o1-1217と同等)
MATH-500 (Pass@1): 97.3% (OpenAI-o1-1217を上回る)
【コード】
LiveCodeBench (Pass@1-CoT): 65.9% (OpenAI-o1-1217を上回る)
Codeforces (Elo Rating): 2029 (OpenAI-o1-1217と同等)
【知識】
MMLU (Pass@1): 90.8%
GPQA Diamond (Pass@1): 71.5%
DeepSeek-R1-Distillモデルも、優れた性能を示しており、特に、DeepSeek-R1-Distill-Qwen-32Bは、OpenAI-o1-miniを上回る性能を達成している。これらの結果から、DeepSeek-R1は、推論、数学、コーディングといったタスクにおいて、最先端の性能を実現していることがわかる。また、DeepSeek-R1-Distillモデルは、比較的小さなモデルサイズでありながら、高い性能を達成しており、効率性と性能のバランスに優れていると言えるだろう。
DeepSeek-R1の優れた性能を支えているのは、以下の3つの技術的特徴だ。
1. 基本モデルに対する大規模強化学習(RL)の直接適用
DeepSeek-R1の最も注目すべき点は、基本モデルに対して、大規模な強化学習(RL)を直接適用していることだ。ここで適用されている大規模な強化学習(RL)の具体的なアルゴリズムは、Group Relative Policy Optimization (GRPO) と呼ばれるもの。GRPOは、従来の強化学習手法で必要とされる価値モデルを用いず、グループ内の複数の出力の報酬を比較することで方策を更新する。これにより、計算コストを削減しながら、効率的に学習を行うことができる。従来、多くのモデルでは、教師あり微調整(SFT)を行った後にRLを適用するのが一般的だった。しかし、DeepSeek-R1では、SFTを介さずに、基本モデルに直接RLを適用することで、モデル自身が推論の過程を自己学習することを可能にしている。このアプローチにより、DeepSeek-R1-Zeroは、自己検証、内省、長い思考連鎖(CoT)の生成といった、高度な推論能力を獲得した。
2. 蒸留による小型モデルの高性能化
DeepSeek-R1では、大規模なモデルの推論パターンを、より小さなモデルに蒸留する技術が採用されている。具体的には、DeepSeek-R1によって生成された推論データを、Qwen2.5やLlama3といったオープンソースモデルに適用し、微調整することで、効率性と性能のバランスが取れたモデルを実現。この技術により、リソースが限られた環境でも、DeepSeek-R1の優れた推論能力を活用することが可能になる。
3.2つのRLステージと2つのSFTステージによる開発パイプライン
DeepSeek-R1の開発では、2つのRLステージと2つのSFTステージを組み合わせた、独自のパイプラインが採用されている。
第1段階 (RL): 基本モデルにRLを適用し、推論能力を強化 (DeepSeek-R1-Zero)。
第2段階 (SFT): 少量のコールドスタートデータを組み込み、RLで発生した課題
(無限ループ、可読性の低さ、言語の混在)を解決。
第3段階 (RL): 第2段階で微調整されたモデルをさらにRLで強化し、推論能力を向上。
第4段階 (SFT): 最終的なモデルの調整。
このパイプラインにより、DeepSeek-R1は、推論能力と人間にとっての読みやすさを両立した、高品質なモデルに仕上がっている。
これら3つの技術的特徴により、DeepSeek-R1は、従来のモデルを凌駕する推論性能を実現している。
DeepSeek-R1は、WebUI (チャット形式のインターフェース) または APIを通じて利用可能だ。WebUIを利用する場合は無料でDeepSeek-R1の機能を試すことができる。APIを利用する場合は、従量課金制となっており、入力トークン数と出力トークン数に基づいて料金が発生する。
入力トークン:100万トークンあたり 0.14ドル(キャッシュヒット時)
100万トークンあたり 0.55ドル(キャッシュミス時)
出力トークン:100万トークンあたり 2.19ドル
例えば、100万トークンの入力(キャッシュミス)と、100万トークンの出力を伴うリクエストを送信した場合、料金は以下のように計算される。
入力トークン料金: 0.55ドル (100万トークンあたり)
出力トークン料金: 2.19ドル (100万トークンあたり)
合計料金: 0.55ドル + 2.19ドル = 2.74ドル
DeepSeek-R1と他のo1クラス推論モデルの入力/出力API料金を100万トークンあたりで比較してみると、
・入力トークン料金
DeepSeek-R1:0.14ドル/OpenAI-o1-mini:1.5ドル/OpenAI-o1:7.5ドル
・出力トークン料金(キャッシュミス)
DeepSeek-R1:0.55ドル/OpenAI-o1-mini:3ドル/OpenAI-o1:15ドル
・出力トークン料金(キャッシュヒット)
DeepSeek-R1:2.19ドル/OpenAI-o1-mini:12ドル/OpenAI-o1:60ドル
というように、DeepSeek-R1は入出力のいずれにおいても、o1シリーズと比較して優れたコストパフォーマンスを発揮する。
DeepSeek-R1の技術に興味を持った方や、実際に自分の手で再現してみたいという方は、オープンソースプロジェクト「Open-R1」が役立つ。Open-R1 は、Hugging FaceがGithub上で公開したリポジトリ。DeepSeek-R1の再現を目指して、コミュニティ主導で開発が進められている。このリポジトリでは、DeepSeek-R1の学習や評価に必要なコードや手順が提供されており、誰もがDeepSeek-R1の再現に挑戦することができる。Open-R1は、DeepSeek-R1をより深く理解し、活用するための貴重なリソースとなるだろう。興味のある方は、ぜひリポジトリを覗いてみてください。
DeepSeek-R1は、推論能力に特化した大規模言語モデル。前モデルDeepSeek-V3をベースに、基本モデルへの大規模強化学習(RL)の直接適用という革新的なアプローチで開発された。特に、自己検証や長い思考連鎖(CoT)の生成といった高度な推論能力が注目される。また、DeepSeek-R1-Distillモデルにより、効率性と性能のバランスの取れた小型モデルも提供されている。MITライセンスの下で公開されているため、商用利用や改変も自由。DeepSeek-R1は、質疑応答、研究開発、コンテンツ生成など、様々な分野での活用が期待されており、今後のAI開発を大きく加速させる可能性を秘めている。DeepSeek-R1の存在がAI開発に変化を与え、新しいAIが出現する日が想像よりも早くなるかもしれない。