DeepSeek-R1 の概要

npaka

2025年1月22日 07:34

「DeepSeek-R1」の概要をまとめました。

1. DeepSeek-R1

「DeepSeek-R1」は、「DeepSeek」が開発した、オープンで高性能なReasoning能力を持つ大規模言語モデルです。2025年1月に発表され、OpenAIのo1と同等の性能を持つとされています。

・deepseek-ai/DeepSeek-R1

特徴は、次のとおりです。

・強力なReasoning能力
強化学習を用いた革新的なアプローチにより、特に数学や科学的推論において優れた性能を発揮。
・オープン
MITライセンスのもとで提供さている。
・低コスト
API価格が「OpenAI o1」の25分の1以下と、非常に低価格で利用できる。
・長いコンテキスト長
最大128Kトークンのコンテキストを扱えるため、長文の処理や要約に優れている。

Webサイトと API が現在公開されています。今すぐ http://chat.deepseek.com の「DeepThink」で試すことができます。

2. 技術的なハイライト

技術的なハイライトは、次のとおりです。

・ポストトレーニングでの大規模強化学習
・最小限のラベル付きデータで性能が大幅に向上
・OpenAI-o1 と同等の数学、コード、推論タスク

詳しくは、以下を参照してください。

3. APIアクセスと料金

APIで「model=deepseek-reasoner」を指定することで、「DeepSeek-R1」を利用できます。

料金は次のとおりです。

詳しくは、以下を参照してください。

4. DeepSeek-R1-Zero

「DeepSeek-R1-Zero」は、「DeepSeek-R1」の予備段階として開発された、教師ありファインチューニング (SFT) に頼らずに、ベースモデルに大規模な強化学習 (RL) を直接適用した言語モデルです。

・deepseek-ai/DeepSeek-R1-Zero

通常の言語モデルは、人間が作成した大量のテキストデータで学習しますが、「DeepSeek-R1-Zero」は、強化学習のみで複雑な問題を解決するための思考の連鎖 (CoT) を探索できるように学習されました。

「DeepSeek-R1-Zero」の特徴は、次のとおりです。

・SFTなし
教師ありファインチューニングを行わず、強化学習のみで学習。
・CoTの探索
複雑な問題を解決するために、段階的に思考する能力を備えている。
・数学・プログラミングに強い
解答が明確で、正誤判定が機械的に行いやすい数学問題やプログラミング問題で特に優れた性能を発揮。

ただし、次のような課題もありました。

・可読性の低さ
出力されたテキストが人間にとって理解しにくい場合がある。
・言語の混在
複数の言語が混在した出力が生成される場合がある。
・終わりのない繰り返し
終わりのない繰り返しが出力される場合がある。

これらの問題に対処し、推論性能をさらに向上させるために、強化学習の前にコールドスタートデータを組み込むことなどで、より実用的な「DeepSeek-R1」へと進化しました。

5. 蒸留モデル

「DeepSeek-R1」は、671Bの巨大なモデルですが、より幅広いユーザーがR1の能力を活用できるように、「蒸留モデル」と呼ばれる小型化されたモデルも公開しています。

・deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
・deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
・deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
・deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
・deepseek-ai/DeepSeek-R1-Distill-Llama-70B
・deepseek-ai/DeepSeek-R1-Distill-Llama-8B

蒸留モデルとは、巨大なモデルの知識や能力を、より小さなモデルに凝縮したものです。「DeepSeek-R1」の蒸留モデルは、「Qwen」や「Llama」といった既存のモデルをベースに、R1の推論パターンを学習させることで作成されました。

DeepSeek-R1の蒸留モデルの特徴は、次のとおりです。

・高性能
元のR1の推論能力を可能な限り維持。
・軽量
1.5Bから70Bまで、様々なサイズのモデルを用意。最小のモデルは家庭用PCでも動作可能。
・多様性
「Qwen 2.5」や「Llama 3」など、複数のベースモデルを採用。