(メモ)DeepSeek R1の概要を公式の記事からまとめておく
(メモ)DeepSeek R1の概要を公式の記事からまとめておく。
こんにちはmakokonです。1/20に発表されたDeepSeek R1が評判ですね。今すぐに試す余裕がないので忘れないようにまとめておくことにしました。説明はXの投稿を元に最初にまとめて、いくつかを詳細情報から補足します。
詳細情報はこちら
それと公式Xの記事です。
発表のポイント
DeepSeek-R1という新しいAIモデルの発表。
すでに、WebサイトとAPIが公開され、chat.deepseek.comで「DeepThink」として試用できます。
OpenAI-o1と同等のパフォーマンスを持つ
モデルとテクニカルレポートが完全にオープンソース化されている
MITライセンスで提供され、自由に改変や商用利用が可能
小規模モデルの紹介
DeepSeek-R1から派生した小規模モデル。
DeepSeek-R1から派生(蒸留)した6つの小規模モデルがオープンソース化
32Bパラメータと70Bパラメータのモデルは、OpenAI-o1-miniと同等の性能
オープンソースコミュニティの発展に貢献
「蒸留(Distilled)」とは、大規模なモデルの知識を小規模なモデルに転移する技術のことを指します。
ライセンスに関する情報
ライセンスに関しては、従来からの重要な変更が示されています。これらの変更によって、モデルの利用と開発における制限を大幅に緩和し、より自由な活用を可能にするものです。
DeepSeek-R1がMITライセンスに変更され、より明確なオープンアクセスが可能に
コミュニティがモデルの重み(weights)とモデルの出力を自由に利用可能
APIからの出力を、ファインチューニング(モデルの調整)や蒸留(知識の転移)に使用することが可能に
R1モデルの主要な技術的情報
効率的な学習方法と高い性能を両立させた技術的な成果を示しており、特に少量データでの学習効率の高さが注目点となっています。詳細はGithubで。
事後学習(post-training)で大規模な強化学習(RL)を実施
少量のラベル付きデータで大幅な性能向上を実現
数学、プログラミング、推論タスクにおいてOpenAI-o1と同等の性能を達成
アクセスと価格設定
効率的なキャッシュ利用を通じて、かなり安い価格で提供されます。実際らOpenAIのo1,o1-miniモデルと比べても非常に安価です。
APIでDeepSeek-R1を使用する場合は、モデルパラメータを「deepseek-reasoner」に設定
料金体系:
キャッシュヒット時:入力トークンあたり0.14ドル/100万トークン
キャッシュミス時:入力トークンあたり0.55ドル/100万トークン
出力トークン:2.19ドル/100万トークン
github:DeepSeek-R1: Reasoning via Reinforcement Learning
いくつかの技術的特徴を拾ってみました。
強化学習
R1-zeroとR1では、異なった強化学習(RL)の方法を使用しています。
DeepSeek-R1-Zeroの強化学習
特に注目すべきは、学習テンプレートで、「推論プロセスを生成し、その後で最終的な答えを生成するよう指示する」だけです。
強化学習が言語モデルの推論能力を大幅に向上させる可能性を示しており、特に、教師なしでの自己学習と高品質なデータを用いた学習の両方が、推論モデルの開発において重要であることを示唆しています。
教師ありファインチューニング(SFT)を初期段階として行わずに、ベースモデルに直接強化学習(RL)を適用しています。これにより、モデルが自己進化を通じて推論能力を獲得する過程を観察することを目的としています。
GRPO (Group Relative Policy Optimization) アルゴリズム を採用しています。これは、従来のRLで用いられる、ポリシーモデルと同じサイズのクリティックモデルを必要とせず、グループスコアからベースラインを推定することで、学習コストを削減する手法です。
報酬モデルは、主に2種類のルールベースの報酬で構成されています。
正確性報酬:回答の正確性を評価します。例えば、数学の問題では、指定された形式で最終的な答えを提供する必要があり、その正誤をルールベースで検証します。
形式報酬:モデルの思考プロセスを '' と '' タグで囲むように強制します。
学習テンプレートは、まず推論プロセスを生成し、その後で最終的な答えを生成するよう指示する簡単なものです。
強化学習の過程で、DeepSeek-R1-Zeroは、思考時間の増加、自己検証や反省、より長い思考連鎖(CoT)の生成といった行動が自然に現れ、推論能力が向上します。特に、問題に対する最初のアプローチを再評価することで、より多くの思考時間を割り当てるようになる「アハモーメント」と呼ばれる現象が観察されています。
DeepSeek-R1-Zeroは、初期状態の15.6%から71.0%までAIME 2024ベンチマークでの正解率が向上し、多数決を用いることで86.7%まで向上し、OpenAI-o1-0912の性能に匹敵するレベルに達しました。
DeepSeek-R1の強化学習
ここで重要なのは、高品質のファインチューニングモデルでスタートし、収束間近のときに教師ありデータを用いて再学習することです。
DeepSeek-R1は、初期の不安定なコールドスタートフェーズを防ぐために、少量の高品質なCoTデータでファインチューニングされたモデルを初期のRLアクターとして使用しています。
DeepSeek-R1-Zeroと同様に、推論指向の強化学習を実施します。
推論能力を強化するだけでなく、言語の一貫性を保つための報酬を導入し、言語の混在を緩和しています。
強化学習が収束に近づいた時点で、リジェクションサンプリングによって新しいSFTデータを作成し、ライティング、事実に基づいたQA、自己認識などの分野の教師ありデータと組み合わせて再学習を行います。
さらに、すべてのシナリオからのプロンプトを考慮した追加のRLプロセスを実施し、モデルの推論能力を向上させながら、ユーザーの好みとの整合性を高めています。
DeepSeek-R1は、OpenAI-o1-1217と同等の性能を達成しています。
共通点と相違点
両モデルとも、GRPOアルゴリズムとルールベースの報酬モデルをベースに強化学習を行っています。
DeepSeek-R1-Zeroは、教師なしで自己進化による推論能力の向上を目指していますが、DeepSeek-R1は、コールドスタートデータを使用することで、より安定した学習とユーザーフレンドリーな出力の実現を目指しています。
学習の効率
学習の効率は非常に高く、およそ8000回の強化学習でo1モデルに匹敵するようになります。
性能の比較
表4には、DeepSeek-R1の他に、Claude-3.5-Sonnet-1022, GPT-4o-0513, DeepSeek-V3, OpenAI-o1-mini, OpenAI-o1-1217といったモデルが比較対象とされています。
R1モデルの性能について以下の点が強調されています。
MMLU, MMLU-Pro, GPQA Diamondなどの教育関連の知識ベンチマークで、DeepSeek-V3を大幅に上回る性能を示しており、大規模な強化学習(RL)によってSTEM関連の問題での精度が向上したことが示唆されています。
FRAMESという長文コンテキストのQAタスクでも、優れたドキュメント分析能力を示しています。
SimpleQAという事実ベースの質問応答タスクでもDeepSeek-V3を上回っており、事実に基づいた質問への対応能力が高いことが示されています。
AlpacaEval2.0とArenaHardのベンチマークでは、高いスコアを示しており、ライティング能力やオープンな質問応答タスクにおいても優れた能力を持つことが示されています。
数学タスクでは、AIME 2024とMATH-500で、OpenAI-o1-1217と同等の性能を示しており、他のモデルを大きく上回っています。
コーディングのアルゴリズムタスクでも、LiveCodeBenchとCodeforcesで優れた性能を示しています。
IF-Evalでは、フォーマット指示に従う能力が高いことが示されています。
蒸留について
蒸留は、大規模モデルの知識を効率的に小規模モデルに伝達し、推論能力を向上させるための効果的な手法として紹介されています。ベースモデルは、研究コミュニティで広く利用されているQwenシリーズとLlamaシリーズから選択されており、蒸留によって、小規模モデルでも優れた性能を発揮できることが示されています。表5は、蒸留されたモデルが、他のモデルと比較して、推論能力において優れた性能を発揮することを裏付けています。表6には、蒸留がたんなんる教科学習に比べてより強力なモデルからの知識を有効に伝えていることが示されています。
ベースモデル
Qwen (Qwen2.5)シリーズとLlamaシリーズのオープンソースモデルがベースモデルとして選ばれています
蒸留の効果
推論能力の向上: DeepSeek-R1で生成されたデータを用いてこれらのベースモデルをファインチューニングすることで、元のベースモデルよりも大幅に推論能力が向上します。
小型モデルでも高性能: 蒸留によって学習された小型モデル(例:DeepSeek-R1-Distill-Qwen-7B)は、蒸留前の大規模モデルや他の非推論モデル(例:GPT-4o-0513)を上回る性能を発揮します。
計算効率の向上: 小型モデルは、大規模モデルと比較して、計算資源と推論時間が少なくて済むため、より効率的に運用できます。
RLなしでも高性能: 蒸留モデルは、教師ありファインチューニング(SFT)のみで学習されており、RLのような複雑なプロセスを必要としません。