見出し画像

DeepSeek R1 & SMALL R1-Distill-Qwen R1 推論

4,637 文字

コミュニティの皆さん、新しい推論モデルができました。今回は、オープンソースで locally に使用できる小規模な言語モデルに焦点を当てていきます。
まずは DeepSeek から始めましょう。ここには素晴らしい新しいモデルがあり、Qwen 132B、14B、7B から 1.5B の学習可能なパラメータまでを備えています。ここでは DeepSeek Reasoning One とその Qwen バージョンを用いた蒸留版を見ていきますが、まずは最初から説明していきましょう。
現在 2025年1月21日、DeepSeek を見ています。DeepSeek バージョン3は、各トークンに対して特定のルーターの知性によって 370億の学習可能なパラメータが活性化される、総計 0.6兆の学習可能なパラメータを持つ強力な Mixture of Experts 言語モデルです。前回の動画で Mixture of Expert システムのインテリジェントルーターについて話したのはこれが理由かもしれません。
DeepSeek は、約15兆の多様なトークンで DeepSeek バージョン3を訓練し、その後教師あり微調整と強化学習を行ったと述べています。これには従来のGPUで約300万時間しかかかっていません。従来のプロセスである事前学習、教師あり微調整、強化学習の段階がありますが、ここには多くの詳細があります。
V3ベースモデルと V3モデルの2つがありますが、その違いは何でしょうか。これは簡単で、この300万時間はベースモデルのみに対するものだからです。DeepSeek はパフォーマンスを分析し、R1推論モデルから知識蒸留を行うポスト訓練を実施することでベースモデルを改善できると判断しました。彼らは R1モデルからの推論能力を V3非ベースモデル、特に DeepSeek バージョン3に蒸留したと述べています。
Hugging Face に行けば DeepSeek R1のアップデートがあるのが分かります。アップデートを使用することをお勧めします。本当に価値があります。そして R1 Z もあります。これらは推論モデルですが、R1 0と R1の違いは何でしょうか。
DeepSeek の技術文献によると、DeepSeek R1 Z は無限の繰り返し、可読性の低さ、言語の混在といった課題に直面しており、そのため R1 0をさらに最適化してメインの R1モデルにしたと述べています。DeepSeek は数学、コーディング、推論タスクにおいて OpenAI o1と同等のパフォーマンスを達成したと述べており、これは本当に素晴らしいことです。数時間前にコーディングに関する新しいライセンスが公開され、全く新しい世界が開かれたのです。
技術文献を見てみましょう。20時間前に DeepSeek R1、この新しい推論パイプラインが公開されました。これは本当に簡単です。R1 0のブロックがありますが、私は今回 R1 Z については無視して、新しい R1、特に Cold Start での強化学習に焦点を当てたいと思います。
DeepSeek R1を見てみましょう。訓練パイプラインの最初の要素を見ています。パイプラインには4つの要素があり、最初の Cold Start を見ています。DeepSeek は、DeepSeek バージョン3ベースを微調整するために数千の Cold Start データを収集したと述べています。これが R1の Cold Start のための V3ベースでの大規模な微調整演習である理由が分かりますね。
これは本当に興味深いです。新しい可読性パターンを持ち、各応答の最後にサマリーを含め、読みやすくない応答をフィルタリングするパターンを設計したと述べています。出力フォーマットを special token reasoning process special token とサマリーとして定義し、reasoning process はクエリに対する長い思考の連鎖で、サマリーは推論結果を要約するために使用されます。Cold Start のための素晴らしい微調整データがあったのです。Cold Start は R1 Z の一部ではありません。
次にサンプリングの抽出と教師あり微調整に進みましょう。ここでも別の教師あり微調整があります。推論指向の強化学習が収束したとき、結果のチェックポイントを使用して後続のラウンドのための教師あり微調整データを収集したと述べています。最初の Cold Start とは異なり、このステージ3は推論に重点を置くだけでなく、他のドメインからのデータを組み込んで、文章作成、ロールプレイング、その他の一般的なタスクにおけるモデルの能力を向上させます。
約80万サンプルの修正データセットを使用して DeepSeek バージョン3ベースモデルを2エポック微調整したと述べています。この80万サンプルは覚えておいてください。約2分後に重要になります。
訓練パイプラインは本当に専用のパイプラインで、この特定の構成を見つけるためにかなりの実験を行いました。そして DeepSeek R1ができた後、彼らは素晴らしいことをしました。2025年1月21日に録画しているこの動画で、彼らは小規模言語モデルを蒸留し、4時間前にアップデートされたばかりです。
1.5B の学習可能なパラメータから始まる Qwen モデル、7B、Llama 8B、14B、32B があります。これは興味深いです。なぜなら、彼らはモデルをオープンソース化したからです。好きなように探索し、さらに構築できます。これは MIT ライセンスで、Hugging Face の DeepSeek R1 distill では、オリジナルの R1から Qwen モデル、32B モデルに蒸留されています。
推論 API、エンドポイント、Amazon、Asia、Google Cloud へのアクセス、Gradio のスペースなど、すべてが利用可能です。R1に関する新しい技術報告書では、うまくいかなかったことについても述べています。プロセス報酬モデルに焦点を当てると、上位の応答をリランクする優れた能力を示しましたが、大規模な強化学習プロセス中に導入された追加の計算オーバーヘッドと比較すると、その利点は限定的でした。
事前学習フェーズだけで300万時間かかる場合、理論的にはどんなに良くても、追加の計算オーバーヘッドについて理解できます。モデルの訓練、微調整にどれだけの時間をかけたいか、何百万時間を費やしたいかという性能のバランスがあります。
この蒸留は素晴らしいもので、DeepSeek Reasoning One モデルのように推論能力を持つより効率的な小規模モデルを装備するために、先ほどの80万サンプルを使用して Qwen やLlama などのオープンソースモデルを直接微調整しました。これは素晴らしく、オープンソースバージョンで無料で提供されています。
R1については既に良いモデルだと知っていますが、この蒸留された小規模言語モデルのパフォーマンスはどうでしょうか。ベンチマークデータを見ると、特に DeepSeek R1蒸留 Qwen 32B モデルが際立っています。GPT-4 Turbo、最新の Claude 3.5 Sonnet、OpenAI o1 mini と比較しても、特に Qwen 32B との比較でも本当に印象的です。
異なるタスクを見てみましょう。ベンチマークデータで数学的な問題では 94.3、94.5、93.9 と非常に近い性能を示しており、30B や14B モデルでも同様です。しかしコーディングでは性能の閾値にかなりの差があるようです。
あなたの仕事が何であれ、コーディング、数学、抽象的推論、ここにベンチマークデータがあります。好みの小規模言語モデルを選んでください。すべてが Hugging Face でダウンロード可能です。DeepSeek distill Qwen 32B、あるいは小さい14B モデルも利用可能です。
現在この動画を録画しながら、クラウドで並行してこのモデルを特定のタスクでテストしています。R1蒸留 Qwen 32B を使う必要があるのか、あるいは14B で十分なのかを知りたいからです。69.7から72、80から83、93.9から94.3という違いは、モデルのサイズを下げてローカル実装できるなら許容できるでしょうか。
数日後には最初の結果が出て、32B から14B に下げても DeepSeek R1の推論能力を持つことができるかもしれません。興味深いことに、DeepSeek は DeepSeek R1蒸留版の Qwen 32B バージョンが様々なベンチマークで OpenAI o1 mini バージョンを上回ると述べています。o1 mini の方が優れているベンチマークもありますが、これはオープンソースモデルであり、OpenAI のモデルは独自モデルです。
ヨーロッパ人として、このモデルとこのモデルの選択肢があれば、テストと実装にはオープンソースモデルを使用する傾向があります。もちろん、決定する前に実際に試すことができます。chat.deepseek.com で無料で試すことができ、最新の DeepSeek モデルか、Deep Thinking をクリックして高レベルの DeepSeek R1モデルを使用して推論問題を解決できます。
この動画を録画している間に、Hugging Face で小規模モデルを試せる多くの Gradio スペースが登場するでしょう。モデルを決める前に無料でオンラインで試すことができます。興味深い競争と協力が起きています。これはオープンソース対独自モデルについてです。
基本的に、GPT-4 o1の独自モデルか、オープンソースの DeepSeek R1モデルを選択できます。OpenAI が o3モデルを既に公開した理由が分かります。オープンソースモデルが独自の o1と少なくとも同じレベルの性能を持つなら、私は競争が好きです。
R1が本当に利用可能か確認してみましょう。1月21日、DeepSeek R1の MIT ライセンスが昨日更新されました。興味深いことに、名前に「Open」を持つ OpenAI ではなく、他の企業がオープンソースの MIT ライセンスモデルを提供しています。
これは推論タスクのための新しい小規模言語モデルが登場した最初の日です。大規模な R1モデルからの蒸留版がありますが、R1からの80万の特別なデータセットで Qwen モデルの微調整を継続しています。Qwen 1.5B の学習可能なパラメータモデルまで下げることができるなら、これは本当にテストする価値があります。
次の数日から数週間で、私の特定のタスクに関する評価動画を作成するかもしれません。私はより科学指向のタスクを扱いますが、IT、金融、文章作成、一般知識に関心がある方は、このビデオのコメントで経験を共有してくれると面白いですね。
このような動画が気に入ったら、ぜひチャンネル登録してください。次の動画は既に制作中です。

いいなと思ったら応援しよう!