DeepSeek推しのローカルLLM勢から見るDeepSeek

Holy_fox

2025年1月30日 18:11

はじめに

初めまして、ほーりふぉっくすと申します。
この記事ではDeepSeekがなぜここまで流行り、選べられているのかを大規模言語モデル(LLM)の開発を生業としてる人がローカルLLM勢の視点から説明します。

※ローカルLLMとは自分のデバイス上で動く大規模言語モデルのことです。

自己紹介

ローカルLLM開発をしているほーりふぉっくす(https://x.com/Holy_fox_LLM)と申します。
DeepSeekを去年の8月よりデータ生成・コード生成に使っており、日本人の中では多分結構早く触っていた方だと思います。

主な実績としては去年の6月あたりに70億パラメータで日本語性能が世界一高いモデルを開発しました。

そんな私から見るDeepSeek社、DeepSeek v3 DeepSeek R1について書いていこうと思います。

DeepSeekの概要

2023年に中国の浙江省杭州市で設立されたAI開発を専門とする企業です。
そしてそのDeepSeekが出したモデルがDeepSeek-v3とDeepSeek-R1です。
DeepSeekはコスパよく開発をするという印象があると思います。
ローカルLLM勢としてはMoE(Mixture of Experts)を得意とし、ある程度緩いライセンスをつけてくれる企業という認識があります。

DeepSeek-v3/R1の概要

DeepSeek-v3とは中国のDeepSeek社によって作られた660B級パラメータとgpt-4o級の性能をもつオープンウェイトモデルです。

DeepSeek-R1は同じく中国のDeepSeek社によって作られた660B級パラメータとo1級の性能を持つとされているオープンウェイトの長考モデルです。

(このモデルの特徴としてはv3の派生モデルではないことが挙げられます。
具体的にはbaseモデルから直接思考を獲得したため、Instructモデルを挟んでいません。先にあったrefrectionやQwQ,QvQはInstructモデルの派生です。)

オープンソース/オープンウェイトモデルはモデル本体(重み)が公開されているためモデルを学習,改良,量子化することができる点が大きな利点です。
とくに量子化,改良をすることでさまざまなデバイス(cuda環境だけではなく、AMDやCPU、macOSやスマホ環境など)で推論することができます。
DeepSeekでも量子化することで80GBのGPUを８つ積んだPCを２つ用意しないと動かない状態から24GBのGPUを8つ搭載するだけで推論できるようになります。(すごい)
詳しくはnpakaさんの記事を参照

長考モデルを軽く解説

ここで少し、R1やo1、Gemini thinkingのようなモデルは「思考」と呼ばれる結論を導き出すための軌道を言葉で表したものを出力した上で回答を生成するモデルです。(QwQのような一部例外あり)
例えば以下のようなフォーマットで出力されます
<think>思考</think><output>回答</output>
あとはぬこぬこさんの記事を参照して下さい。

私がDeepSeekを使う理由

それには２つの理由があります。「高速・高性能」「ライセンスが緩い」ということです。それでは分けて説明しましょう。

高速・高性能なDeepSeek

すこし知識のある人なら、「660Bもあるんだから全然軽量じゃないじゃん！」という意見が出てくると思います。しかし実際はllama-3.3-70Bより約２倍高速なのです。これは大量のデータやコードを出力させることを主な使い方をする自分にとってはかなり大事なことです。
これを理解するには「MoE」と「アクティブパラメーター」という概念を理解する必要があります。

MoE・アクティブパラメータとは

MoEはMixture of Expertsの略で専門家モデルを束ねることでより強いモデルを作るというアプローチです。そしてDeepSeekはMoEを得意とする企業なのです。
具体的には8B級のモデルを22個合体させて176Bのモデルを１つ作るといったことができます。(詳細な説明はnVIDIAのリンクをご確認ください)

実のところモデルを合体させる方法にはMoE以外もあるのですが、MoEの特徴として「アクティブパラメータ」というのがあります。
ここでアクティブパラメータの詳細な説明をしてもあまり意味ないと思うのでどういうものかという説明に留めておくのですが、MoEをしたモデルにはアクティブパラメータというものがあります。(これは推論時に使われるパラメータという認識でOKです。)HF Model CardによるとDeepSeek-v3の場合はそれが37Bくらいだと言われています。確かに660Bをメモリに載せないとそもそも動かせないですが、実際に使われるパラメータは37Bなので40Bのモデルと同等の速度が出ます。(llama-3.3-70Bより約２倍高速だといったのにはこういう理由があります。)
660Bの知識を持ったモデルを37Bの速さで動かせるのはかなりの利点です。

ライセンスが緩いDeepSeek

DeepSeek-R1やDeepSeek-v3がMITライセンスで公開される前の、v2.5の頃からDeepSeekはライセンスが優しいことで知られていました。我々ローカルLLM勢がいちばん大事にしてる条項は「そのモデルの出力を他のモデルの学習に使えるか」という条項です。
OpenAIやClaudeなどの規約やllama3の規約では出力が他モデルの学習には使えません。
しかし、DeepSeekのライセンスでは出力を他モデルの学習に使えるのです。
大きなモデルの出力を小さなモデルの学習に使うと小さなモデルの性能が上げられ、この方法は一般に「蒸留」と言われます
去年8月時点では蒸留に使えるモデルはあまりありませんでした(llama3.1やGemmaなどが登場してきてようやくできるようになりましたが、ライセンスの継承が不可欠です。)
しかし、100B以上のパラメータを持ち、無制限で出力を学習可能なgpt-4o級のモデルはDeepSeekくらいしかありません。
これがDeepSeekが選ばれる理由です。

ローカルLLM界隈で話題のR1蒸留モデル

ここまでDeepSeekの600Bモデルの良さを説明してきましたが、普通の家にはVRAM192GBが積まれたPCはありません。(Mac StudioのM2 Ultlra 192GBがいちばん入手性が高いがほぼ100万ぐらいかかる上。nVIDIA環境で揃えようとしたら500万コースになります。)
ということで出てくるのがR1蒸留モデルです。

DeepSeek-R1が生成したデータを使用した = R1を蒸留したモデルが期待されます。
パラメータも1.5Bから32Bと幅広くあり、スマホで推論できるレベルのものもあります。
そしてこれが「DeepSeek公式」から出してくれているという点が今までとは違うポイントです。いちばん簡単だと思うollamaで動かしている記事があるので貼っておきます。

ということで自分もR1蒸留モデルとMergekitを使ってローカルモデルを作ってみました。このようなことができるのがオープンウェイトモデルのメリットです。

まとめ

gpt-4o級の性能があるモデルを自由に蒸留に使えるということはローカルLLMをやっている人間にとっては嬉しい限りなのでDeepSeekにはこの調子で頑張って欲しいです！

DeepSeekについての自分の見解

自分が記事をまとめるのがあまりにも下手すぎるせいで言いたいことが言えなかったのでここに一問一答形式の形で自分の見解を書いていこうと思います

DeepSeekは中国に情報を吸われるの？

はい。吸われていますし、なんなら100万件の情報が漏れてます。利用規約にはAPIであっても学習の対象だと書いてあるので機密性が高い文章は公式のところに入れるのはお勧めしません。
しかし、MS Azureで使えるようになったとのことなので使いたいならAzureで使うことをお勧めします。

DeepSeek R1が初めてのオープンウェイト長考モデルである。

間違いです。初めての実用的なオープンウェイト長考モデル(refrectionモデル)はReflection Llama-3.1 70Bというモデルであり、なんならo1より先に開発されてます。
自分が初めて確認した実用的な長考モデルはClaudeだったと認識しています。

R1はOpen o1のデータを学習した！

している可能性はかなり低いです。というか考えずらいです。
DeepSeek mathの論文では数学を用いることにより自立的に思考を獲得したと書かれています。この状況においてo1のデータはノイズとなります。

DeepSeekは６億円で作られた！

DeepSeek本体の学習は6億円で済みましたが、そのためのHPCへの700億円規模の事業投資、エンジニアの人件費などは当然そこには含まれませんし、いくら完璧人間でも失敗はします。
それにDeepSeekの親会社は大きなクオンツファンドです。そこのプロジェクトである以上6億円以上かかってても不思議ではありません。
それでもコスパよく作れてはいると思いますが。

DeepSeekはChatGPTのデータを意図的に学習している！

意図的に学習した証拠はありません。そもそもGPTのデータが混ざることも不識ではなく、Googleのモデルであっても自己紹介がChatGPTであったこともあります。

それ以外の質問があったらコメントにどうぞ