見出し画像

DeepSeek まとめ

DeepSeek についての情報が錯綜しているため、目についたトピックスをまとめました。

※ 個々の内容には深入りしませんが、可能な限り情報ソースを示しますので、詳細はそちらをご確認ください。


DeepSeek

DeepSeek が何かという情報は大量にあるため、本記事では省略します。ほぼ同時期に公開された記事を紹介します。

蒸留疑惑

DeepSeek-V3 リリース後の昨年末、ChatGPT であると自認していることが指摘されました。

今年初めに DeepSeek がアメリカのテレビで取り上げられたときも、ChatGPT の出力を学習(蒸留)している可能性が報道されました。

しばらくはあまり取り沙汰されず、技術者界隈では API 料金の安さから Cline でエージェントとして利用する話題が中心でした。

しかしここに来て、日本でも蒸留疑惑が取り沙汰されるようになりました。

DeepSeek のボットが ChatGPT を自動操作することで、 API を迂回してデータを集めていたのではないかという指摘がありますが、未確認情報です。

OpenAI と言い出すケースが指摘されています。

これについては異論もあります。

例えば Claude 2 は次のような回答を返します。この場合、プロンプトを鸚鵡返しにしていることから、誘導に乗ってハルシネーションを起こしたものと思われます。

同じような問いかけを大量に行った記事です。

このように簡単な問答だけで判定できることではないため、実証するのは難しいと考えられます。

もし蒸留していたとすれば ChatGPT の利用規約違反ですが、それ自体の違法性を問うことは難しいようです。民事訴訟に発展する可能性はありますが、中国で開発されたことから訴訟の実効性は限定的かもしれません。

DeepSeek-R1 本体の疑惑とは別に、R1 から Llama や Qwen に蒸留を行ったモデルにも、ライセンスに関する懸念があるようです。

Microsoft の反応

Microsoft は OpenAI とともに蒸留疑惑を調査する一方で、Azure や Copilot+ PC で DeepSeek やその蒸留モデルを提供する動きにも出ています。

この二面性は憶測を呼んでいますが、公開されたモデルデータを利用すること自体に法的問題はないという割り切った判断だと思われます。

利用規約

DeepSeek が提供するウェブチャットのデータは中国本土のサーバーに保存されるため、中国の法律が適用されます。また、ユーザーデータの全面的な利用許可を与える内容となっています。

脆弱性によりチャット履歴などが漏洩していた可能性が指摘されましたが、このような場合でも責任を問うことはできません。

データ保護への懸念から、アメリカ海軍やイタリア政府をはじめとして、DeekSeek へのアクセス遮断が広がり始めています。

自前ホスティング

DeepSeek-R1 のモデルデータは MIT ライセンスで公開されているため、それを自前でホスティングすれば利用規約やデータ保護への懸念は払しょくされます。

利用方法で安全性がどう変わるかがまとめられています。中国にあるサーバーに情報を送信するリスクと、内容のバイアスによるリスクが、切り分けて説明されています。

DeepSeek 自体はコストパフォーマンスに優れたモデルであるため、前述の Azure だけでなく、自前でホスティングする動きが広がりつつあります。

しかし o3-mini の登場によって、コストパフォーマンス的には R1 が逆転されたようです。

ローカル実行

自前の PC で動かす動きも進んでいます。

DeepSeek-R1 から Qwen や Llama に蒸留したモデルが公開されており、今までのローカル LLM と同様に利用可能です。

フルスペックの DeepSeek-R1 モデルは非常に巨大で、推論時に膨大なメモリを必要とします。CPU 推論で動かすには 100 万円クラスのマシンが必要になるようです。

メモリを削減するため、BitNet b1.58 という技術を利用した動的量子化モデルが公開されています。

快適に動かすにはメモリが 192GB 程度は必要なようです。CPU 推論で 5 tps、M2 Ultra の GPU 推論で 15 tps 程度の速度が出るようです。

1.58 bit ではやはり精度は下がります。ベンチマークによって影響が調査されています。

具体例では、1.58 bit ではテトリスの開発に失敗したようです。IQ2_XXS では成功したことから、その辺りが実用最低ラインのようです。

メモリ帯域は動作速度に影響が大きいようです。

DeepSeek-V3 (Q4_K_M) では、Ampere という ARM サーバーで 12 tps、NVIDIA H200×8(DGX と思われる)で 10 tps、AMD Instinct MI300X×8 で 16.7 tps とのことです。コスパは Ampere が断然優位のようです。(H200 や MI300X が遅すぎる気はしますが、一例として挙げました)

AMD は MI300X での DeepSeek-V3 サポートを表明しています。

MI300X は個人で手が出るようなものではありませんが、IQ2_XXS で CPU 推論できるスペック(メモリ 256GB 程度)なら狙えそうです。

MoE アーキテクチャ

DeepSeek-V3 は MoE (Mixture of Experts) というアーキテクチャを採用しているため、CPU 推論でもある程度の速度が得られます。

実際の動きについて詳しく説明されています。

内部は 256 個のエキスパートに分かれており、これを 64 個に削減する試みがあります。

テストしたところ、外されたエキスパートに必要な知識が格納されていたらしいという興味深い結果が得られました。

モデルマージによる性能向上が流行りましたが、それと同じようにエキスパートのマージができれば面白いかもしれません。

開発コスト

DeepSeek-V3 は開発コストが 560 万ドル程度だと話題になりました。

この金額には GPU データセンターの整備費用や人件費などが含まれていないため、それらを含めればもっと金額は膨らみます。

それを加味しても先駆者である OpenAI よりも後発は有利で、先行技術の利用などによって遥かに少ないコストで開発できると考えられます。

ただし公開情報を組み合わせただけでなく、相当程度の技術開発を行っており、主要な成果は論文として公開されています。

論文の要約と解説記事です。

DeepSeek は学習の実装を公開していませんが、論文を基にして Open-R1 という再現プロジェクトが進行しています。

実際、Open-R1 を利用して推論能力がないモデルに推論能力を付与することができています。

現実需要と LLM のコモディティ化

現在の最先端技術が目指す AGI(汎用人工知能)のような高度な目標と比べ、大多数の利用ケースでは GPT-4 程度の性能で十分であると考えられます。また、DeepSeek が公開したモデルや論文により、模倣するハードルは大幅に下がっています。

このような背景の中、LLM が徐々にコモディティ化していくと考えられます。

日用品や家電製品の多くが中国製であるのと同様の状況が、LLM の分野でも起きるかもしれません。

GPU

DeepSeek の学習には、中国への輸出規制に伴い性能を制限した NVIDIA H800 という GPU が使われています。H800 をフル活用するため、CUDA よりも低レイヤの PTX によるチューニングを行ったようです。

このことが AI 開発に最高性能の GPU が必要ないのではないかという疑念を生み、NVIDIA の株価に影響を与えたとされています。

Anthropic の ダリオ・アモデイ CEO は、アメリカが中国との AI 開発競争で優位に立つため、GPU の輸出規制は続けるべきだと主張しています。

一方、Huawei は Ascend 910C という AI チップを開発しています。

DeepSeek は推論にこの Ascend 910C を使用しているという情報があります。

インターコネクトが弱いため、まだ学習には使えないようです。

このチップは中国国内で開発されたもので、GPU の輸出規制の影響を受けにくいインフラを整えつつあります。もし輸出規制が更に強化されたとしても、弱点だった機能を強化することで競争力を維持する可能性があります。

なお、DeepSeek に中国語で話しかけると、Ascend 910B を使っているという回答が引き出せるようです。

DeepSeek と Huawei は協力関係にあるようです。

開発体制

DeepSeek の 梁文峰 CEO へのインタビューのまとめです。

ヘッジファンドが母体となって、自己資金で運用されているようです。

開発チームは 100 人規模で、留学経験者はいないようです。

羅福莉さんという天才的な女性開発者が話題になりました。

まとめ

Semianalysis による分析の要約です。ここまで断片的に述べてきた事項がまとめられています。

その他

性能面で Llama が追い抜かれたため、Meta に影響が出ているようです。

日本での日常業務に影響が及びそうな事柄がまとめられています。

いいなと思ったら応援しよう!