
DeepSeek まとめ
DeepSeek についての情報が錯綜しているため、目についたトピックスをまとめました。
※ 個々の内容には深入りしませんが、可能な限り情報ソースを示しますので、詳細はそちらをご確認ください。
DeepSeek
DeepSeek が何かという情報は大量にあるため、本記事では省略します。ほぼ同時期に公開された記事を紹介します。
蒸留疑惑
DeepSeek-V3 リリース後の昨年末、ChatGPT であると自認していることが指摘されました。
今年初めに DeepSeek がアメリカのテレビで取り上げられたときも、ChatGPT の出力を学習(蒸留)している可能性が報道されました。
中国オープンソースAI DeepSeekの登場で、米国ビッグテックAIに黄色信号 https://t.co/s39SmOuNgj pic.twitter.com/uOKqb6Jom9
— ShortShort News (@ShortShort_News) January 3, 2025
しばらくはあまり取り沙汰されず、技術者界隈では API 料金の安さから Cline でエージェントとして利用する話題が中心でした。
しかしここに来て、日本でも蒸留疑惑が取り沙汰されるようになりました。
DeepSeek のボットが ChatGPT を自動操作することで、 API を迂回してデータを集めていたのではないかという指摘がありますが、未確認情報です。
DeepSeekさん、蒸留のためか知らんが、OpenAIのAPI料金をケチるために、Botの大群でWebサービスとしてのChatGPT(サブスク)にアクセスして入出力していた可能性。
— 炎鎮🔥 - ₿onochin - (@super_bonochin) January 30, 2025
『OpenAIのポリシー違反』という出力って主にWebアプリとしてのChatGPTで出る出力だし、信ぴょう性高いかも。 https://t.co/edKl3j6EGF
OpenAI と言い出すケースが指摘されています。
おかしいなぁ。
— 炎鎮🔥 - ₿onochin - (@super_bonochin) January 29, 2025
DeepSeek R1とOpenAIは関係無いはずなのになぁ。
おかしいなぁ。 https://t.co/iB190hQbUP pic.twitter.com/zRaRh31Nkr
これについては異論もあります。
この辺の話、前に OpenAI の出力を一切使わずに学習させたモデルであっても事前学習時の知識から?『OpenAI のLLMなので…』と言う例が観測されてた記憶があるので意外とこれだけで確証は得られないと思ってる
— Torishima / INTP (@izutorishima) January 29, 2025
だいたい "OpenAI" が含まれる会話データを機械的に除去するのは簡単にできる訳で…
仮に… https://t.co/asRS3cI9vZ
例えば Claude 2 は次のような回答を返します。この場合、プロンプトを鸚鵡返しにしていることから、誘導に乗ってハルシネーションを起こしたものと思われます。
DeepSeek-R1からChatGPTの話が出てくる現象が話題ですが、ここでClaude-2がリリースされた当初の会話を見てみましょう pic.twitter.com/b9AhIE4zYz
— EARLの医学ノート (@EARL_med_tw) January 30, 2025
同じような問いかけを大量に行った記事です。
このように簡単な問答だけで判定できることではないため、実証するのは難しいと考えられます。
もし蒸留していたとすれば ChatGPT の利用規約違反ですが、それ自体の違法性を問うことは難しいようです。民事訴訟に発展する可能性はありますが、中国で開発されたことから訴訟の実効性は限定的かもしれません。
DeepSeekの登場により、AIモデルの「蒸留」が注目を浴びています。
— 柿沼 太一 (@tka0120) January 29, 2025
「蒸留」というのは簡単に言うと、あるAIモデル(教師モデル)の入力データと出力セータを利用して異なるAIモデル(生徒モデル)を学習させることで、教師モデルと同等の性能を持つ生徒モデルを作成することです。… pic.twitter.com/WiRJTnd2zn
DeepSeek-R1 本体の疑惑とは別に、R1 から Llama や Qwen に蒸留を行ったモデルにも、ライセンスに関する懸念があるようです。
この辺りの話。蒸留とは何かを検討したが、やはりLlamaライセンスにおける「出力又は結果を使用」するケースであると考えられる。であるので、まず派生としての条件である名称先頭へのLlamaは必要だし、契約法のマジックによりライセンス契約が派生モデルへ継承されることになる。争うことは可能だが。 https://t.co/cA2EETN2zf
— Shuji Sado (佐渡 秀治) (@shujisado) January 28, 2025
Microsoft の反応
Microsoft は OpenAI とともに蒸留疑惑を調査する一方で、Azure や Copilot+ PC で DeepSeek やその蒸留モデルを提供する動きにも出ています。
ほんまやん草生えまくってるwwwwwwww
— 神威/KAMUI (@ai_syacho) January 30, 2025
DeepSeekはMS公認になったでwwww https://t.co/M90tx9K02Q
この二面性は憶測を呼んでいますが、公開されたモデルデータを利用すること自体に法的問題はないという割り切った判断だと思われます。
利用規約
DeepSeek が提供するウェブチャットのデータは中国本土のサーバーに保存されるため、中国の法律が適用されます。また、ユーザーデータの全面的な利用許可を与える内容となっています。
DeepSeek https://t.co/s0VgvM3HwI
— 平岡 憲人(ノーリー: HIRAOKA, Norito) Stand with Ukraine (@onokoro48) January 7, 2025
・入力内容と出力内容は、サービス改善のために使用される可能性があります
・データは中国本土のサーバーに保存され、中国の法規制の対象となります
・(中国の)法執行機関などへの情報提供が必要になる可能性があります…
脆弱性によりチャット履歴などが漏洩していた可能性が指摘されましたが、このような場合でも責任を問うことはできません。
データ保護への懸念から、アメリカ海軍やイタリア政府をはじめとして、DeekSeek へのアクセス遮断が広がり始めています。
自前ホスティング
DeepSeek-R1 のモデルデータは MIT ライセンスで公開されているため、それを自前でホスティングすれば利用規約やデータ保護への懸念は払しょくされます。
利用方法で安全性がどう変わるかがまとめられています。中国にあるサーバーに情報を送信するリスクと、内容のバイアスによるリスクが、切り分けて説明されています。
【DeepSeekの利用は危険か】
— 安野貴博 @ 新刊『1%の革命』が2/6発売予定です! (@takahiroanno) February 2, 2025
LV.1 あんまり詳しくない人向けの答え:
利用規約的に入力したデータが裏でどう使われるかわからないので入力内容には注意してね。ぶっちゃけ精度はChat…
DeepSeek 自体はコストパフォーマンスに優れたモデルであるため、前述の Azure だけでなく、自前でホスティングする動きが広がりつつあります。
しかし o3-mini の登場によって、コストパフォーマンス的には R1 が逆転されたようです。
海外のDeepseek R1セルフホストAPIコストのほぼ全ての料金をo3-miniがコストパフォーマンスで超越し、早くもR1のお株を奪い始めてます。
— まつにぃ (@yugen_matuni) January 31, 2025
たった1週間ちょっとでこの急転直下。
うーむ、まじで2025/01やばい。
去年の3、4ヶ月分が乗ってきてる。 https://t.co/KN60DHeVNz
ローカル実行
自前の PC で動かす動きも進んでいます。
DeepSeek-R1 から Qwen や Llama に蒸留したモデルが公開されており、今までのローカル LLM と同様に利用可能です。
フルスペックの DeepSeek-R1 モデルは非常に巨大で、推論時に膨大なメモリを必要とします。CPU 推論で動かすには 100 万円クラスのマシンが必要になるようです。
トータル100万円でフルのDeepSeek R1 8bitを動かすビルドが紹介されてる
— Kai INUI (@_kaiinui) January 28, 2025
Gigabyte MZ73-LM0(EPYC 2スロのMB)、EPYC 9115 x2, DDR5 768GB, 他は適当、でのCPU推論構成
6-8token/s程度の性能が出るらしい
消費電力は400W程度 https://t.co/Sn5q3U8Gja
メモリを削減するため、BitNet b1.58 という技術を利用した動的量子化モデルが公開されています。
快適に動かすにはメモリが 192GB 程度は必要なようです。CPU 推論で 5 tps、M2 Ultra の GPU 推論で 15 tps 程度の速度が出るようです。
671Bの巨大なDeepSeek-R1だが、1.58bit量子化でCPU推論も現実的になった!
— Q*Satoshi⏩ (@AiXsatoshi) January 28, 2025
生成速度、約5 tokens/s https://t.co/JF75zpnUuC pic.twitter.com/ztnHqT8Azx
なんか需要ありそうなのでDeepSeek R1 1.58-bitのMac Studioでの動作動画。
— はる猫大福(haru_arc) (@haru_arc) January 30, 2025
環境
- Mac Sudio M2 Ultra 192GB
- LM Studio 0.3.9 Build 3
- llama.cpp b4585
- iogpu.wired_limit_mb=180000
もう限界状態で動作させてるから録画の影響で生成速度落ちているけど、録画してなければ15.5 tok/sはでてる pic.twitter.com/8oCVk4a2Vd
1.58 bit ではやはり精度は下がります。ベンチマークによって影響が調査されています。
具体例では、1.58 bit ではテトリスの開発に失敗したようです。IQ2_XXS では成功したことから、その辺りが実用最低ラインのようです。
フルDeepSeek-R1、IQ2なら作動するTetrisを作ってくれた
— Q*Satoshi⏩ (@AiXsatoshi) January 29, 2025
CPU only推論速度も4-5 tok/sで、そう変わらない
実用上は最低IQ2以上、IQ3-Q4ぐらいが良さそう https://t.co/4bWrHI1M53
メモリ帯域は動作速度に影響が大きいようです。
DeepSeek-V3-Q2_K_XS
— Q*Satoshi⏩ (@AiXsatoshi) January 9, 2025
システムのメモリ交換したら
CPU推論で、速度 7.7 tokens/s まで改善した!
DDR4-2933 4本→DDR4−3200 8本
Threadripper pro 5975wx
Total 685Bあるけど、active 37BのMoEだからか、CPUだけでも結構いけるぞ pic.twitter.com/Zy0CiNaMo3
DeepSeek-V3 (Q4_K_M) では、Ampere という ARM サーバーで 12 tps、NVIDIA H200×8(DGX と思われる)で 10 tps、AMD Instinct MI300X×8 で 16.7 tps とのことです。コスパは Ampere が断然優位のようです。(H200 や MI300X が遅すぎる気はしますが、一例として挙げました)
「CPU何使ってるんですか?」
— 🌌🐈⬛くʓ ʓ 🍃✨🌸🍑👽👑🦪 (@currnya) January 9, 2025
「Ampereだよ」
って会話が理解できなかったCUDA脳の私ですけど
Ampere社のArmサーバらしい
お値段もご立派だけどH200よりは断然安い
nvidiaが一番遅いのが笑いどころ https://t.co/dtpfVsa23R
AMD は MI300X での DeepSeek-V3 サポートを表明しています。
一方、AMDはDeepSeekとの連携を強化し、Instinct GPUへの最適化を進めてます。NVIDIAへの競争圧力も増しそうで、GPU市場の構図がどう変わるか目が離せませんね。 https://t.co/2pXrGYVFcx
— Shunta Furukawa (@shunta_furukawa) January 27, 2025
MI300X は個人で手が出るようなものではありませんが、IQ2_XXS で CPU 推論できるスペック(メモリ 256GB 程度)なら狙えそうです。
MoE アーキテクチャ
DeepSeek-V3 は MoE (Mixture of Experts) というアーキテクチャを採用しているため、CPU 推論でもある程度の速度が得られます。
実際の動きについて詳しく説明されています。
今話題となっているDeepSeek-V3について話したことがまとまっています。今日R1やその周辺について話したので次回ぐらいで配信すると思います https://t.co/iECUmZB77h
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) January 30, 2025
前の号 (https://t.co/TBGvT3DR7b) と連続して、DeepSeek V3/R1の技術などを社内で話した内容を配信しています。多く聞かれているので早めに出しました。なぜ今回これだけ注目されたか、MoE, reasoningなど、どういう展望があるのかをはなしています https://t.co/9SkUzu2KY2
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) January 31, 2025
内部は 256 個のエキスパートに分かれており、これを 64 個に削減する試みがあります。
DeepSeek-V3をベースに、日本語の例文を元に頻出するMoEの256 expertsを各レイヤーごとに64つ厳選して再構成したモデルを作成しました。
— ぱぷりか炒め (@WMjjRpISUEt2QZZ) January 1, 2025
32では安定しなかったため64 expertsにしています。
それでもbf16で337GBあります。
でかいですhttps://t.co/KSldtX1tpe
テストしたところ、外されたエキスパートに必要な知識が格納されていたらしいという興味深い結果が得られました。
@WMjjRpISUEt2QZZ
— webbigdata (@webbigdata) January 9, 2025
ぱぷりか炒めさんのDeepSeek-V3-slice-jp64/IQ2_Sでも試してみたところ、こちらも日本語対応はできてました
しかし、キャラクター名を言えなくなっていたので採用された64experts以外の他のexpertsにまどマギ知識が保存されている可能性があるという割と真面目な考察になりました pic.twitter.com/HozVRL79Gp
モデルマージによる性能向上が流行りましたが、それと同じようにエキスパートのマージができれば面白いかもしれません。
語句飛びから文章評価に整合性の合わない部分が影響しちゃってますね😂
— ぱぷりか炒め (@WMjjRpISUEt2QZZ) January 11, 2025
なんとか削減かマージ+量子化でコンパクトにしたい所です
開発コスト
DeepSeek-V3 は開発コストが 560 万ドル程度だと話題になりました。
この金額には GPU データセンターの整備費用や人件費などが含まれていないため、それらを含めればもっと金額は膨らみます。
DeepSeek v3のtechnical reportにH800 (H100)が2048枚の(多分オンプレ)クラスタに言及しており、単純にここに乗っているGPUの初期費用だけで100億円強である。8億円ではない。
— Odashi (@odashi_t) January 28, 2025
一方で消費GPU時間をABCI換算すると約6億円になり、全設定が判明しているなら(ありえない)もっと安くモデルが作れる。
それを加味しても先駆者である OpenAI よりも後発は有利で、先行技術の利用などによって遥かに少ないコストで開発できると考えられます。
ただし公開情報を組み合わせただけでなく、相当程度の技術開発を行っており、主要な成果は論文として公開されています。
OpenAIの研究責任者Mark Chen氏が「DeepSeekの論文は、OpenAIが独自に見出した中核となるアイデアのいくつかを、DeepSeekも独自に見つけたことを示してる」と認めた
— 小猫遊りょう(たかにゃし・りょう) (@jaguring1) January 28, 2025
一連のポストで「今後、事前学習と推論の両方で積極的に計算資源を投入」と宣言
今四半期と年内に、より優れたモデルを届けると主張 https://t.co/XUkLwcKrGf
論文の要約と解説記事です。
DeepSeek は学習の実装を公開していませんが、論文を基にして Open-R1 という再現プロジェクトが進行しています。
「再現の最初のステップは、評価スコアを一致させることです。私たちは、DeepSeek が報告した MATH-500 ベンチマークの結果を再現することに成功しました。」との事。https://t.co/YmJBm5NJot
— Akira Sasaki (@gclue_akira) February 3, 2025
DeekSeek R0の再現にほぼ成功って感じですね。…
実際、Open-R1 を利用して推論能力がないモデルに推論能力を付与することができています。
【🚀Launch Anaunce🚀】
— ホーダチ | AI✖️Cloud✖️Dev | 外資×ひとり法人 (@hokazuya) January 27, 2025
phi-4-open-R1-Distill-EZOv1
phi-4をベースに、「open-r1」を用いて、SFTのみを行ったモデルをローンチです。
GRPOをこの後することもできますが、様々なフェーズで、挙動や性能が大きく変わるのでいったんこのフェーズで。… pic.twitter.com/gUBhn4fcR2
現実需要と LLM のコモディティ化
現在の最先端技術が目指す AGI(汎用人工知能)のような高度な目標と比べ、大多数の利用ケースでは GPT-4 程度の性能で十分であると考えられます。また、DeepSeek が公開したモデルや論文により、模倣するハードルは大幅に下がっています。
このような背景の中、LLM が徐々にコモディティ化していくと考えられます。
特に「o1 クラスの性能を持つ LLM の出力を使って、オンデバイスで動かせる小型蒸留 LLM を作り、実際に大幅に性能をブーストできることが証明された」ことも大きくて、フロンティアモデルは厳しくても、GPT-4 クラスの LLM がコモディディ化するのは確定路線になったと思う
— Torishima / INTP (@izutorishima) January 30, 2025
日用品や家電製品の多くが中国製であるのと同様の状況が、LLM の分野でも起きるかもしれません。
GPU
DeepSeek の学習には、中国への輸出規制に伴い性能を制限した NVIDIA H800 という GPU が使われています。H800 をフル活用するため、CUDA よりも低レイヤの PTX によるチューニングを行ったようです。
このことが AI 開発に最高性能の GPU が必要ないのではないかという疑念を生み、NVIDIA の株価に影響を与えたとされています。
Anthropic の ダリオ・アモデイ CEO は、アメリカが中国との AI 開発競争で優位に立つため、GPU の輸出規制は続けるべきだと主張しています。
Anthropic Dario Amodeiは中国にAGI開発競争で負けないためにAGI開発(データセンターの天才たちの国)に必要な数百万台のgpuを中国が集められないような輸出規制の重要性を強調。
— bioshok(INFJ) (@bioshok3) January 29, 2025
・deepseek… https://t.co/4QIhDsHb31
一方、Huawei は Ascend 910C という AI チップを開発しています。
DeepSeek は推論にこの Ascend 910C を使用しているという情報があります。
I feel this should be a much bigger story: DeepSeek has trained on Nvidia H800 but is running inference on the new home Chinese chips made by Huawei, the 910C. pic.twitter.com/6IAgQlQ3ou
— Alexander Doria (@Dorialexander) January 28, 2025
インターコネクトが弱いため、まだ学習には使えないようです。
なんで910Cで推論だけやってトレーニングには使わないの?というと、GPUをパラレルに繋ぐ機能がまだ910Cは不十分だかららしい →RT
— うみゆき@AI研究 (@umiyuki_ai) January 28, 2025
このチップは中国国内で開発されたもので、GPU の輸出規制の影響を受けにくいインフラを整えつつあります。もし輸出規制が更に強化されたとしても、弱点だった機能を強化することで競争力を維持する可能性があります。
HuaweiのAscend 910Cは、NVIDIA H100に席巻するという触れ込み。
— Kai INUI (@_kaiinui) January 28, 2025
910BまではTSMCだったが、Cからは中国のファウンドリでの製造になったみたい。
輸出規制も相まって、このままいくと中国AIはTSMCへの依存すら克服し、独自発展を遂げてしまいそうな雰囲気も感じてる。
僕でもNVidia心配になってきたのでNVidiaはただちに追加の言い訳しないとヤバいよ。「学習に必要なGPUが減っても推論スケーリング時代だからAIの長考のためにGPUはますます必要に…」「でも推論ならファーウェイのチップで済むらしいが?」「ぐぬぬ」
— うみゆき@AI研究 (@umiyuki_ai) January 28, 2025
なお、DeepSeek に中国語で話しかけると、Ascend 910B を使っているという回答が引き出せるようです。
#生成AIネタ 101話
— 創:起業+IT+マーケ系-生成AI/AWS,VPS等インフラ/プログラミング/SEO等が中心話題 (@hikarine3) January 28, 2025
DeepSeekに対する裏話
①英語と中国で同じ事聞いても答えが異なる事ある。「DeepSeekの仕組みについて」中国語で聞いたら詳しく教えてくれる
✅中国のファーウェイのAscend 910Bチップを大量利用。性能はNVIDIAのA100の80%水準だが、価格は30%… pic.twitter.com/YjDnKGAeih
DeepSeek と Huawei は協力関係にあるようです。
DeepSeek は中国製チップの黄金時代を引き起こす可能性がある: - DeepSeek V3は、初日からHuawei Ascendチップの推論をサポートします。 - Huawei 910C(NvidiaのH100の競合製品)は、トレーニングと推論の両方を実行できます。 - Nvidia の重要な防御壁は CUDA (ソフトウェア + エコシステム)… https://t.co/S97vIeh1e7
— GOROman (@GOROman) February 2, 2025
開発体制
DeepSeek の 梁文峰 CEO へのインタビューのまとめです。
ヘッジファンドが母体となって、自己資金で運用されているようです。
・DeepSeek はHigh-Flyer というヘッジファンドのR&D部門としてスタートした
— Rintaro Yamauchi (@jof_5) January 26, 2025
・DeepSeek では職務経験より能力重視。DeepSeek のリサーチチームは大学を卒業したばかりのPhD保有者で構成
・一般的な中国のAI企業がGPUのハードフェアにリソースを投下する一方で、Deep Seek…
開発チームは 100 人規模で、留学経験者はいないようです。
DeepSeekの開発チームは留学経験者ゼロらしい。純粋に中国でのみ教育を受けた方々。
— Spica (@CasseCool) January 29, 2025
優秀な人がMITやバークレーに集まるというのは幻想で今後ますますUS離れしていく。トランプ第1期で中国人留学生を締め出した時にAIでのUSの敗北は決まったんじゃないかね。 https://t.co/UGcldPV1cF
羅福莉さんという天才的な女性開発者が話題になりました。
DeepSeek開発チームを牽引 「AI神童」と中国メディアに呼ばれるLuo Fuli 29歳
— Spica (@CasseCool) January 29, 2025
北京師範大学でコンピュータサイエンスを専攻。最初は劣等生だが次第に頭角を現わし、北京大学の計算言語学研究所に進む。ACLで8本の論文を発表した実績からXiaomiとの争奪戦の末Alibabaに就職… pic.twitter.com/hF9GUj2jDu
DeepSeekのAI開発プログラマのLuo Fuliさん。四川省の田舎の貧しい家庭に育ち中堅大学に入り電気工学を専攻。大学院で北京大学に行き頭角を表す。最近、Xiaomiに年収2億円ぐらいで引き抜かれたそうです。中国は教育システムがしっかりしていますね。pic.twitter.com/a2Q6TrLBqc
— Kazuki Fujisawa (@kazu_fujisawa) February 1, 2025
まとめ
Semianalysis による分析の要約です。ここまで断片的に述べてきた事項がまとめられています。
SemianalysisによるDeepSeekの分析がとんでもなく深かったのでまとめました。
— d (@rom13856511) January 31, 2025
・DeepSeekはここ1週間、ClaudeやPerplexity、Geminiを上回る日次トラフィックを獲得している
・ただしDeepSeek自体は新興企業ではなく、これまであまり注目されなかっただけで、以前からAI界隈では言及していた…
その他
性能面で Llama が追い抜かれたため、Meta に影響が出ているようです。
DeepSeek V3 がオープンで公開された時点で Llama 4 の性能を越されちゃった上に、高給取りの Llama 開発リーダーらの給料より少ない額のトレーニングコストで完成させた事実に Meta 社内が震撼してるらしい(しかも追い討ち掛けるように R1 が出てきた…)
— Torishima / INTP (@izutorishima) January 24, 2025
固定化してた勢力図が完全に変わりそう https://t.co/bXEiYPfIpD
日本での日常業務に影響が及びそうな事柄がまとめられています。