見出し画像

【最新AIニュースをお届け】DeepSeekと輸出規制について

ポイント

DeepSeekと輸出規制

  • DeepSeekの技術力: 中国のAI企業DeepSeekは、米国の最先端AIモデルに近い性能を低コストで実現するモデル「DeepSeek-V3」や「R1」をリリース。

  • 輸出規制の役割: 米国の輸出規制は、民主主義国家がAI開発で優位性を保つために重要。

  • 規制強化の必要性: DeepSeekの進展は規制の失敗を意味するものではなく、むしろ規制の厳格な実施の必要性を示す。

AI開発の基本ダイナミクス

  1. スケーリング法則: 投資規模が大きくなるほどAIモデルの性能が向上。

  2. 曲線のシフト: 技術やハードウェアの改善がトレーニングコストを削減。

  3. パラダイムの転換: 強化学習(RL)が新たな性能向上の焦点に。

DeepSeekの特性と課題

  • トレーニングコスト: DeepSeekは米国モデルより安価に開発を実現。ただし、これは通常のコスト削減傾向の範囲内。

  • 技術革新: エンジニアリング効率の改善(例: 「キー・バリューキャッシュ」技術)で注目。

  • 米国との差: DeepSeekのモデルは性能面で米国のClaude 3.5 Sonnetなどに劣る。

地政学的リスクと輸出規制

  • 二極化と一極化の世界: 中国が十分な半導体チップを入手できれば、米国と中国が競争する「二極化した世界」に。防げれば「一極化した世界」に。

  • 輸出規制の影響: 規制が効果を発揮すれば、中国のAI開発を制限可能。

結論

  • 規制の適応性: 規制は抜け道を速やかに閉じることで効果を発揮。

  • 倫理的配慮: AI技術の軍事利用を防ぐため、技術の公平な利用と規制の遵守が必要。

本文

数週間前、私は中国向け半導体輸出規制を強化すべきだという主張を行った。その後、中国のAI企業であるDeepSeekが、少なくともいくつかの点で、アメリカの最先端AIモデルに近いパフォーマンスを、より低コストで実現することに成功した。

ここでは、DeepSeekがAnthropicのようなアメリカのAI企業にとって脅威であるかどうかについては議論しない(ただし、彼らがアメリカのAIリーダーシップに対して脅威であるという多くの主張は大げさであると私は考えている)(1)。その代わりに、DeepSeekの成果が、半導体の輸出規制政策の正当性を損なうかどうかに焦点を当てたいと考えている。私の結論としては、それは輸出規制政策の正当性を損なうどころか、むしろこれまで以上にその重要性を高めていると考えている(2)。

輸出規制の重要性

輸出規制は重要な目的を持っている。それは、民主主義国家がAI開発の最前線に立ち続けることを確保することである。これは、アメリカと中国の競争を回避するための手段ではない。最終的には、アメリカやその他の民主主義国家のAI企業が中国の企業よりも優れたモデルを開発しなければ、競争に勝利することはできない。しかし、必要のない限り、中国共産党に技術的な優位性を与えるべきではない。

AI開発における3つの基本的なダイナミクス

政策論を展開する前に、AIシステムにおける3つの基本的なダイナミクスを説明したい。これを理解することが極めて重要である。

1. スケーリング法則

AIの特性の一つとして、すべての条件が同じであれば、AIシステムのトレーニングを拡大することで、認知タスク全般にわたり結果が滑らかに向上するというものがある。この特性について、私と共同設立者たちはOpenAIで働いていた頃に最初に文書化したメンバーの一人である。

たとえば、1百万ドルのモデルが重要なコーディングタスクの20%を解決できるとすれば、10百万ドルのモデルは40%、100百万ドルのモデルは60%を解決できる、といった具合である。これらの違いは実際には非常に大きな影響を持つ。さらに10倍の差が、学部生レベルのスキルと博士号レベルのスキルの違いに相当することもある。そのため、企業はこれらのモデルのトレーニングに多大な投資を行っている。

2. 曲線のシフト

この分野では、物事をより効果的または効率的にするための大小さまざまなアイデアが常に生み出されている。それはモデルのアーキテクチャの改善(現在のすべてのモデルが使用している基本的なトランスフォーマーアーキテクチャの微調整)であったり、単純にモデルを基盤となるハードウェア上でより効率的に動作させる方法であったりする。また、新世代のハードウェアも同様の効果をもたらす。これらが通常引き起こすのは、曲線のシフトである。たとえば、あるイノベーションが「2倍の計算能力向上(コンピュートマルチプライヤー、CM)」をもたらす場合、それにより、コーディングタスクで40%の性能を得るためにかかるコストが1000万ドルから500万ドルに削減されるかもしれない。または、60%の性能を得るためのコストが1億ドルから5000万ドルになる、といった具合である。最先端のAI企業は、このようなCMを定期的に発見しており、小さな改善(約1.2倍)が頻繁に見つかり、中規模の改善(約2倍)が時々見つかり、ごくまれに非常に大きな改善(約10倍)が見つかることもある。

より知的なシステムを持つことの価値が非常に高いため、このような曲線のシフトは通常、企業がモデルのトレーニングにかける費用を減らすのではなく増やす方向に働く。コスト効率の向上はすべて、よりスマートなモデルのトレーニングに完全に費やされ、企業の財務リソースが唯一の制限要因となる。人々は自然と「最初は高価だったものが、後に安くなる」という考えに惹かれがちである。まるでAIが一定の品質を持つ単一のものであり、コストが安くなれば、それをトレーニングするためのチップが少なくて済むかのように。しかし、重要なのはスケーリング曲線である。その曲線がシフトすると、私たちは単にそれをより速く進むようになる。なぜなら、曲線の末端にあるものの価値が非常に高いからである。

2020年、私のチームはアルゴリズムの進歩による曲線のシフトが年平均約1.68倍であるという論文を発表した。それ以来、このスピードは大幅に加速していると考えられる。また、この推定値には効率やハードウェアの進化が考慮されていない。今日の数値は年平均約4倍かもしれないと考えている。別の推定値も存在する。トレーニング曲線のシフトは推論曲線にも影響を与えるため、モデルの品質を一定に保ちながらの価格の大幅な低下が数年間にわたり発生している。例えば、Claude 3.5 Sonnetは、オリジナルのGPT-4より15か月後にリリースされたが、ほぼすべてのベンチマークでGPT-4を上回るスコアを記録しながら、API価格は約10分の1となっている。

3. パラダイムの転換

時折、スケールアップされる対象そのものが若干変化したり、トレーニングプロセスに新たな種類のスケーリングが加えられることがある。2020年から2023年にかけて、主にスケールアップの対象となっていたのは事前学習モデルであった。これらのモデルは、インターネット上の膨大なテキストデータを基に訓練され、その後に少量の追加トレーニングを受けるという形式を取っていた。しかし、2024年に入ると、強化学習(Reinforcement Learning, RL)を活用してモデルに「思考の連鎖」を生成させるというアイデアが、新たなスケーリングの焦点となった。AnthropicやDeepSeek、そして最も注目されるOpenAI(2024年9月に「o1-previewモデル」をリリース)が、このトレーニング手法を通じ、数学やプログラミングコンテスト、およびこれらに類似する推論能力が求められる特定のタスクにおいて、客観的に測定可能な大幅な性能向上を実現した。

この新しいパラダイムは、従来の事前学習モデルを出発点とし、第2段階でRLを使用して推論能力を付加するというものである。重要なのは、この種のRLがまだ新しい技術であり、スケーリング曲線の非常に初期段階に位置しているという点である。第2段階のRLトレーニングに投入される資金は、どの企業でもまだ少額であり、わずか100,000ドルから1,000,000ドルを投資するだけで大きな成果を得ることが可能である。現在、各企業はこの第2段階を数億ドル、さらには数十億ドル規模までスケールアップしようと急速に動いている。しかし、ここで理解すべき重要なポイントは、この非常に強力な新しいパラダイムがスケーリング曲線の初期段階にあり、短期間で大きな成果を上げられる「クロスオーバーポイント」に位置しているということだ。

DeepSeekのモデル

上記の3つのダイナミクスを考慮すると、DeepSeekの最近のリリースについての理解が深まる。約1か月前、DeepSeekは「DeepSeek-V3」というモデルをリリースした。これは、上記で説明した第1段階のみに該当する純粋な事前学習モデルである。そして先週、「R1」というモデルをリリースしたが、これは第2段階を追加したものである。外部からこれらのモデルについて全てを詳細に把握することは難しいが、以下はこれらのリリースに関する私の最善の理解である。

DeepSeek-V3こそが、実際には本当の革新であり、1か月前に注目されるべきものであった(筆者のチームは確実に注目していた)。事前学習モデルとして、いくつかの重要なタスクにおいて最先端の米国モデルに近い性能を示している一方で、トレーニングコストが大幅に低いという特徴を持っている。(ただし、特にClaude 3.5 Sonnetは、現実世界のコーディングのような他の重要なタスクでははるかに優れていると筆者は見ている。)DeepSeekのチームは、主にエンジニアリング効率に焦点を当てた本物で印象的なイノベーションを通じてこれを実現した。特に、「キー・バリューキャッシュ」と呼ばれる要素の管理における革新的な改善や、「専門家の混合(Mixture of Experts)」と呼ばれる手法を従来よりもさらに進化させることに成功している。

しかし、さらに深く掘り下げて検討すべき点がある。 DeepSeekは、「アメリカのAI企業が数十億ドルを費やしたことを600万ドルで実現した」というわけではない。私はAnthropicについてしか詳しく話せないが、Claude 3.5 Sonnetは中規模のモデルであり、そのトレーニングには数千万ドルがかかった(正確な数字は言えないが)という規模感である。また、3.5 Sonnetのトレーニングには、より大きなモデルや高額なモデルを用いるといった手法は一切使われていない(一部の噂とは異なる)。Sonnetのトレーニングは9~12カ月前に行われたものであり、DeepSeekのモデルがトレーニングされたのは昨年の11~12月とされている。一方で、評価結果(内部・外部ともに)では、Sonnetが依然として大きくリードしている。したがって、「DeepSeekは、アメリカのモデルより7~10カ月遅れの性能を、かなり低コストで実現した(ただし、噂ほどの大幅なコスト差ではない)」という表現が妥当であると考えられる。

もしコスト削減の歴史的な傾向が年間約4倍であると仮定するなら、通常のビジネスの流れの中で、2023年や2024年に見られたようなコスト削減の傾向が続く場合、現在では3.5 SonnetやGPT-4oのモデルより3~4倍安価なモデルが期待されることになる。DeepSeek-V3はこれらのアメリカの最先端モデルより性能が劣る(スケーリングカーブで約2倍程度の差があると仮定、これはDeepSeek-V3にとって寛大な評価だと思われる)ため、DeepSeek-V3のトレーニングコストが1年前に開発されたアメリカのモデルの約8倍安価であるなら、それは完全に「通常の傾向」に沿ったものであると言える。具体的な数字は言えないが、上記の内容から考えるに、DeepSeekのトレーニングコストをそのまま信じたとしても、これはせいぜい「傾向どおり」であり、それ以下である可能性すらある。たとえば、これは元のGPT-4とClaude 3.5 Sonnetの推論コスト差(10倍)ほど急激なものではなく、しかも3.5 SonnetはGPT-4より優れたモデルである。つまり、DeepSeek-V3はLLM(大規模言語モデル)の経済性を根本的に変えるような独自のブレイクスルーではなく、進行中のコスト削減曲線上の予想されるポイントに過ぎない。違いがあるとすれば、今回、そのコスト削減を最初に示したのが中国の企業であったという点である。これはこれまでになく地政学的に重要な出来事である。しかし、アメリカの企業もすぐに追随するだろう—そして、それをDeepSeekを模倣することで達成するのではなく、自分たちも通常のコスト削減傾向を達成しているからである。

DeepSeekも、アメリカのAI企業も、主力モデルのトレーニングに使用している資金やチップの数は以前よりはるかに多くなっている。これらの追加のチップは、モデルの背後にあるアイデアを開発するための研究開発(R&D)に使用されることが多く、時にはまだ完成していないか、何度か試行が必要な大規模モデルのトレーニングにも使用される。報道によると(確実な情報ではないが)、DeepSeekは実際に50,000枚のHopper世代のチップを所有していたそうである。この数は、主要なアメリカAI企業が所有するチップ数の約2~3倍少ないと推定される(たとえば、xAIの「Colossus」クラスタの2~3倍少ないとされている)。その50,000枚のHopperチップのコストは約10億ドル程度と推定される。このことから、DeepSeekの会社全体としての支出(個々のモデルのトレーニングコストとは別)は、アメリカのAI研究所と比較して劇的に異なるわけではないと言える。 「スケーリング曲線」の分析はやや単純化されていることに注意が必要である。モデルにはそれぞれ異なる特徴や強み・弱みがあり、スケーリング曲線の数値はこれらの詳細を無視した粗い平均値に過ぎない。筆者が話せるのはAnthropicのモデルについてだけであるが、前述したように「Claude」はコーディングに非常に優れており、人とのインタラクションにおいて洗練されたデザインを持っている(多くの人が個人的なアドバイスやサポートのために使用している)。これらやその他のいくつかのタスクにおいて、「DeepSeek」とは比較にならない。こうした要素はスケーリング曲線の数値には現れない。

先週リリースされ、大きな注目を集めたモデル「R1」(これによりNvidiaの株価が約17%下落したとも言われている)は、技術革新やエンジニアリングの観点から見ると「V3」ほど興味深いものではない。「R1」は訓練の第2フェーズ(前節の#3で述べた強化学習)を追加したもので、本質的にはOpenAIが「o1」で行ったことを再現しているようだ(スケールと結果が類似しているように見える)。ただし、スケーリング曲線の初期段階にいるため、強力な事前学習モデルを持っていれば、複数の企業がこのタイプのモデルを生産することが可能である。「V3」から「R1」を生み出すコストはおそらく非常に低かっただろう。そのため、現在は「クロスオーバーポイント」とも言える興味深い段階にある。つまり、一時的に複数の企業が優れた推論モデルを生産できる状況にあるということだ。しかし、各社がこれらのモデルのスケーリング曲線をさらに上に進めるにつれて、この状況は急速に変わるだろう。

輸出規制について

これまで述べたことは、筆者が特に関心を持つテーマ、つまり中国への半導体チップの輸出規制を考える前提に過ぎない。これを踏まえた上で、筆者は次のように状況を見ている:

企業が強力なAIモデルの訓練に費やす金額は増加し続けている。一方で、スケーリング曲線が定期的にシフトし、特定の知能レベルのモデルを訓練するコストが急速に低下するというトレンドも見られる。ただ、より高度な知能を持つモデルを訓練することの経済的価値が非常に大きいため、コスト削減のメリットはすぐに吸収され、元々計画していた多額のコストがさらに賢いモデルの開発に再投資されるのだ。

米国の研究機関がまだ発見していない範囲であれば、DeepSeekが開発した効率性向上の技術革新は、米国および中国の研究機関によってすぐに適用され、数十億ドル規模のモデルを訓練することになるだろう。これらのモデルは、以前計画されていた数十億ドル規模のモデルよりも高性能だが、それでも訓練には数十億ドルが費やされる。この金額は今後も増加し続け、最終的にはほぼすべての面でほぼすべての人間よりも賢いAIが生み出される段階に到達するだろう。

ほぼすべての人間よりも賢いAIを作るためには、数百万個のチップと最低でも数百億ドルが必要となり、実現するのはおそらく2026年から2027年頃になると予想される。DeepSeekのリリースはこれを変えるものではなく、これまでの計算に常に織り込まれていたコスト削減曲線に沿ったものだからである。 これは、2026年から2027年にかけて、私たちが2つの全く異なる世界のいずれかに直面する可能性を示唆している。アメリカでは、複数の企業が確実に必要な数百万個のチップを(数百億ドルのコストをかけて)確保するであろう。問題は、中国もまた数百万個のチップを手に入れることができるかどうかである。

もし中国がそれを実現できれば、アメリカと中国の双方が強力なAIモデルを持つ「二極化した世界」に生きることになる。このような世界では、科学と技術の進歩が極めて速く進むことになり、いわゆる「データセンターにおける天才国家」の状況が生まれる。しかし、二極化した世界が永続的に均衡を保つとは限らない。仮にアメリカと中国がAIシステムで同等の力を持ったとしても、中国はこの技術の軍事的応用により多くの人材、資本、集中力を投入できる可能性がある。このことに加え、中国の大規模な産業基盤や軍事戦略上の優位性を考慮すれば、AIだけでなくその他すべての分野で中国が世界の舞台で圧倒的なリードを取る可能性がある。

一方で、中国が数百万個のチップを手に入れられなければ、(少なくとも一時的には)アメリカとその同盟国だけがこれらのモデルを持つ「一極化した世界」に生きることになる。この一極化した世界がどれだけの期間続くかは不明であるが、AIシステムがさらに賢いAIシステムを作るのを助けることが最終的に可能であるため、一時的なリードが長期的な優位性へとつながる可能性もある。この場合、アメリカとその同盟国が世界の舞台で圧倒的かつ持続的なリードを取る可能性がある。

中国が数百万個のチップを手に入れるのを防ぐためには、厳格に実施された輸出規制が唯一の手段であり、それが私たちが一極化した世界になるか、二極化した世界になるかを決定する最も重要な要因となる。

DeepSeekのパフォーマンスが輸出規制の失敗を意味するわけではない。前述の通り、DeepSeekは中規模から大規模のチップを保有しており、強力なモデルを開発し、訓練することができたのは驚くべきことではない。彼らはアメリカのAI企業と比較して資源面で大幅に制約を受けたわけではなく、輸出規制が彼らを「革新」させた主な要因でもない。彼らは単に非常に優れた技術者であり、中国がアメリカにとって真剣な競争相手である理由を示しているのである。 DeepSeekはまた、中国が密輸を通じて常に必要なチップを入手できるわけでもなく、規制には常に抜け道があるわけでもないことを示していない。輸出規制が中国が数万個のチップを手に入れるのを完全に防ぐことを目的としていたとは考えにくい。10億ドル規模の経済活動を隠すことは可能かもしれないが、100億ドルやそれ以上を隠すのは難しい。また、100万個のチップを密輸するのは物理的に困難である可能性もある。

現在、DeepSeekが保有していると報告されているチップについても注目すべきである。SemiAnalysisによると、これはH100、H800、H20の混合構成で、合計5万個に達するとされている。H100はそのリリース時点から輸出規制の対象となっているため、もしDeepSeekがこれを保有しているのであれば、それは密輸されたものであると推測される(NvidiaはDeepSeekの進展が「完全に輸出規制に準拠している」と述べている)。H800は2022年の最初の輸出規制では輸出が許可されていたが、2023年10月の規制更新時に禁止された。したがって、これらはおそらく規制が強化される前に出荷されたものである。H20はより効率的なトレーニングには適していないが、サンプリングには効率的であり、現在も輸出が許可されている。しかし、これも禁止されるべきだと考える。

つまり、DeepSeekのAIチップの保有状況は、まだ禁止されていない(が禁止されるべき)チップ、禁止される前に出荷されたチップ、および密輸された可能性が高いチップで構成されているように見える。これにより、輸出規制が実際に機能し、適応していることが示されている。抜け道が閉じられていることから、もしこれが閉じられていなければ、DeepSeekは最先端のH100を大量に保有している可能性が高いだろう。抜け道を十分速く閉じることができるならば、中国が何百万ものチップを入手するのを防ぎ、米国がリードする単極的な世界の実現可能性を高めることができるかもしれない。

輸出規制と米国の国家安全保障に焦点を当てている私として、ある点を明確にしておきたい。私はDeepSeekそのものを敵視しているわけではなく、彼らを特別に標的にすることを目的としているわけでもない。彼らが行ったインタビューを見る限り、彼らは有用な技術を作りたいだけの賢く好奇心旺盛な研究者のようである。

しかし、彼らは人権侵害を行い、国際舞台で攻撃的な行動を取ってきた権威主義的な政府に従属しており、その政府がAIで米国に匹敵する能力を持った場合、さらにその行動が抑制されなくなるであろうことは明らかである。輸出規制はこれを防ぐための最も強力な手段の一つであり、技術がより強力になり、コストパフォーマンスが向上することが輸出規制を緩和する理由になるという考えは全く理にかなっていない。

脚注

(1) このエッセイでは、Westernモデルからの蒸留に関する報告について立場を取るつもりはない。ここでは、DeepSeekが論文で述べた通りにモデルを訓練したという彼らの言葉をそのまま受け取る。↩

(2) ちなみに、DeepSeekモデルのリリースがNvidiaにとって明らかに悪い影響を与えるものではないと考えている。このリリースに対する反応として同社の株価が二桁(~17%)下落したのは不可解である。このリリースがNvidiaにとって悪い影響を与えないというケースは、AI企業にとって悪い影響を与えないというケースよりもさらに明確である。しかし、この文章の主な目的は輸出規制ポリシーを擁護することにある。↩

(3)完全に正確に言えば、これは推論パラダイムの転換が起こる前に一般的だった、少量の強化学習(RL)トレーニングを施された事前学習済みモデルである。

(4)これは非常に限られたタスクにおいてはより強力である。

(5)これはDeepSeekの論文で引用されている数値であり、私はこれをそのまま受け入れており、その部分について疑っていない。ただし、米国企業のモデルトレーニングコストとの比較や、特定のモデルをトレーニングするコスト(600万ドル)と全体的な研究開発(R&D)コスト(これははるかに高額である)の区別については疑問がある。ただし、この600万ドルという数字に関しても完全には確実ではない。モデルのサイズは検証可能であるが、トークンの量など他の要素は検証が難しい。

(6)いくつかのインタビューで、「彼らは『50,000個のH100』を持っている」と述べたことがあるが、これは報道を少し誤って要約したものであり、ここで訂正したいと思う。最もよく知られている「ホッパーチップ」はH100で(これが指されていると思い込んでいた)、しかしホッパーにはH800やH20も含まれている。そしてDeepSeekはこれら3つを混在させ、合計で50,000個を持っていると報じられている。この修正は状況を大きく変えるものではないが、訂正の価値がある。H800とH20については、輸出規制の話題でさらに詳しく述べる。

(7)注意: 私はこのギャップが次世代のクラスターでは輸出規制の影響で大幅に拡大すると予想している。

(8)R1がこれほど多くの注目を集めた主な理由の1つは、ユーザーにモデルが示す「思考の連鎖(チェーン・オブ・ソート)」推論を初めて見せたモデルだったことだと私は推測している(OpenAIのo1は最終的な答えだけを表示する)。DeepSeekは、ユーザーがこれを興味深いと感じることを示した。明確にしておくと、これはユーザーインターフェースの選択であり、モデルそのものとは関係ない。

(9)注: 中国独自のチップは、米国製のチップと競争できるようになるにはまだ時間がかかるだろう。最近マット・ポッティンジャー氏との共同寄稿で書いたように、「中国の最高のAIチップであるHuawei Ascendシリーズは、米国のNvidiaが製造した先進的なチップに比べて大幅に性能が劣る。また、中国が増大する需要に対応できる生産能力を持っているとも限らない。現在、中国国外でHuawei Ascendチップの注目すべきクラスターは1つも存在しておらず、中国が国内需要を満たすのに苦労していることを示唆している…」。

(10)明確にしておくと、ここでの目的は、中国や他の権威主義的な国々が非常に強力なAIシステムから得られる科学、医学、生活の質の向上などの莫大な利益を享受することを否定することではない。AIの恩恵は誰もが享受すべきである。ただし、彼らが軍事的優位性を獲得することを防ぐことが目標である。

(11)いくつかのリンクがある。これまでにいくつかの段階があった。以下に主要な行動のいくつかを挙げる: One, Two, Three, Four。

元記事

https://darioamodei.com/on-deepseek-and-export-controls