
DeepSeek vs AIメガクラスタ:レックス・フリードマン解説
最先端のテクノロジーとAI動向に焦点を当てたレックス・フリードマン・ポッドキャスト第459回を解説します。レックス・フリードマンはMITの研究者としても知られ、多彩なゲストとの対話を通じて、科学技術や未来の可能性を深く掘り下げる人気番組を展開中です。本回のトーク相手は、半導体、GPU、CPU、AIハードウェアを専門とする調査分析会社SemiAnalysisの創設者であるDylan Patel氏と、Allen Institute for AI(Ai2)の研究科学者であり、AIに関するブログ「Interconnects」の著者であるNathan Lambert氏です。
AIの低コストトレーニング:DeepSeekの技術革新
近年、AIのトレーニングコストは爆発的に増加しており、計算資源をいかに効率的に活用するかが重要な課題となっています。特に、大規模言語モデル(LLM)の開発には莫大な計算量が必要とされるため、トレーニングコストを抑える技術が注目されています。
DeepSeekが採用している「低コストトレーニング」には、主に2つの重要な技術があります。
Mixture of Experts(MoE)
従来の大規模言語モデルは「密なモデル(Dense Model)」と呼ばれ、すべてのパラメータが一度にアクティブになる設計になっています。例えば、MetaのLlama 70Bの場合、70億個のパラメータが常に計算に使用されます。
一方で、DeepSeekは「Mixture of Experts(MoE)」という技術を採用しています。MoEは、人間の脳のように異なるタスクに応じて特定の専門家(エキスパート)を活性化する仕組みです。例えば、DeepSeekのモデルは6000億パラメータを持ちながらも、実際にアクティブになるのは370億パラメータのみです。この仕組みにより、計算コストを大幅に削減しながらも、高い性能を維持することができます。
MLA(Multi-head Latent Attention)
もう一つの重要な技術が、MLA(Multi-head Latent Attention)です。これは、従来のTransformerモデルの注意機構を最適化し、トレーニング時のメモリ使用量を削減する技術です。具体的には、低ランク近似(Low-rank Approximation)を用いることで、計算負荷を減らしながら高精度な注意メカニズムを維持することが可能になります。
この技術は、特に長いコンテキストを持つデータを処理する際に大きな効果を発揮します。たとえば、従来の注意機構では、入力長が増えるほど計算コストが二乗的に増加してしまいますが、MLAを活用することでメモリ消費を抑えつつ高速な処理が可能になります。
低コスト化のインパクト
これらの技術の導入により、DeepSeekは従来の大規模モデルと比較して、約30%の計算コスト削減を達成しています。このような技術革新により、AIのトレーニングはより経済的かつ効率的に行われるようになり、企業や研究機関がより手軽に強力なAIを開発できるようになります。
また、これらの技術はOpenAIやAnthropicといった他の研究機関にも影響を与え、今後さらに多くの企業がMoEやMLAを採用する可能性が高いと考えられます。
DeepSeekのOpenAIデータ利用についての解説
DeepSeekがOpenAIのデータを利用しているという話題が、近年のAI業界で注目されています。特に、DeepSeekがOpenAIのAPIを通じてデータを取得し、それを基にモデルを訓練しているという指摘がなされています。
OpenAIのデータを利用したトレーニング手法
DeepSeekは、OpenAIのモデルを活用し、その出力を収集して自身のモデルの訓練に利用しているとされています。この手法は「蒸留(distillation)」(注01)と呼ばれ、より強力なモデルからデータを抽出し、それを元に新しいモデルを構築するという一般的な技術です。多くのAI企業がこの手法を活用しており、特にリソースの限られた企業にとっては効率的な学習方法となります。
この手法自体は産業界では標準的なものであり、多くの研究者や企業が用いています。ただし、問題となるのは、利用しているデータがOpenAIの利用規約に違反している可能性がある点です。
※注01:DeepSeekの蒸留については下記のNoteに詳しく解説していますので合わせてご覧ください。
倫理的・法的問題点
OpenAIの利用規約では、APIの出力を競合製品の開発に利用することを禁じています。しかし、AI業界では「競争相手(competitor)」の定義が曖昧であり、どこまでが許容範囲なのかが議論の対象となっています。また、OpenAIも過去にインターネット上の公開データを学習に利用してきたため、倫理的な観点からは二重基準ではないかという批判もあります。
さらに、OpenAIのデータを利用する場合、直接的にAPIを通じて取得するだけでなく、間接的な方法(例えば、他のユーザーが生成した出力をネット上で公開し、それを学習する)を用いることで規約違反を回避できるケースもあります。こうした方法が広まると、OpenAIが規約を厳格に適用することは困難になるでしょう。
AI業界における知的財産と競争の今後
AIの発展に伴い、知的財産の保護と技術の進歩のバランスをどのように取るかが重要な課題となっています。特に、オープンソースのモデルとクローズドな商用モデルの境界が曖昧になりつつあり、どの範囲までが許容されるのかは、今後の規制や法整備の進展次第です。
また、他の企業も同様の手法を用いていることが指摘されており、特定の企業だけが批判の対象となるわけではありません。実際に、MetaはLLaMA 3の開発において、405Bのモデルを報酬モデル(reward model)として活用したことを公表しています。このように、業界全体が同様の手法を活用しているため、OpenAIの規約がどこまで有効かについても議論が続いています。
Openai Vs Deepseek
OpenAI o3-miniとDeepSeek r1の違い
Lex FridmanのPodcast #459では、OpenAIのo3-miniとDeepSeekのr1について詳しく議論されました。両者の主な違いは、
推論能力 (Reasoning Models)
o3-miniは柔軟で幅広いタスクに対応できますが、特定の推論能力においてはDeepSeek r1よりも劣ると評価されました。
DeepSeek r1は数学やコードの推論に特化し、Instruction TuningやReinforcement Learning from Human Feedback (RHf) によって強化されています。
出力の質
OpenAIのo3-miniは「スマートで高速」ですが、深い哲学的な問いに対してはやや一般的な回答をしがちです。
DeepSeek r1は、推論プロセスを明示する「Chain of Thought (CoT)」を採用しており、推論の流れが明確に見える点が特徴です。
各モデルの哲学的問題への応答
Podcastでは、各モデルに対して「人間に関する本当に新しい洞察を1つ示せ」という質問を投げかけました。
DeepSeek r1の回答
「人間は利己的な欲望を協調システムに変換する能力を持つ。これにより、競争が社会の発展を促進する燃料となります。」
これは、貨幣や法律などの抽象的なルールが「集団的な幻想」として機能し、社会がそれを受け入れることで秩序が生まれるという視点です。
OpenAI o1 Proの回答
「人間は生物学的な資源を象徴的なリソースに変換し、それを再び物理世界に適用することで現実を再構築します。」
これは、意味と物質の間にフィードバックループがあり、人間の創造的な本質がそれを駆動するという洞察です。
OpenAI o3-miniの回答
「人間は固定された存在ではなく、継続的な物語であり、自己修正機能を持ちます。」
これは「Narrative Plasticity (物語的可塑性)」という概念を示し、経験や社会的要因によってアイデンティティが変化することを強調しています。
o3-miniの回答は興味深いですが、深い洞察にはあと一歩及ばないと評価されました。(注02)
※注02:この辺の数学的な推論力の弱さを補強するために昨日のDeep Researchリリースの運びになったのではないかと推論します。Deep Researchについては下記のNoteで詳しく解説していますので合わせてご覧ください。
OpenAIの推論モデルの進化と経済性
Podcastでは、OpenAIが推論をどのように強化しているかについても議論されました。
OpenAIは、並列推論 (Parallel Inference) による強化 を行っており、
01 Pro では「複数の推論を並列に走らせ、最適なものを選択する」という戦略を採用しています。
これは、AIの精度を高める一方で、コストが高いため、今後のコスト削減が鍵となります。
AIの計算コストの推移
GPT-3の推論コストは1Mトークンあたり$60でしたが、現在はわずか5セントにまで低下しました。
DeepSeekはこのトレンドの先端を行っており、「超低コストで高精度な推論」が競争力の要因となっています。
今後の展望
OpenAI o3-miniは現在の段階ではDeepSeek r1と比べて一部の推論タスクで劣るものの、
並列推論のさらなる最適化
推論モデルのトレーニング手法の進化
ハードウェアの進化によるコスト削減
これらにより、今後はより高度な推論能力を獲得すると考えられます。一方で、DeepSeek r1は「推論の透明性」と「数学・コードの強さ」を武器に市場での存在感を高めていく可能性があります。
AI推論の競争は、コスト、柔軟性、推論能力のバランスをどう取るかが鍵となります。今後の進展を見守る価値がありそうです。
GPU輸出規制とAIの地政学的影響
近年、米国政府は中国へのGPU輸出規制を強化しており、その影響がAI技術の進化や国際競争に与える影響が注目されています。特に、NVIDIAのH100やH800といった先端GPUがどのように規制され、どのように回避策が取られているのかが、Lex Fridman Podcast #459で詳細に議論されました。
GPU輸出規制の背景
米国政府は、GPUの輸出規制を「チップの相互接続性」と「浮動小数点演算性能(FLOPS)」の2つの要素に基づいて制限していました。しかし、その後「浮動小数点演算性能」のみを制限する形に移行しました。これにより、中国市場向けに開発されたH800は、H100と同等の計算性能を持つものの、通信帯域幅が大幅に制限される形となりました。
2022年10月の段階では、中国のAI企業はH800を利用して対策を講じることができましたが、2023年末から2024年にかけて、米国政府はH800の輸出を禁止しました。その結果、新たに開発されたH20は、計算性能が制限される一方で、通信帯域幅はH100と同等、あるいはそれ以上の性能を持つ仕様となっています。NVIDIAは規制の枠内で最大限の性能を引き出す設計を行い、中国市場向けの製品を提供し続けています。
なぜ米国はGPU輸出を制限するのか?
この輸出規制の根底には、AI技術がもたらす軍事的・経済的な影響への懸念があります。AIの進化によって、軍事力や経済成長において圧倒的なアドバンテージを得られる可能性があるため、米国は中国に対してGPUの供給を制限し、技術的なギャップを維持しようとしています。
米国政府の考え方として、「民主主義国家がAIによる軍事力を持つべきであり、権威主義国家にその力を持たせるべきではない」という戦略があるとされています。特に、AIの軍事利用が進めば、国際的なパワーバランスが大きく変わる可能性があり、AI技術の独占が国家安全保障の重要な要素となっています。
規制の影響と中国の対応
米国の規制が施行されたとしても、中国は完全にAIの進化を止められるわけではありません。例えば、DeepSeek V3は、2000基のGPUで最先端のAIモデルを開発することに成功しています。確かに大規模なAI訓練には大量のGPUが必要ですが、一定数のGPUがあれば最先端のAIモデルを開発することは可能です。
また、AI技術が発展すればするほど、「推論(Inference)」の重要性が増します。モデルの訓練には大規模な計算能力が必要ですが、推論フェーズでは異なる形での計算能力が求められます。OpenAIのGPT-4やAnthropicのClaudeなど、現在の大手AI企業が開発している技術は、推論時の計算量を最適化する方向に進んでいます。そのため、仮に訓練用のGPUが制限されたとしても、推論を効率的に行うことでAIの実用化は可能になります。
今後の展望
現在の米国の戦略は、中国のAI研究を遅延させることを目的としていますが、完全に封じ込めることは困難です。中国は独自のチップ開発を進めており、将来的には米国製GPUに依存しない体制を構築する可能性があります。ただし、短期的には米国の規制が中国のAI研究に大きな影響を与えることは確かです。
※NVIDIAのCUDAを使わないでなぜDeepSeekが実現できたかについては下記のNoteで詳しく解説していますので合わせてご覧ください。
AGIのタイムラインと展望
AGI(汎用人工知能)の到来時期について議論が交わされました。AnthropicのDario氏は、2026年には「ある程度エージェント的で、安全保障上の脅威となるようなAI」が登場すると予測しました。一方で、AGIの到来時期を正確に予測するのは困難であり、技術のブレイクスルーがどこで起こるかは予測しづらいという意見も示されました。
AGIが「核兵器の瞬間」とも称されるような地政学的インパクトをもたらすのは2030年以降になる可能性が高いとされています。現在でも、AI技術はインドやパキスタンの選挙に影響を与えるほど進展しており、偽の政治家の音声通話などが社会を混乱させています。米国のAI輸出規制も、ポルトガルやシンガポールといった同盟国にまで適用されるなど、世界的な緊張を高めています。
AI技術と軍事利用のリスク
中国はAI技術を軍事用途に活用する能力を米国よりも早く獲得する可能性があると指摘されています。特にドローン戦争の分野では、中国は米国を凌駕するスピードで技術を導入しており、将来的にAGIが軍事分野で利用された場合、中国が先行するリスクが懸念されています。
一方、現状のドローン戦争では、人間が操作するFPVドローンがAIを凌駕しており、完全に自律したロボット兵器の時代は2030年以降と見られています。ただし、サイバー戦争におけるAIの脅威はすでに顕在化しており、電力グリッドを攻撃し社会インフラを麻痺させる可能性も指摘されています。
中国と米国の半導体競争
AI技術の進化には高性能な半導体が不可欠です。米国は中国の半導体産業を制限するため、TSMC(台湾積体電路製造)の生産拠点を台湾から米国に移転させる試みを進めています。しかし、中国は圧倒的な産業能力を背景に、国内で大規模なデータセンターを建設し、AIチップの自国生産を推進しています。
現在の米国の輸出規制は、中国の最先端チップの製造を遅らせる効果はあるものの、中国は45nmや90nmといった成熟プロセスの半導体製造能力を急速に拡大しており、これが今後の競争にどのような影響を及ぼすかは不透明です。最終的に、中国が米国の規制を突破し、独自の先端半導体を製造できるようになるかどうかが、AI技術競争のカギとなります。
AIのインフラと電力制約
AIシステムの大規模運用には莫大な電力が必要です。OpenAIの「Stargate」プロジェクトは2GWの電力を必要とする巨大なデータセンターを計画していますが、中国はすでにこれを上回る産業施設を建設可能な能力を持っています。
米国のAIインフラは電力供給や送電網の制約に直面しており、一方で中国は継続的に新たな発電所を建設しています。AI技術競争は単なる半導体開発競争にとどまらず、電力インフラの拡充も重要な要素となっています。
深層学習モデルの進化とコストの問題
AIの推論(Inference)にかかるコストも大きな課題です。例えば、ChatGPTの高度なモデルの問い合わせには数セントのコストがかかりますが、AGIレベルの高度な推論を行うには1回の処理に5~20ドル以上のコストがかかると見積もられています。これは、現在のインフラではAGIを大規模に展開するのが現実的でないことを示しています。
DeepSeekの「R1」モデルは、こうしたコスト課題に対する革新的な解決策を提供する可能性があります。独自の「MLA注意機構(Multi-Head Latent Attention)」により、メモリ使用量を従来のAttention機構に比べて80~90%削減し、推論コストを大幅に削減することに成功しました。結果として、DeepSeek R1の推論コストはOpenAIのモデルに比べて27倍も低く、これはAI技術の商用化に大きなインパクトを与える可能性があります。
今後の展望とリスク
AGIが本格的に実現するまでには、技術的課題やコスト、地政学的なリスクなど多くの障壁が存在します。しかし、米中のAI競争は激化し続けており、中国がAI技術の軍事転用に踏み切る可能性や、台湾を巡る緊張の高まりも懸念されています。
AI技術の発展は、人類にとって大きな恩恵をもたらす一方で、戦争や情報操作といったリスクも同時に拡大させる要因となります。今後のAI政策は、技術開発の推進と安全保障のバランスをどのように取るかが問われることになるでしょう。