DeepSeekの物語
AI関連の半導体株が売られている中、中国のDeepSeekがGPT-4のパフォーマンスに匹敵するオープンソースのLLM(大規模言語モデル)を開発し、計算能力の一部で済んでいることが注目されています。DeepSeekのアーキテクチャは、MoE+MLA(専門家の混合モデル+マルチヘッド潜在注意)で高品質なパラメータ処理を行っています。この技術革新はAI業界にROI(投資利益率)への再焦点を促す可能性があります。DeepSeekの驚異的なモデル効率にもかかわらず、AIの収益化は加速していません。計算能力の再評価が進むことで、2026年のAIの設備投資(CapEx)が減少するか、成長しない可能性があります。
DeepSeekとは誰か、そして何を達成したのか?
DeepSeek(DS)は、中国のAI駆動型クオンツファンドであるHigh-Flyerによって100%所有されています。High-Flyerは、2023年4月にAGI(汎用人工知能)およびLLM(大規模言語モデル)に特化するためにDeepSeekを設立しました。V2は2024年5月に発表され、1トークンあたりわずか2元(約RMB2)のコストで実現されました。その結果、ウォータールー大学のLLMリーダーボードで7位を達成しました。先月、V4が発表され、14.8兆トークンのデータセット(GPT-4の13兆トークン)で訓練され、訓練コストはわずか560万米ドルでした(H800時間レンタルコストが2米ドルの場合)。これはMetaのLlamaのコストの10%未満で、V3のパフォーマンスはLlama 3.1およびQwen 2.5を上回り、GPT-4とClaude 3.5 Sonnetに匹敵しました。DeepSeekのアーキテクチャはMoE(専門家の混合モデル)およびMLA(マルチヘッド潜在注意)に基づいています。各MoEモデルは約2000億パラメータを持ち、各クエリは約200億パラメータのみをアクティブ化するため、推論コストが削減され、応答時間が短縮されます。これはオープンソースモデルで、Hugging Faceで利用可能です。他のAI開発者が活用することができます。V3はAI開発者が大幅に低コストでアプリケーションを開発できる可能性を提供しますが、DeepSeekは商業化に重点を置いていません。
計算能力需要への影響
市場は自然に計算能力の需要成長を心配しています。私たちはAIのROIに懸念を持っており、GPU(例えば、NVDAの2024年のGPUに対する投資は2000億米ドル以上になる可能性がある)への巨額な投資がほとんどリターンを生んでいないと指摘しています。モデル改善(高コストで)は見られるものの、AIの収益化に関する具体的な例は少ないです。DeepSeekの成功は、業界に2つの可能な戦略を促進する可能性があります。1)さらに計算能力を追求し、モデルの改善を加速する、2)効率とROIに再焦点を当て、2026年には計算能力の需要が低下する。裕福な資本市場では、海外のAI企業がコストを厭わずモデル改善を追求してきましたが、DeepSeekは投資家に計算能力への投資について難しい質問を投げかけるかもしれません。したがって、米国のAI企業の経営陣は、2026年にさらなるAI設備投資を正当化するプレッシャーを受ける可能性があります。AIサプライチェーン(GPU、サーバーODM、PCB、液体冷却)は、評価が下がるリスクにさらされていますが、ASIC、HBM、電力、DCはより強靭です。
スマートフォンへの影響
もし小規模なモデルでもうまく機能するなら、スマートフォンには潜在的に良いニュースとなります。私たちはAIスマートフォンに対して懐疑的ですが、AIは消費者に受け入れられていません。より大きなモデルをスマートフォンで実行するためには、追加のハードウェアアップグレード(高パッケージ+高速DRAM)が必要で、それがコストを上げます。Appleのモデルは実際にMoEに基づいていますが、30億パラメータでは依然として消費者にとってサービスが十分に有用ではありません。したがって、DeepSeekの成功は希望をもたらすものの、AIスマートフォンの短期的な見通しには影響を与えません。