見出し画像

StargateとDeepSeek: 計算量の拡大と縮小という2つの潮流

2025年1月に話題のStargate ProjectとDeepSeek-R1についてお話します。


2020年代の生成AIとスケーリング則

2020年代の生成AIの進化を支えてきたのは、「スケーリング則」と呼ばれる、計算リソースを増やすことでモデルの性能が向上するという法則でした。このスケーリング則に関しては、拡大と縮小という2つの対極的なアプローチが注目されています。

拡大トレンド: 「スケールの力」を信じる

一つ目の潮流は、スケーリング則の可能性を徹底的に追求する方向性です。このアプローチの代表格がOpenAIであり、同社は5000億ドルを投じた「Stargate Project」に象徴されています ([impress])。このプロジェクトは、OpenAIやソフトバンクが共同で構築するAIインフラであり、大規模計算資源の限界に挑戦するものです。

また、Google DeepMindのAlphaGo Zeroに見られるように、生成AI同士の対話や自己強化型学習を活用し、性能を向上させるアプローチもスケーリング則の理論に沿っています。これらの取り組みは、計算リソースの競争をさらに激化させ、NVIDIAのようなハードウェア企業に追い風をもたらしています。

縮小トレンド

一方で、少ない計算リソースで高い精度を実現する研究も急速に進展しています。その代表例が「DeepSeek-R1」や「Sky-T1-32B-Preview」です。

DeepSeek-R1は、基盤となる大規模言語モデル(DeepSeek-V3ベース)をもとに、強化学習を駆使して高度な推論能力を獲得したモデル「DeepSeek-R1-Zero」を開発しました ([deepseek-ai])。このモデルは、「思考の鎖(Chain of Thoughts)」によるファインチューニングを経て高い性能を実現しています ([asap])。DeepSeekは開発コストは560万ドルでできたといって世界を驚かせました ([hpcwire])。

また、カリフォルニア大学バークレー校が手掛ける「Sky-T1-32B-Preview」は、わずか450ドル(約7万円)のコストでトレーニングを実現しました ([zdnet])。高精度データセットと合成データの活用により、低コストで効率的なAI開発を可能にしています。このモデルは、アリババのQwen2.5-32B-Instructをベースに微調整され、オープンソースのデータ生成ツール「QwQ-32B-Preview」で生成されたトレーニングデータを活用しています。

これらの取り組みは、GPT-4oやGeminiなどの最新商業モデルと肩を並べる性能を示し、オープンソースコミュニティが生成AI市場に大きな影響を与えていることを示唆しています。

勝者は誰か?

DeepSeek-R1の成功はNVIDIAの株価に大きな影響を与え、半導体市場の勢力図に動揺をもたらしました ([nikkei])。テスト時計算(Test-Time Compute)が重要視される2025年の現在、DeepSeek-R1はその性能と低価格で注目を集めています。これにより、「大量のGPUがあれば勝つ」という従来の常識が揺らぎつつあります。

AI業界は、ハードウェア、ネットワーク、そしてソフトウェアという3段階の進化を辿るとされていますが、最終的にはソフトウェアの優位性が勝敗を左右する時代が到来するかもしれません。

二元対立の新たな局面

DeepSeek-R1の登場によって、いくつかの対立軸が再び注目されています:

  • 米国 vs 中国

  • 商業ソフト vs オープンソースソフト

  • AIインフラ開発 vs サービス開発

  • 巨大IT企業 vs スタートアップ

オープンソースの大規模言語モデルは、その普及により周辺ビジネスを急速に変化させる可能性を秘めています。基盤技術のコストが削減されることで、スタートアップにとって追い風となるでしょう。

むすび

2025年、生成AIを巡る戦いは新たなステージに突入しています。GPUの「腕力」が支配する世界から、人間の「知恵」が主役となる未来が見えてくるかもしれません。スタートアップや個人の専門知識が活躍できる余地があることは、人類にとって希望を感じさせる展望です。

参考文献



いいなと思ったら応援しよう!