見出し画像

一握りの大学院生たちがシリコンバレーに挑んで...勝利した!(DeepSeekの物語)

7,614 文字

AIスタートアップのDeepSeekをご存知ですか?アメリカの大手テクノロジー企業に衝撃を与え、AIの世界を揺るがしたこの企業は、実は新卒者と学部生インターンのチームによって運営されているのです。彼らのV2モデルは、単に注目を集めただけではありません。中国で価格戦争を引き起こし、テンセント、アリババ、百度といった巨人たちに一夜にしてAI価格の引き下げを強いたのです。
また、CEOのリオン・ウェンファンは大胆な約束をしました。DeepSeekは常にオープンソースであり続けると。彼の目標は、中国がアメリカのイノベーションを模倣するのをやめ、自ら先導し始めることです。
同時に、もう一つのAIチャレンジャー、Moonshot AIのKimi K 1.5も独自の波を起こしています。数学とコーディングのベンチマークでGPT 4oをも上回る性能を示し、中国のAIシーンが単にキャッチアップしているだけでなく、ルールを書き換えていることを証明しています。
DeepSeekはどのようにしてこれを成し遂げたのでしょうか?彼らの秘密は何で、Kimiはこのレースにどのように適合するのでしょうか?これは、まさに今起きているDeepSeekとAI革命の物語です。
DeepSeekは、中国のAIシーンに控えめなスタートアップとして登場しながら、驚くべき影響力を持ちました。元ファンと呼ばれる定量的プライベートファンドがNVIDIA A100 GPUに大規模投資していたことと、大規模言語モデル分野で突然の価格戦争を引き起こしたことから、注目を集め始めました。
DeepSeek V2モデルは、100万トークンあたり約1元という非常に低い推論コストを導入し、競合他社は損失を被ってでも価格を引き下げざるを得なくなりました。テンセント、百度、アリババ、バイトダンスも最終的にこの動きに追随しました。
観察者たちはDeepSeekのアプローチを、ディスカウント志向のピンドゥオドゥオになぞらえ、「AIのピンドゥオドゥオ」と呼びました。しかしDeepSeek自身は、補助金やキャッシュバーンに頼って低価格を提供したわけではありません。
秘密は、GPU メモリ使用量を通常のベースラインの一部にまで削減する新しいモデルアーキテクチャにありました。MLAは典型的なマルチヘッド注意機構(MHA)を置き換え、メモリフットプリントをわずか5〜13%で運用しました。チームはまた、不必要な計算を削減するDeepSeek MoSスパースデザインを実装し、これにより他社が苦戦する中で利益を上げながら運用コストを効果的に削減することができました。
グローバルな場では、アナリストたちはDeepSeekをAIにおける謎の新勢力として語り始めました。元OpenAI社員のアンドリュー・カーは自身の研究にもトレーニングのアイデアを取り入れ、Anthropicのジャック・クラークはDeepSeekの研究者たちを「極めて有能な頭脳集団」と評しました。彼は、ドローンや電気自動車における中国の役割と同様に、影響力のある技術を生み出そうとする中国の取り組みの一部として、この企業を捉えていました。
DeepSeekの創設者リアン・ウェンファンは常に、即座の応用を追求するよりもアーキテクチャの境界を押し広げることの方が価値があると信じていました。彼は高度なエンジニアリングとAI研究のバックグラウンドを持ち、最小限のオーバーヘッドでディープラーニングシステムをスケールアップする方法を何年もかけて裏で開発してきました。
彼は、海外のブレークスルーを短期的に複製することに依存すると、中国のAI研究所は永遠に後れを取り続けることになると感じていました。たとえ時間とリソースを無駄にするリスクを伴うプロジェクトであっても、根本的な変化に焦点を当てることを好みました。
会社の広範な目標の一つはAGIに向けた進歩であり、単にChatGPTのクローンを出荷するのではなく、汎用知能をサポートする可能性のあるインフラストラクチャとフレームワークの探求に専念しています。
北京の新参者であるMoonshot AIは、Kimi K 1.5という名のマルチモーダル大規模言語モデルに焦点を当てることで、異なるルートを取りました。このモデルは、Math 500で96.2点を獲得するなど、GPT 4oとClaude 3.5 Sonnetのメトリクスを上回り注目を集めました。また、AIMIで77.5点を獲得し、CodeForcesで94パーセンタイルに入りました。
これらのテストを超えて、棄却サンプリング、部分的ロールアウト、強化学習フェーズでの長さペナルティなどの戦略のおかげで、Math VistaとMMUでも印象的な数値を達成しました。開発者たちは128Kトークンのコンテキストウィンドウを装備し、これにより初期の詳細を見失うことなく非常に長い入力を処理できます。
テキスト、画像、コードの処理をサポートしているため、ユーザーは一度に様々な形式のコンテンツを入力できます。PDF、スライド、ドキュメントを含む最大50個のファイルを同時に処理でき、100以上のサイトでリアルタイム検索も実行できます。
Moonshot AIのチームは、kimi.aiにあるチャットインターフェースを通じて自由にアクセスできるようにしました。アカウントを作成し、オフラインまたはオンラインモードを選択し、通常のKimiとKimi K 1.5 Loom思考バージョンを切り替えることができます。オフラインモードはインターネットを検索せずにローカル入力を分析するためのもので、オンラインモードはウェブ検索結果を取り込みます。
DeepSeek R1は、V2の後にDeepSeekからリリースされた新しいバージョンで、同様にテクノロジー界で話題を呼びました。コーディングと推論タスクにおける強力なパフォーマンスと、DeepSeekの哲学に沿ったオープンソースのアプローチが評価されました。
観察者たちは、いくつかの実践的なタスクでKimi K 1.5とDeepSeek R1を比較することにしました。まず画像分析から始めました。各モデルに様々な大規模言語モデルの数値データを含む2つの画像が与えられました。Kimi K 1.5はテキストをより正確に解析し、正しいエントリーを特定することができました。一方、DeepSeek R1は、モデルの1つについて言及されていない値を比較してしまいました。両者とも重なり合う属性に厳密に固執しなかったため、ある程度パラメータを混ぜ合わせてしまいましたが、Kimi K 1.5の方がデータの解釈が少し優れていたため、より強力に見えました。
次に、200ドル以下の赤いドレスをウェブ検索で探すテストを行いました。DeepSeek R1は複数のリンクを返しましたが、いくつかは無関係か希望の価格帯外でした。Kimi K 1.5は要求を満たす2つの直接リンクを提供し、補足オプションをSパネルに投稿し、価格と色の制約により焦点を当てていました。
次に、各モデルが複数のファイルを同時に処理する方法をテストしました。Kimi K 1.5は3つのファイルのうち少なくとも2つを解析し、要約しました。DeepSeek R1は躓き、ファイルを個別に与えない限り、効果的な統一要約を返すことができませんでした。
最後に、2つのモデルに蛇と梯子のゲームのHTMLコードを生成するタスクが与えられました。DeepSeek R1は、より明確なモジュラー機能とプレイ可能なインターフェースを持つ、より高度なものとして評価されました。一方、Kimi K 1.5はより単純なものを提示し、トークンがボード境界を超えて迷走することを許可しました。どちらのモデルも実際の蛇や梯子を実装することができず、生成したコードはほとんどボードレイアウト上のランダムな動きに限定されていました。その後、DeepSeek R1はより強力なコーディング出力が認められました。
スコアを集計すると、Kimi K 1.5は3ポイント、DeepSeek R1は1ポイントで終了しました。これらのテストは網羅的ではありませんでしたが、機能の顕著な違いを示しました。DeepSeek R1は大規模な結合ファイル入力に苦戦しましたが、コーディングでは優れていました。Kimi K 1.5は、ウェブ検索、基本的な画像分析、複数文書の要約などのタスクでより良いパフォーマンスを示しました。
Kimi K 1.5は無料枠での使用制限がないことでも知られていますが、DeepSeekは通常、コストを削減し、エンタープライズスケールのクライアントの使用料を低く抑えるための高度なアーキテクチャのブレークスルーに焦点を当てています。
DeepSeek R1とKimi K 1.5は両方ともオープンソースの方法論に従っており、これがAIコミュニティ全体の進歩を加速させたと評価しています。DeepSeekのリーダーシップは、コードの秘密保持は一時的な利点しか与えないと考えており、彼らはコードをロックするのではなく、チームの深い知識から真の価値が生まれると確信して、ブレークスルーを公開することを選択しています。
Kimi K 1.5も無料である理由の一つは、Moonshotが広範な開発を奨励し、外部の協力者を引きつけたいと考えているからです。これらのツールを探求したいユーザーは、DeepSeek R1の場合はchat.deepseek.com、Kimi K 1.5の場合はkimi.aiで登録できます。DeepSeekはDeepSeekという単純なインターフェースを持ち、Kimiのチャットインターフェースはオンラインとオフラインの両モードを切り替えることができます。
Kimi K 1.5は1セッションで最大128Kトークンを読み取ることができ、これにより文脈を必要とする本全体や大規模なデータセットに対応できます。思考の連鎖を短形式または長形式で処理でき、深さとステップバイステップの説明に関するユーザーの好みに応じて調整できます。
Kimiの数学とコーディングの成果は、強化学習と、部分的ロールアウトと構造化されたフィードバックを含む特殊なトレーニングセットの組み合わせから生まれています。特にMath 500データセットなどの数学テストでは、GPT4を上回る高い精度で高度な問題を解決できることを示しています。CodeForcesの結果は94パーセンタイルに位置し、コードの生成または評価がいかに優れているかを示す指標となっています。
これらの成果は、Moonshot AIが2023年に設立されたばかりであることを考えると、特に印象的です。DeepSeekの物語は、創設者の広東でのルーツと元方での時間を経て、もう少し前に遡ります。DeepSeekに関する最初の噂は、数千のA100 GPUの購入に関するもので、チームが巨大な次世代モデルを構築する準備をしていることが判明するまでは過剰に見えました。
DeepSeek V2のリリースは、通常のGPUメモリ負荷のごく一部しか必要としないものを提供することで、観察者たちを驚かせました。MLAデザインはMHAを置き換え、DeepSeek MoSparはさらに計算要件を削減しました。アナリストたちは、新しいアーキテクチャは効率性においておそらくアメリカの最高の研究所に匹敵し、これによってDeepSeekは価格競争で優位に立つことができたと述べています。
バイトダンス、アリババ、テンセントなどが対応する頃には、DeepSeekのアプローチが短期的な戦術ではなく、アーキテクチャの根本的な違いであることは明らかでした。リアン・ウェンファンはこれを、短期的な収益を生み出そうとする試みとしてではなく、中国の研究所とシリコンバレーの間のギャップを埋めるための戦略として言及しました。
彼の視点は、大きな宣伝を求めることなく10年以上にわたってAI研究に取り組んできた定量ファンドでの仕事ぶりを反映していました。インタビューでは、標準的な注意機構を一から書き直すなど、他のチームが避けていた問題に取り組むことの重要性について語りました。
観察者たちは、これらの進展を中国のAIにおける自信の高まりの一部として捉えています。アメリカからのオープンソースリリースを単に追随する時代から、並行的な、あるいは最先端のブレークスルーを生み出す新時代への移行です。
DeepSeek V2、DeepSeek R1、Kimi K 1.5はその推進力において孤立しているわけではありません。他の中国のLLMスタートアップも存在し、アリババの通巴、百度のアーニー、清華大学のオープンリサーチラボなどの巨大プレイヤーもいます。
DeepSeekとMoonshotを際立たせたのは、誰とでもインサイトを共有し、真のアーキテクチャ革新に向けて方向転換し、ユーザー向けサービスを低コストでアクセス可能に保つという決断でした。
Kimiの思考の連鎖、マルチモーダルタスク、大規模コンテキストの高度な処理は、これらのチームがテキストと視覚的理解を橋渡しする未来を見据えていることを示しています。並行して、DeepSeekは効率性とコスト削減に投資しています。
一方はユーザーフレンドリーな幅広いアプリケーション機能に焦点を当て、もう一方は最小限のオーバーヘッドに達するまで基盤となる計算を洗練させています。両社ともAGI、あるいは少なくとも標準的なチャットボットよりも汎用知能に近いものを目指しています。
一方は新しい方法でデータを最小限のハードウェア制約で保存・処理することに投資し、もう一方はテキスト、コード、画像への統合的なアプローチを深めています。彼らは、AI革命がチャットのための素早いアプリケーションや、エンタープライズサブスクリプションからの短期的な収益を追求すること以上のものに依存しているという信念を共有しています。
AIコミュニティの熱心な人々は、これらの手法がどこまで進化するのか、そしてGPT 4やClaude 3.5のような有名なモデルとの競争にどのような影響を与えるのかを見守っています。
DeepSeekの急速な台頭は中国を超えて波紋を広げ、新しいオープンソースのブレークスルーが、マイクロソフト、グーグル、メタのような確立された巨人たちにどのような影響を与えるかを投資家たちが判断しようと奔走する中、米国のテクノロジー株は上下に揺れました。
DeepSeekのバージョン2が推論コストを100万トークンあたりほぼ1元にまで引き下げたとき、ウォール街のアナリストたちは西側の現在の価格モデルの持続可能性について疑問を投げかけ始めました。特にメタは、DeepSeekが最終的にはソーシャルプラットフォームプラグインを破格の価格でリリースするという噂が流れた後、一時的に株価が下落しました。
一方、マイクロソフトAzureとグーグルクラウドは、DeepSeekが素早く示した手頃な価格に合わせるためと思われる新しいAI価格帯を急いで発表しました。
推論コストの突然の低下により、72やルネサンスのようなヘッジファンドはポートフォリオの再調整を行い、様子見のアプローチを採用し、DeepSeekのコスト削減アーキテクチャを模倣したオープンソースAIプロジェクトに新たな資本を投入しました。
グローバルな開発者コミュニティの相当部分が、ビッグテックの囲い込みアプローチに対する直接的な対抗勢力として、DeepSeekの完全オープンソースリリースを支持しました。
Hacker NewsやRedditのr/machinelearningなどのフォーラムでは、リアン・ウェンファンとそのチームを称賛する声が上がり、MLAとDeepSeek MoStarデザインを真のゲームチェンジャーとして賞賛しました。最も大きな喝采は、高額なGPU価格とクローズドソースのソリューションによってロックアウトされていると感じていた個人開発者、小規模スタートアップ、学術研究者たちから寄せられました。彼らはDeepSeekを、莫大な予算を要求することなく先進技術を手の届くところに置く「人民のチャンピオン」として見ていました。
アンドレ・カーパシーやヤン・ラオンのような尊敬されるAI思想家たちは、インタビューの中で、大手企業が単純に消えていくわけではないことを認めつつも、DeepSeekがもたらす可能性のある変化について慎重な楽観論を表明し、そのアーキテクチャの貢献を称賛しました。
それでも、イノベーションを模倣よりも重視するDeepSeekのメッセージは、確立されたビッグテックのゲートキーパーをオープンソースAIが追い落とすことを熱望していたグローバルな聴衆の間で強く共鳴しました。
これまでのところ、レースはまだ完全にオープンです。OpenAI、Anthropic、Cohereはそれぞれ、DeepSeekの急速な台頭に注目しており、内部関係者の中には、GPTとClaudeの今後のバージョンがMLAに触発されたメモリ節約のトリックを取り入れる可能性があると示唆する者もいます。
一方、Kimi 1.5はコーディングと数学のベンチマークで印象的な結果を出し続け、DeepSeek R1はエンタープライズのコーディングワークフローで牽引力を得ています。
DeepSeekのコスト削減のブレークスルーとMoonshot AIのマルチモーダルの実力の間で、新しい断層線が浮上しました。オープンソースのコミュニティ主導のイノベーションと、高額な最低限の提供を守るレガシーテックジャイアントの対立です。
アマゾン、百度、テンセントのような主要プレイヤーが買収と社内R&Dのバランスを取りながら歩調を合わせようとする中、世界はこれをオープンソースのアクセシビリティと企業の排他性の戦いとして枠組みを作り始めているのは明らかです。
DeepSeekの物語がAIを民主化する方法の永続的なテンプレートになるのか、それともビッグテックがその手法を取り込む方法を見つけた場合の警告的な物語になるのかは、まだ分かりません。
今のところ一つだけ確かなことがあります。進行中のAI革命において、DeepSeekは小さなチームからの新しいアイデアが産業全体を再形成し、他の全ての人々を追いつこうと競争させることができることを証明したのです。

いいなと思ったら応援しよう!