見出し画像

ディープシーク 中国のAIレースをリードする静かなる巨人CEOの最深部インタビューの注釈付き翻訳


この記事から何を学ぶ

日本は他人が作ったLLMの使い道ばかりやっているがこれは劣等国がやる間違った方法
中国初ベンチャーのDeepSeekはGoogle NVIDIAの創業者のように研究から巨大産業が生まれると信じている。長いインタビューであるが決意を日本人も学ぶべき。

要点は何?

私たちが見ているのは、中国のAIは永遠に追随する立場にはいられないということです。私たちはよく、中国のAIと米国の間には1~2年の差があると言いますが、本当の差は独創性と模倣の差です。これが変わらなければ、中国はいつまで経ってもフォロワーに過ぎない。
Nvidiaのリーダーシップは、単に一企業の努力ではなく、欧米の技術コミュニティと産業界全体が協力した結果である。彼らは次世代の技術トレンドを見抜き、ロードマップを手にしている。中国のAI開発にはこのようなエコシステムが必要だ。国内のチップ開発の多くが苦戦しているのは、それを支える技術コミュニティーがなく、二次情報しか持っていないからだ。中国には、技術的フロンティアに立つ人材がどうしても必要なのだ。

ChinaTalk解説

Deepseekは、最新のR1モデルが複数の推論ベンチマークでOpenAIのo1を打ち負かした中国のAIスタートアップだ。その知名度の低さにもかかわらず、Deepseekは注目すべき中国のAI研究所である。

Deepseekの前、CEOのLiang Wenfengの主なベンチャーはHigh-Flyer(幻方)であった。ディープシークはハイフライヤーから全額出資を受けており、資金調達の予定はない。ディープシークは、商用アプリケーションよりも基盤技術の構築に重点を置いており、すべてのモデルをオープンソース化することにコミットしている。また、非常に手頃な価格のAPIレートを請求することで、中国での価格競争を一蹴した。High-Flyerのコンピュート・クラスターにアクセスできるディラン・パテルの推測では、同社は「50k Hopper GPU」以上のコンピュート・パワーを保有しており、公表している1万個のA100よりも数桁多い。

ディープシークの戦略は、AGIを構築するという野心に基づいている。これまでのテーマとは異なり、ディープシークのミッション・ステートメントには、安全性、競争、人類への賭けなどはなく、「好奇心をもってAGIの謎を解き明かす」ことだけが掲げられている。従って、この研究所は、ゲームを変える可能性のあるアーキテクチャとアルゴリズムの革新の研究にレーザーを当てている。

Deepseekは、印象的な技術的ブレークスルーを次々と実現してきた。マルチヘッド潜在的注意(MLA)やスパース混合専門家(DeepseekMoE)といったアーキテクチャの改良により、推論コストが大幅に削減された。一方、これらのアーキテクチャで訓練されたDeepseekのコーディングモデルは、7月のGPT4-Turboのようなオープンウエイトのライバルを凌駕した。

Deepseekに何があるのかを理解する第一歩として、我々はCEOのLiang Wenfeng氏への貴重で詳細なインタビューを翻訳した。そこには、以下のような深い洞察が含まれている:

AGIに対するディープシークの野望が、どのように彼らの研究戦略を貫いているのか?
ディープシークがオープンソースを支配的な戦略とみなし、価格競争に火をつけた理由。
帰国子女を大量に採用した他の研究所よりも、国内の若い才能を活用するために研究者をどのように採用し、組織化しているか?
中国企業が「筋金入りのイノベーション」ではなく、コピーや商業化に落ち着く理由と、ディープシークが中国経済全体により多くの「筋金入りのイノベーション」に火をつけることを梁氏がどのように望んでいるか?

ディープシークを暴く: 中国ハイテク理想主義の究極の物語

Wechat、アーカイブリンク テキスト|リリー・ユー 于丽. 編集部|劉静 刘旌.

中国の7つの大型スタートアップの中で、ディープシークは最も目立たない存在である。
1年前、ディープシークはクオンツ系ヘッジファンドのハイフライヤー幻方(High-Flyer)の支援を受け、大手ハイテク企業以外で唯一、1万個のA100チップを保有していた。その1年後には、中国のAIモデル価格競争の火付け役として知られるようになった。1年後、中国のAIモデル価格競争のきっかけとして知られるようになった。

5月、AIの開発が続く中、ディープシークが突如脚光を浴びた。その理由は、DeepSeek V2と呼ばれるオープンソースモデルをリリースし、前例のない価格性能比を提供したためだ。推論コストは100万トークンあたりわずか1人民元に抑えられ、これはLlama3 70Bのコストの約7分の1、GPT-4 Turboのコストの70分の1に相当する。

ディープシークは瞬く間に「AIのピンデュオ」と呼ばれるようになり、バイトダンス、テンセント、バイドゥ、アリババといった他の大手テック企業もこらえきれずに次々と値下げを行った。中国では大型モデルの価格競争が迫っていた。

多くの大企業が補助金で資金を消費しているのとは異なり、ディープシークは利益を上げている。

この成功は、ディープシークのモデル・アーキテクチャにおける包括的な革新に起因する。彼らは新しいMLA(マルチヘッド潜在的注意)アーキテクチャを提案し、メモリ使用量を一般的に使用されているMHAアーキテクチャの5~13%に削減した。さらに、独自のDeepSeekMoESparse構造は計算コストを最小化し、最終的に全体的なコスト削減につながった。

シリコンバレーでは、DeepSeekは「東洋からの謎の力量」として知られています。SemiAnalysisのチーフアナリストは、DeepSeek V2の論文は 「今年最高のものかもしれない 」と考えている。OpenAIの元社員アンドリュー・カーは、この論文を「驚くべき知恵に満ちている」と評価し、そのトレーニング設定を自身のモデルに適用した。また、OpenAIの元政策責任者でAnthropicの共同設立者であるジャック・クラークは、ディープシークが「底知れぬ天才集団を雇った」と考えている、 さらに、中国製の大型モデルは「ドローンや電気自動車と同じくらい侮れない存在になるだろう」将和无人机,电动汽车一样,成为不容忽视的力量。

AIの波はシリコンバレーに大きく左右されるが、これは珍しいことだ。何人かの業界関係者は、次のように語っている。
この強い反応は、国内の大規模モデル企業や、グローバルなオープンソースの大規模モデルでさえ稀な試みである、アーキテクチャレベルでの革新に起因している。あるAI研究者は、アテンション・アーキテクチャが提案されてから数年間、大規模な検証はおろか、修正にもほとんど成功していないという。「ほとんどの人が自信を持てないため、意思決定の段階で打ち切られてしまうアイデアだ」这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。

一方、国内の大型モデルはこれまで建築レベルのイノベーションに手を染めることはほとんどなかったが、その一因として、アメリカ人は0対1の技術革新を得意とし、中国人は1対10の応用革新を得意とするという通念がある。しかも、このような行動は非常に採算が合わない。結局のところ、数ヵ月後には新世代のモデルが登場するのは避けられないのだから、中国企業はそれに追随して川下のアプリケーションに注力すればよいのだ。モデル・アーキテクチャを革新するということは、従うべき道がないということであり、何度も失敗し、かなりの時間と経済的コストがかかることを意味する。

ディープシークは明らかに時代の流れに逆行している。大型モデル技術は収束に向かうものであり、追随することがよりスマートな近道であると喧伝される中、ディープシークは「回り道」弯路を通じて蓄積された学びを大切にし、中国の大型モデル企業家はアプリケーションの革新にとどまらず、グローバルな技術革新の流れに加わることができると信じている。

ディープシークの選択の多くは、通常とは異なる。これまで、中国の主要な大型モデル新興企業7社の中で、ディープシークは唯一、「すべてを求める」既要又要アプローチを放棄し、研究・技術のみに集中し、toCアプリケーションを行わなかった。また、商業化を完全に考慮していない唯一の企業でもあり、資本調達もせずにオープンソースの道をしっかりと選んでいる。このような選択はしばしば無名のまま放置されるが、DeepSeekはコミュニティ内で有機的なユーザープロモーションを頻繁に獲得している。

DeepSeekはどのようにしてこのすべてを達成したのだろうか?私たちは、ディープシークのめったにお目にかかれない創業者、梁文锋にインタビューを行った。

High-Flyer時代からテクノロジーの裏方として活躍してきた80年代以降の創業者は、ディープシーク時代も地味なスタイルを続けている。他の研究者と同じように、毎日「論文を読み、コードを書き、グループディスカッションに参加する」 看论文,写代码,参与小组讨论。

そして、海外のヘッジファンドでの経験や物理学や数学の学位を持っている多くのクオンツファンドの創設者とは異なり、梁文峰は常に地元のバックグラウンドを維持している。

複数の業界関係者とディープシークの研究者は、梁文峰は中国のAI業界では非常に稀な人物であり、「強力なインフラエンジニアリングとモデリング能力、そしてリソースを動員する能力の両方を持つ」人物であり、「正確でハイレベルな判断を下せる一方で、細部においては第一線の研究者よりも強い」人物であると語った。彼は 「恐ろしいほどの学習能力 」を持ち、同時に 「上司のような感じはまったくなく、むしろオタクに近い」。

これは特に珍しいインタビューである。この技術的理想主義者は、中国の技術界では特に希少な存在である: 彼は 「利益と損失 」把 「是非观 」置于 「利害观 」之前よりも 「善悪 」を優先する数少ない人物の一人である、 時代の惰性に目を向けさせ、「独創的な革新」原创式创新を最重要課題に据える。

1年前、ディープシークが初めて市場から姿を消したとき、私たちは梁文峰にインタビューした: ステルスAI巨人の大型モデルへの道」疯狂的幻方:一家隐形AI巨头的大模型之路。非常識に野心的で、非常識に誠実であれ」务必要疯狂地怀抱雄心,且还要疯狂地真诚という言葉が、当時は単なる美しいスローガンであったとすれば、1年後、それは行動となった。

Part 1:価格戦争の最初の一発はどのように放たれたのか?

波: DeepSeek V2の発売後、瞬く間に大型モデル市場で熾烈な価格競争が始まりました。業界のナマズになったとも言われていますね。

梁文峰:ナマズになるつもりはなかった。[訳者注:これはウォン・カーウァイの新しいテレビ番組『王家卫花(ブロッサムズ・シャンハイ)』への言及と思われる。

波: この結果は驚きでしたか?

梁文峰:とても驚きました。価格設定がこれほどみんなに敏感に反応するとは思っていなかった。私たちはただ自分たちのペースで物事を進め、それを説明し、価格を設定していただけです。私たちの原則は、補助金も法外な利益も出さないということです。この価格帯は、私たちにコスト以上のわずかな利幅を与えてくれます。

波 その5日後にZhipu AI 智谱AIが追随し、ByteDance、アリババ、バイドゥ、テンセントなどの大手が続いた。

梁文峰:Zhipu AIはエントリーレベルの製品を値下げしましたが、当社と同等のモデルは高価なままでした。ByteDanceは真っ先にフラッグシップモデルを値下げし、当社と同じ価格にしました。大企業のモデル・コストは私たちよりもはるかに高いので、誰かが赤字でこれをやるとは思ってもみませんでしたが、結局はインターネット時代おなじみの補助金焼却ロジックになってしまいました。

波: 外から見ると、値下げはユーザー獲得のための入札のように見えますが、これはインターネット時代の価格競争の常套手段です。

梁文峰:ユーザーを奪うことが主な目的ではありません。私たちが値下げをしたのは、一方では次世代モデルのアーキテクチャを模索するうちにコストが下がったからであり、他方ではAPIもAIも、誰もがアクセスしやすく、手頃な価格で利用できるようになるべきだと感じているからです。

波: それ以前は、ほとんどの中国企業は現世代のLlamaアーキテクチャをそのままコピーしてアプリケーションに使っていました。なぜモデル構造から始めたのですか?

梁文峰:アプリケーションを作ることが目的なら、素早く製品を展開するためにLlama構造を使うのは合理的です。しかし、私たちが目指すのはAGIです。つまり、限られたリソースでより強力なモデル能力を実現するためには、新しいモデル構造を研究する必要があるのです。これは、より大きなモデルにスケールアップするために必要な基礎研究分野の1つである。
また、モデル構造以外にも、データ構築やモデルをより人間に近づけることなど、他の分野でも広範な研究を行っており、これらはすべて今回発表したモデルに反映されている。さらに、Llamaの構造は、トレーニング効率と推論コストにおいて、国際的なフロンティア・レベルと2世代分のギャップがあると推定されています。

波: この世代間ギャップは主にどこから来るのでしょうか?

梁文峰: まず、トレーニング効率のギャップがあります。つまり、同じ結果を得るためには、2倍のトレーニングデータと計算能力を消費しなければならないのだ。合計すると、4倍の計算能力が必要になる。私たちがやろうとしているのは、このギャップを埋め続けることです。

波: ほとんどの中国企業は、モデルとアプリケーションの両方を持つことを選択します。DeepSeekが研究と探査だけに集中することを選んだのはなぜですか?

梁文峰:今、最も重要なことは、世界のイノベーションの波に参加することだと考えているからです。長年、中国企業は他社が技術革新を行い、私たちはアプリケーションのマネタイズに注力することに慣れていましたが、これは必然ではありません。この波において、私たちの出発点は、手っ取り早く利益を上げる機会を利用することではなく、技術的フロンティアに到達し、エコシステム全体の発展を推進することです。

波: インターネットとモバイル・インターネットの時代には、米国は技術革新に秀でており、中国はアプリケーションの開発に秀でているという考えが大半を占めました。

梁文峰:私たちは、経済が発展するにつれて、中国はフリーライドするのではなく、徐々に貢献するようになるべきだと考えています。過去30年以上のIT化の波の中で、私たちは基本的に真の技術革新に参加しませんでした。私たちはムーアの法則が空から降ってくるのに慣れきっており、より優れたハードウェアやソフトウェアが登場するのを家で1年半も待っていた。スケーリング法則はそのように扱われている。

しかし実際には、これは何世代にもわたる欧米主導のテック・コミュニティのたゆまぬ努力によって生み出されたものなのだ。私たちがこれまでこのプロセスに関与していなかったために、その存在を無視してきただけなのだ。

Part 2:本当のギャップは1年や2年ではない。独創的なイノベーションと模倣の間にある。

波: なぜDeepSeek V2はシリコンバレーの多くの人々を驚かせたのでしょうか?

梁文峰:米国で日々起きている数多くのイノベーションの中では、これはごく普通のことです。彼らが驚いたのは、中国企業がイノベーションの貢献者としてゲームに参加したからです。結局のところ、ほとんどの中国企業はイノベーションを起こすのではなく、追随することに慣れているのです。

波: しかし、中国の文脈で革新を選択することは、非常に贅沢な決断です。大型モデルは投資がかさむゲームであり、すべての企業が商業化を第一に考えるのではなく、研究とイノベーションのみを行う資本を持っているわけではありません。

梁文峰:イノベーションのコストは確かに低くはありませんし、過去の無分別な借り入れの傾向も中国の以前の状況に関係しています。
しかし今は、中国の経済規模にしても、バイトダンスやテンセントといった大企業の利益にしても、いずれも世界的に見れば低いものではありません。イノベーションに欠けているのは、資本ではなく、効果的なイノベーションのために高密度の人材をどのように組織化するかという自信と知識の欠如であることは間違いない。

波: 巨大ハイテク企業を含め、中国企業はなぜ迅速な商業化を第一優先とするのでしょうか?

梁文峰:過去30年間、私たちはお金を稼ぐことだけを重視し、イノベーションを軽視してきました。イノベーションはビジネス主導のものばかりではなく、好奇心や創造への欲求も必要です。私たちは古い習慣に縛られているだけですが、これは特定の経済段階に縛られているのです。

波: しかし、あなたは最終的にはビジネス組織であり、公益研究機関ではありません。では、イノベーションを起こし、そのイノベーションをオープンソース化することを選択した場合、どこに堀を築くのでしょうか?あなたが5月に発表したMLAのアーキテクチャは、すぐに他の企業にコピーされるのではないですか?

梁文峰:破壊的なテクノロジーの前では、クローズドソースによって作られた堀は一時的なものです。OpenAIのクローズドソースのアプローチでさえ、他社の追い上げを防ぐことはできません。私たちの仲間はこのプロセスを通じて成長し、ノウハウを蓄積し、イノベーションを起こせる組織と文化を形成しています。それが私たちの堀なのです

実際、オープンソースや論文発表には何のコストもかかりません。技術的な才能がある人にとって、自分のイノベーションに他の人がついてきてくれることは、大きな達成感を与えてくれる。実際、オープンソースは商業的なものというより文化的な行動であり、それに貢献することで尊敬を得ることができる。また、企業にとっても文化的な魅力がある。

波: GSR Venturesの朱小虎(Zhu Xiaohu 朱磧虎)のような市場を信じる人たちをどう思いますか?

梁文峰:朱啟虎は論理的には一貫していますが、彼のプレースタイルはお金を早く稼ぐ企業に適しています。アメリカで最も儲かっている企業を見ると、深い技術的基礎を積み上げてから大きなブレークスルーを起こしたハイテク企業ばかりだ。

波: しかし、大きなモデルになると、純粋な技術的リーダーシップが絶対的な優位性を形成することはほとんどありません。あなたはどんな大きなものに賭けていますか?

梁文峰:私たちが見ているのは、中国のAIは永遠に追随する立場にはいられないということです。私たちはよく、中国のAIと米国の間には1~2年の差があると言いますが、本当の差は独創性と模倣の差です。これが変わらなければ、中国はいつまで経ってもフォロワーに過ぎない。

Nvidiaのリーダーシップは、単に一企業の努力ではなく、欧米の技術コミュニティと産業界全体が協力した結果である。彼らは次世代の技術トレンドを見抜き、ロードマップを手にしている。中国のAI開発にはこのようなエコシステムが必要だ。国内のチップ開発の多くが苦戦しているのは、それを支える技術コミュニティーがなく、二次情報しか持っていないからだ。中国には、技術的フロンティアに立つ人材がどうしても必要なのだ。

Part 3: 投資の拡大=イノベーションの拡大ではない

波: DeepSeekは現在、OpenAIの初期を彷彿とさせる理想主義的なオーラを放っていますが、オープンソースです。後にクローズドソースに変更するのですか?
OpenAIもMistralもオープンソースからクローズドソースに移行しました。

梁文峰:クローズドソースに変更することはありません。まずは強力な技術的エコシステムを持つことがより重要だと考えています。

波: 資金調達計画はありますか?High-FlyerはDeepSeekをスピンオフしてIPOを計画しているという報道を見たことがあります。シリコンバレーのAIスタートアップは、どうしても大手企業に縛られてしまいます。

梁文峰:短期的な資金調達計画はありません。先進的なチップの出荷禁止が問題なのです。

波: AGIの開発とクオンツ・ファイナンスは全く異なる取り組みだと多くの人が考えています。クオンツ・ファイナンスは静かに追求することができますが、AGIは知名度が高く大胆なアプローチが必要かもしれません。

梁文峰:投資額が多ければイノベーションが進むというわけではありません。そうでなければ、大企業はすでにすべてのイノベーションを独占しているはずです。

波: 今アプリケーションに力を入れていないのは、運用の専門知識が不足しているからですか?

梁文峰:現在の段階は、アプリケーションではなく、技術革新の爆発的な成長期だと考えています。長期的には、私たちのテクノロジーとアウトプットを業界が直接活用するエコシステムを作りたいと考えています。私たちの焦点は、基盤となるモデルと最先端のイノベーションにとどまり、他の企業はディープシークの基盤に基づいてB2BやB2Cのビジネスを構築することができます。完全な業界のバリュー・チェーンが確立できれば、私たち自身がアプリケーションを開発する必要はありません。もちろん、必要であればアプリケーションに取り組むことを止めることはありませんが、研究と技術革新は常に私たちの最優先事項です。

波:しかし、顧客がAPIを選択する際、なぜ大手企業の製品ではなくDeepSeekを選ぶ必要があるのでしょうか?

梁文峰:今後の世界は、専門的な分業体制になると思われます。基礎となる大企業モデルは継続的なイノベーションを必要とし、大企業はその能力に限界があるため、必ずしもDeepSeekを選ぶとは限りません。

波: しかし、技術そのものが本当に大きなギャップを生むのでしょうか?絶対的な技術的秘密はないともおっしゃっていましたが。

梁文峰:技術に秘密はありませんが、複製には時間とコストがかかります。エヌビディアのグラフィックカードは、理論的には技術的な秘密はなく、複製は簡単です。しかし、ゼロからチームを作り、次世代の技術に追いつくには時間がかかるので、実際の堀はかなり広いままです。

波: DeepSeekが価格を引き下げた途端、ByteDanceもそれに追随したことは、彼らが一定の脅威を感じていることを示しています。新興企業と大企業の競争の新しいアプローチをどのように見ていますか?

梁文峰:正直なところ、私たちはあまり気にしていません。クラウドサービスを提供することが私たちの主な目標ではありません。私たちの最終目標は、やはりAGIを達成することです。

今のところ、新しいアプローチは見当たりませんが、大手企業が明確な優位性を持っているわけではありません。大手企業は既存の顧客を持っていますが、キャッシュフロー・ビジネスが重荷でもあり、そのため、いつでも混乱に巻き込まれやすいのです。

波: 他の6つの大型モデル新興企業の最終的な勝負どころをどう見ていますか?

梁文峰:2つか3つは生き残るかもしれない。どの企業も今は 「お金を燃やしている 」段階なので、明確な自己位置づけを持ち、事業をより洗練させた企業が生き残る可能性が高いでしょう。その他の企業は、大きな変革を遂げるかもしれない。価値のあるものは単に消滅するのではなく、別の形をとるだろう。

波: High-Flyerの競争に対するアプローチは、水平的な競争にはほとんど注意を払わないため、「不浸透性」と表現されます。競争について考える際の出発点は何ですか?

梁文峰:私がよく考えるのは、何かが社会の運営効率を向上させることができるかどうか、そしてその産業チェーンの中に強みを見出すことができるかどうかということです。最終的な目標が社会をより効率的にすることである限り、それは有効です。その間にある多くのことは一時的な局面に過ぎず、そこにこだわりすぎると混乱を招く。

Part 4:「わけのわからない」仕事をする若者たち

波: OpenAIの元政策責任者でAnthropicの共同設立者であるジャック・クラーク氏は、DeepSeekは 「不可解な魔法使い 」を雇っていると述べた。DeepSeek V2の背後にはどのような人々がいるのでしょうか?

梁文峰:魔法使いはいません。一流大学の新卒者や4、5年目の博士号取得者、数年前に卒業したばかりの若者たちが中心です。

波: 多くのLLM企業は海外からの人材採用にこだわっており、この分野のトップ50の人材は中国企業で働いていないかもしれないとよく言われます。あなたのチームのメンバーはどこの出身ですか?

梁文峰:V2モデルのチームには、海外から中国に帰国した者はいません。トップ50の専門家は中国にいないかもしれませんが、おそらくそのような人材は私たち自身で育てることができるでしょう。

波: このMLAのイノベーションはどのようにして生まれたのですか?若い研究者の個人的な興味から生まれたと聞きましたが?

梁文峰:注意メカニズムの進化の主流をいくつか要約した後、彼はそれに代わるものをデザインしようと考えたのです。しかし、そのアイデアを現実のものにするには、長いプロセスが必要でした。私たちはこのために特別にチームを結成し、何カ月もかけて実現させました。[ジョーダン:アレック・ラドフォードのGPTシリーズへの初期の貢献を彷彿とさせ、アルゴリズムによるイノベーションは、半導体製造のような技術的フロンティアを押し広げることとは根本的に異なるという、私たちが過去にChinaTalkで主張した幅広いテーゼを物語っています。本当に役に立つためには、博士号と長年の業界経験が必要なのではなく、本当に鋭くてハングリーな20代(中国にはたくさんいる!)であれば、フロンティアを押し広げることができるのだ。ドワルケシュとOpenAIのショルト・ダグラス、Anthropicのトレントン・ブリッケンとのインタビューは、このダイナミズムをよく表している。Dwarkeshは冒頭で、「Diplomacy論文を書いたNoam Brownは、Sholtoについてこう言った。」]

波: このような発散的思考の出現は、イノベーション主導の組織構造と密接な関係があるようですね。ハイフライヤー時代には、あなたのチームがトップダウンで目標やタスクを割り当てることはほとんどありませんでした。しかし、AGIは不確実性の高いフロンティアの探査を伴いますが、そのために経営陣の介入が増えたのでしょうか?

梁文峰:DeepSeekは今でも完全にボトムアップです。役割分担は自然に行われます。誰もが独自の旅路を持っており、アイデアを持ち寄るので、誰かに押し付ける必要はありません。探求する中で、誰かが問題を発見すれば、自然と他の誰かに相談することになる。しかし、そのアイデアに可能性があれば、トップダウンでリソースを配分する。

波: DeepSeekはGPUなどのリソースの流動性が高いと聞いています。

梁文峰:チームの誰でも、いつでもGPUや人にアクセスできる。誰かがアイデアを思いついたら、承認なしでいつでもトレーニングクラスターカードにアクセスできます。同様に、私たちには階層や別々の部署がないので、相互の関心さえあれば、チームを超えて協力することができます。

波: このような緩やかな経営スタイルは、高い自主性を持った人材に依存しています。従来とは異なる評価基準で優れた人材を見極めることに長けていると聞きましたが。

梁文峰:私たちの採用基準は常に情熱と好奇心です。私たちのチームメンバーの多くは変わった経験を持っていて、それはとても興味深いものです。彼らの研究意欲は、しばしば金儲けよりも優先されます。

波: TransformersはGoogleのAIラボで生まれ、ChatGPTはOpenAIで生まれました。大企業のAIラボとスタートアップのイノベーションの価値をどう比較しますか?

梁文峰:グーグルのAIラボ、OpenAI、そして中国のテック企業のAIラボも、いずれも計り知れない価値があります。OpenAIが成功したのは、いくつかの歴史的な偶然によるところもあります。

波: では、イノベーションは運によるところが大きいのでしょうか?
あなたのオフィスの会議室の真ん中の列は、両側のドアが誰でも開けられるようになっていますね。あなたの同僚は、このデザインがセレンディピティの余地を残していると言っていました。トランスフォーマーが誕生したのも、誰かが議論を耳にし、それに加わり、最終的に大枠を作り上げたからです。

梁文峰:私は、イノベーションは信じることから始まると思っています。
シリコンバレーがなぜ革新的なのか?彼らはあえて物事を行うからです。ChatGPTが登場したとき、中国のテック・コミュニティはフロンティア・イノベーションに対する自信を欠いていました。投資家から大手テックまで、彼らは皆、ギャップが大きすぎると考え、代わりにアプリケーションに集中することを選んだのです。しかし、イノベーションは自信から始まる。

波: しかし、あなたは資金調達はおろか、公の場で話すことさえしないので、資金調達に積極的な企業よりも知名度が低い。DeepSeekがLLMに取り組んでいる人たちにとって最高の選択肢であり続けるためにはどうすればいいのでしょうか?

梁文峰:最も難しい問題に取り組んでいるからです。優秀な人材は、世界で最も困難な課題の解決に最も惹かれます。実際、中国のトップクラスの才能が過小評価されているのは、社会レベルで起こっているハードコアなイノベーションがあまりにも少ないため、彼らが認識されないままになっているからです。私たちは最も困難な問題に取り組んでおり、それが彼らにとって本質的に魅力的なのです。

波: OpenAIの最新リリースがGPT5をもたらさなかったことで、多くの人が技術の進歩が減速していると感じ、スケーリングの法則に疑問を持ち始めています。あなたはどう思いますか?

梁文峰:私たちは比較的楽観的です。私たちの業界は全体として期待に応えているようです。OpenAIは神(OpenAI不是神)ではないので、常に最前線にいるとは限りません。

波 :AGIが実現するまでの期間は?DeepSeek V2をリリースする前に、あなたは数学とコード生成のためのモデルを持ち、また密なモデルからMixture of Expertsに切り替えました。AGIロードマップのポイントは何ですか?

梁文峰:2年後、5年後、10年後、いずれにせよ、私たちが生きている間に実現するでしょう。社内でさえ、ロードマップに関する統一見解はありません。とはいえ、私たちは3つの方向性に賭けています。1つ目は数学とコード、2つ目はマルチモダリティ、そして3つ目は自然言語そのものです。

数学とコードは、囲碁のような自然なAGIの実験場です。これらは閉鎖的で検証可能なシステムであり、高いレベルの知性を独学で身につけることができる。一方、マルチモーダリティと現実の人間世界との関わりも、AGIの必要条件かもしれない。私たちは、さまざまな可能性に対してオープンであり続けます。

波 大型モデルの最終目標は何だと思いますか?

梁文峰:基礎モデルやサービスを提供する専門企業が登場し、サプライチェーンの各ノードにおいて広範な専門化が実現するでしょう。社会の多様なニーズを満たすために、より多くの人々がこれらの上に構築されるでしょう。

Part 5:すべての方法は前世代の産物である

波: この1年、中国の大型モデル新興企業には多くの変化があった。例えば、昨年初頭に大活躍していた王輝文(フェイスブッククローンのレンレンやフードデリバリーのMeituanの共同創業者)が途中で撤退し、後から参加した企業が差別化を見せ始めました。

梁文峰:王輝文はすべての損失を自分で背負い、他の企業が無傷で撤退するのを許した。彼は自分にとっては最悪でも、他の人たちにとっては良い選択をしたのです。[王慧源は、光年之外光年という創業モデル会社を設立したが、すぐにMeituanに戻した。MeituanとAIについては、最近の36Krの特集を参照]。

波: 今、最も力を注いでいるのはどこですか?

梁文峰:私の主なエネルギーは、次世代の大型モデルの研究に集中しています。まだ未解決の問題がたくさんあります。

波: 他の大手モデル・スタートアップは、(技術と商業化の)両方を追求することにこだわっています。結局のところ、技術が永続的なリーダーシップをもたらすわけではなく、技術的な優位性を製品に反映させるチャンスを生かすことも重要なのです。ディープシークがあえてモデル研究に力を入れているのは、モデル能力がまだ十分ではないからですか?

梁文峰:これらのビジネス・パターンはすべて前世代の産物であり、将来は当てはまらないかもしれません。インターネットのビジネスロジックを使って将来のAIの収益モデルを議論するのは、ポニー・マーが起業した頃のゼネラル・エレクトリックやコカ・コーラを議論するようなものだ。それは無意味な運動(刻舟求剑)だ。

波動: 過去、あなたのクオンツファンドHigh-Flyerはテクノロジーとイノベーションに強い基盤を持ち、その成長は比較的順調でした。これがあなたの楽観主義の理由ですか?

梁文峰:ある意味、High-Flyerはテクノロジー主導のイノベーションに対する自信を強めてくれましたが、すべてが順風満帆だったわけではありません。私たちは長い蓄積のプロセスを経た。外部の人が見ているのは2015年以降のHigh-Flyerの部分ですが、実際には16年間続けてきたのです。

波: イノベーションの話題に戻ります。経済が衰退し始め、資本が以前ほど緩まなくなった今、基礎研究は抑制されるのでしょうか?

梁文峰:必ずしもそうとは思いません。中国の産業構造の調整は、必然的にハードコアな技術革新に依存することになる。過去に手っ取り早くお金を稼げたのは幸運の窓があったからだと分かれば、人々は謙虚になり、真のイノベーションに取り組むようになるでしょう。

アン・ヨン では、あなたも楽観的なのですね?

梁文峰:私は1980年代に広東省の5級都市で育ちました。父は小学校の教師でした。1990年代、広東にはお金を稼ぐチャンスがたくさんありました。当時、多くの親が私の家を訪れ、基本的に勉強は無駄だと考えていた。でも、今振り返ると、みんな見方が変わった。なぜなら、お金を稼ぐのはもう簡単なことではないからだ。タクシーを運転する機会でさえ、すぐになくなってしまうかもしれない。まだ1世代しか経っていない。

今後、ハードコア・イノベーションはますます一般的になるだろう。今すぐには理解できないが、社会全体がこの点について教育する必要があるからだ。ハードコア・イノベーションに専念する人々が名声と富を得ることを社会が認めれば、私たちの集団的な考え方は適応していくだろう。必要なのは、いくつかの事例とプロセスだ

いいなと思ったら応援しよう!