見出し画像

中国のDeepseek R1の真実

4,884 文字

中国のDeepseek AIの発展により、インターネットを賑わせているこの中国製LLMについて、過去24〜48時間をかけて深く掘り下げ、何が最も重要で、最も真実で、最も正確な情報なのかを突き止めてきました。
まず、Gavin Bakerの投稿から始めましょう。これにイーロン・マスクが「興味深い分析だ。今まで見た中で最高の分析」と返信しています。マスクは「AJ」と書いていましたが、「AI」が至る所にあるという意味でした。イーロン・マスク自身、xAI、テスラ、そして神のみぞ知る他の事業を通じてAIの最前線にいる一人です。
次に取り上げたいのは、テスラの元AIリーダーであるAndrej Karpathyです。この二人が非常に興味深い洞察を提供してくれています。
まずGavin Bakerの詳細な投稿から始めましょう。技術的で非常に込み入った内容を全て詳しく見ていくのではなく、私はGrokを使って要約しました。この分野は急速に進化しているので、何が起きているのかを理解しようとする時は、LLMツールを使って自分で要約することをお勧めします。
Gavin Bakerは、競合他社よりも効率的で、はるかに安価に利用できる新しいAIモデル、Deepseek R1について語っています。Deepseek R1はGPT-4o1と比べて93%もコストが低く、インターネット接続なしでも強力な家庭用コンピュータで使用できるほど効率的です。また、ChatGPTをも上回り、そのカテゴリーでダウンロード数トップを記録するほど人気があります。
ただし、この新モデルの実際の開発コストは、これまでの研究開発コストが含まれていないため誤解を招く可能性があるなど、複雑な側面もあります。また、このモデルのリリースが特定のイベントと時期を合わせているように見えることから、テクノロジー世界における戦略的な動きを示唆する地政学的な展開もあります。
続いてのGavin Bakerの投稿では、Deepseek R1のようなモデルの台頭から得られる結論について議論しています。AIモデルのトレーニングコストが低下することで、より多くの価値を引き出せるようになります。
ビッグテックへの影響として、これは巨額のコンピューティング投資の必要性が減るため、AIトレーニングのインフラを構築して収益を上げている企業にとっては良いニュースではありません。
エッジコンピューティングについては、R1のようなモデルにより、AIが大規模データセンターではなく、コンピュータや将来のスマートフォンなどのローカルデバイスで実行される可能性があり、個人用デバイスの大規模なアップデートサイクルにつながる可能性があります。
スーパーインテリジェンスまたはASI(人工超知能)、つまり病気の治療や新技術の発明など、非常に賢い高度なAIが私たちが考えているよりも早く実現する可能性があり、これが経済にどのような影響を与えるかはまだ分かりません。
AIユーザーにとっては良いニュースです。サービスにAIを利用する企業は、これらの安価で効率的なモデルから大きな恩恵を受けることになります。
ユニークなデータを大量に持つ企業は、これらの効率的なモデルを使用してインサイトを得られるため、より価値が高まります。Xのようなプラットフォーム、実世界からデータを収集する数百万台の車両を持つテスラ、YouTubeを持つGoogleなどがそうです。
アメリカのAI研究所は、R1で既に起きている可能性があるように、他社が自社のモデルをコピーしたり改良したりするのを防ぐため、最新モデルの共有を停止するかもしれません。
Gavinはまた、Grok 3と別のAIモデルがこれらの結果を変える可能性があり、そのパフォーマンスを見守る必要があると言及しています。新しい事実が明らかになれば、自身の見解を変更する用意があると結論付けています。
これがイーロン・マスクが「これまで見た中で最高の分析の一つ」と直接言及した投稿です。James Dalmaと私は彼の考えを理解しようとし、近い将来これについて議論するためにポッドキャストに出演してもらえることを期待しています。彼も非常に興味深い見解を持っています。
これがGavinの見解の基本で、推論の観点からコンピューティングが非常に安価になり、既存のハードウェアでより強力なAIが実現するということです。95%のコスト削減を実現するために新しいハードウェアは必要なく、AIに何かをさせる時の思考方法を改善することで実現したのです。コストが95%も低下したのです。
次にAndrejの見解を読んでみましょう。Andrejはテスラの元AIリーダーで、OpenAIでも働き、現在は自身のAIスタートアップを持っています。彼は人工知能分野で最も尊敬されているリーダーの一人です。先ほどの記事と同様に、この非常に技術的で洞察に富んだ文章を逐一見ていくのではなく、Grokを通して一般的な用語で何が起きているのかを理解しましょう。
ディープラーニングのコンピューティング需要はAIの歴史上類を見ないものであり、より多くのコンピューティングパワーがより高度なAIインテリジェンスにつながる可能性があるという興味深い見解を示しています。これはGavinの「コンピューティング企業にとって悪いニュースになる」という見解とは異なります。Gavinは必要なコンピューティングパワーが減少すると言っていますが、Andrejは素晴らしすぎるため、人々は更なるコンピューティングパワーを求めるだろうと言っています。
個人的には、この見解により同意します。データはコンピューティングを使用して生成できます。これは強化学習技術にも関連する合成データ生成のプロセスです。
AIには主に2つの学習タイプがあります。AIが模倣によって学ぶ模倣学習と、試行錯誤を通じて学ぶ強化学習です。後者の方がはるかに強力です。AlphaGoのような強化学習は、人間による注釈を超えた戦略を開発することができ、驚くべき発見を可能にします。
この投稿は、Deepseekがモデルトレーニングに強化学習を使用していることに言及しており、これは従来の教師あり微調整(SFT)などの手法に挑戦する印象的な結果を示しています。
これは明らかに実際の技術に深く関わる人からの見解であり、一方でGavinは投資家の視点からより見ているということです。
私の視点から興味深いのは、両者の見解が同じ結論に導かれているということです。それは、AIが推論レベルで極めて安価に処理できるようになるということです。
トレーニングとは、処理方法を理解するために必要なすべてのデータを与えることであり、推論とは、学習したデータに基づいてタスクを実行することです。教師になるための試験を受けるのと変わりません。教師になるための学校教育と試験があなたのトレーニングのコンピューティングで、実際に教師として質問に答えることが推論のコンピューティングです。学んだことに基づいて答えを推論しているのです。ここでも同じことです。
これが示しているのは、現在のこのトレンドをどう見るにしても、推論の部分が非常に安価になるということです。つまり、iPhoneのようなもの、このようなデバイスで、インターネットに接続することなく、スーパーインテリジェンス級のタスクを実行できるようになるかもしれないということです。
これは本当に驚くべきことです。AndrejとGavinの間の緊張点はハードウェアの部分です。Gavinは、コンピューティングのコストが95%下がったことで、より少ないリソースでより多くのことができるようになり、技術的には必要性が減るため、企業にとって悪影響があると考えています。
一方、Andrejの指摘は、AIの周りには非常に多くのニーズと素晴らしい可能性があるため、使用できるコンピューティングパワーを制限することは意味がないというものです。なぜなら、非常に多くの素晴らしいものを作り出すことができるからです。
私がこの見解に同意する理由は、インテリジェンスをスペクトラムで見た場合(以前のポッドキャストでもこの例を使いましたが、これが私の考え方です)、推論をより効率的にすることでコンピューティングの価値が低下すると考えるとき、それは自動的にインテリジェンスには何らかの上限があることを意味します。
AIを生成するためにハードウェアをある程度しか使用できないということですが、それは実際には正しくありません。本当にインテリジェンスについて考え、インテリジェンスが宇宙の大きさだと仮定すると(これは非常に深遠な話になりますが、少し付き合ってください)、私たちはこの惑星に住んでいて、宇宙は無限であり、その仮定を立てると、インテリジェンスは宇宙の一部なので、デフォルトでインテリジェンスは無限ということになります。
もしインテリジェンスが無限なら、私たちは非常に高い確率でインテリジェンスの底辺にいるということです。インテリジェンスには本当の限界がありません。インテリジェンスは、チップという大量のコンピューティングパワーと、Deepseekが breakthrough(画期的な発見)を果たした計算方法を理解するような効率的なコードの組み合わせから生まれるでしょう。
昨日のHansとのポッドキャストで彼が使った類推は私にとって非常に理にかなっていました。あなたや私のような人間の脳は、現時点では多くの点でAIよりもはるかに優れています。考えを巡らせたり、アイデアを生み出したり、つながりを見出したりする点で。AIは今、私たちに近づいてきていますが、私たちはほとんど電力を使用していません。
サンドイッチを食べるだけで考えることができ、寝ている時も考えることができ、それはこの小さな空間に閉じ込められていて、基本的にゼリーのようなもの、つまりニューロンや肉でできています。そしてこの脳はAIよりも優れていて、この小さな形状の中にあります。
一方、現在インターネットで使用しているこのAI、例えばGrokは、何十億ドルものチップを持つ巨大なデータセンターで、膨大な熱を発し、大量のスペースを占有しています。それは私たちとほぼ同じくらい優秀になりつつありますが、この脳ができることを実現するためにそれだけのものが必要なのです。
それについて少し考えてみてください。これは昔のコンピュータと同じような状況です。昔の写真を見せましょう。例えばこれです。100%正確かどうかは分かりませんが、当時はこんな感じでした。コンピュータは部屋全体を占める大きさで、計算をするためだけに部屋に行く必要がありました。
今では手のひらサイズのこのデバイスで、AI以外の必要なことはほぼすべてできます。あれからこれになったのです。なぜインテリジェンスも同じようにならないのでしょうか。
それはコンピューティング・ハードウェア、トレーニング・ハードウェア、推論ハードウェア、そして与えるデータによって制限されています。そうならない理由はありません。
これは、私たちが経験している驚くべき変革について考える上で、ただの食for thoughtとして提示したかったのです。
明日、このチャンネルでテスラの決算を生放送でカバーします。決算発表前から決算説明会後まで、3〜4時間のライブストリームを予定しています。そして金曜日には、このチャンネルで新しいプロジェクトを数人と一緒に立ち上げます。今のところ詳細は控えめにしておきますが、金曜日の正午(セントラルタイム)に公開されます。Gigacastと呼ばれるもので、それが何かは皆さんの想像に任せます。
チャンネルのサポートをご希望の方は、以下の説明欄にリンクがあります。この情報が参考になり、お役に立てば幸いです。ご清聴ありがとうございました。

いいなと思ったら応援しよう!