見出し画像

DeepSeek解説 - 不可能を成し遂げたAIのサイドプロジェクト

11,821 文字

ちなみに、このDeepSeekのCEOであるとされるlangang Wan Fですが、実はこれは偽物です。後ほど詳しく説明しますが、DeepSeekは今週インターネットを席巻しただけでなく、株式市場も暴落させ、App Storeで最もダウンロードされたアプリとなり、Google Play Storeでも生産性アプリ部門でトップとなりました。GoogleでのDeepSeekの検索量はChatGPTを上回ったほどです。
一体何が起きたのでしょうか? DeepSeekとは何なのか、そしてなぜこれほどの世界的な混乱を引き起こしたのか。それを今回のビデオで詳しく説明していきます。先週私はすでにDeepSeek R1についての動画を投稿しており、その中でDeepSeek R1とは何か、どのように機能するのか、そしてどのように使用できるのかについて説明しました。その動画の内容とあまり重複しないようにしたいと思いますので、DeepSeekについてもっと知りたい方はぜひそちらもご覧ください。
それでは本題に入りましょう。まず、DeepSeekがこれほど注目を集めた理由は、メディアにとって完璧なストーリーだったからだと思います。これは典型的なダビデ対ゴリアテの物語で、予想外にも弱者が業界の巨人を打ち負かすという話です。あるいは、オープンソースがついにクローズドソースAIに追いついたと言えるかもしれません。これはAIの力を大企業や政府だけでなく、すべての人々に与えるものです。
DeepSeekについて簡単な背景を説明すると、これは中国のヘッジファンドのサイドプロジェクトにすぎません。彼らの主な事業は定量的取引でしたが、すでに大量のGPUを所有していたため - これらは定量的取引に使用されていましたが - サイドプロジェクトとして、これらのGPUを使って独自のAIモデルの学習とテストも試してみることにしました。DeepSeekの従業員数は200人未満であるのに対し、例えばOpenAIは5,000人以上の従業員を抱えています。また中国企業であるDeepSeekは、NVIDIA H100のような最高性能のGPUの使用を禁止されていました。
この点については後ほど詳しく説明しますが、より高度な知能を作り出す上での制限の1つが計算能力であることは周知の事実です。これはスケーリング則と呼ばれるもので、他の条件が同じであれば、計算能力が大きいほどAIモデルはより知的で性能が高くなります。つまり、計算能力を拡大するほど、エラーが少なくなり、AIモデルの精度が向上するのです。
そのため、米国政府はOpenAIや他のテック企業と提携して5,000億ドルのデータセンターを建設しようとしています。AGI(汎用人工知能)、そして最終的にはASI(人工超知能)を作り出すために、可能な限り多くの計算能力が必要だからです。
しかしDeepSeekにはそれがありませんでした。世界最高の計算能力を持っていたわけではなく、従業員数もOpenAIの30分の1以下で、数十億ドルの資金もありませんでした。実際、DeepSeek R1の学習に使用した予算は500万から600万ドル程度で、米国のトップCEOの一部の給与よりも少ない額でした。
このように、限られたリソース、限られた資金、限られた計算能力しか持たない小さな企業が、最先端のAIモデルを作ることは絶対に不可能に思えました。ましてやOpenAIの最高モデルであるo1 - ちなみにこれは博士レベルです - と同等かそれ以上のものを作ることなど、とても考えられませんでした。
実際、数年前にOpenAIのCEOであるサム・アルトマンに次のような質問が投げかけられました:
「サム、スタートアップについて伺いたいのですが、インドには非常に活発なスタートアップのエコシステムがあり、特にAIに注力しています。インドのチームが、例えば3人の優秀なエンジニアが、1億ドルではなく、1,000万ドル程度で、本当に実質的なものを構築できる分野はありますか?」
「これについては、基盤モデルの学習で私たちと競争することは全く望みがないと言わせていただきます。試みるべきではありません。でも、それでも試みるのがあなたの仕事です。私はその両方を信じています。私は、それは相当望みがないと思いますが...」
サムの言葉を繰り返しますと、OpenAIと基盤モデルの学習で競争することは全く望みがないと言っています。最高のモデルを作るには、少なくともサムの言によれば、数十億ドルの資金と、世界最高のGPUが必要だということです。
しかしDeepSeekは、それが完全に間違っていることを証明しました。後ほど詳しく説明しますが、500万から600万ドルのコストだけで、彼らは既存の最高のモデルと同等のAIモデルを学習することができました。
濃い青色の棒グラフがDeepSeekを示していますが、多くのベンチマークで実際にOpenAI o1(濃い灰色)を上回っています。これは、より賢明なアーキテクチャやデザインを使用することで実現しました。これについては後ほど詳しく説明しますが、この新しいデザインのおかげで、私たちのプロンプトに答える際の思考プロセスを見ることができます。
実際、これについてのいくつかの驚くべき例をお見せしましょう。説明の下にリンクを貼っている無料チャットプラットフォームを使って、例えば「heyyyy」のように「y」を3つ付けてプロンプトを入力してみましょう。ここで「deep think」機能をオンにすると、その思考プロセスを見ることができます。
結果を見てみましょう:「ユーザーが追加の文字を付けて'hey'を送信しました。これはカジュアルな挨拶なので、会話を軽い調子に保つため、同じようなトーンで応答すべきです。彼らのエネルギーに合わせて'hey there'で始め、親しみやすさを保つためにこのような絵文字を追加し、その後、彼らの調子を尋ねるか、何か手伝えることがあるか尋ねましょう。応答が formal すぎないように注意し、専門用語は避け、シンプルで歓迎する雰囲気を保ちましょう」そして出力は「Hey there! How can I assist you today?」となります。
これは非常に驚くべきことで、私が本当にシンプルな一行を入力しただけなのに、応答を出力する前にこれらすべてを考え抜いているのです。
もう1つの更に驚くべき例を見てみましょう。「1から100までの乱数を1つ下さい」とプロンプトを入力してみましょう。その思考プロセスは次のようになります:
「ユーザーは1から100までの乱数を求めています。まず、この数字が本当にランダムであることを確認する必要があります。サイコロのような物理的な方法がないので、計算的な方法に頼らざるを得ません」そこで、このような関数を使うことにしたようですが、さらに「待って、ここでの乱数関数はどのように機能するのでしょうか? 実際のコードなしでこれをシミュレートしているので、頭の中で数字を選ぶだけでもいいかもしれません。でも、それは本当にランダムではないかもしれません。
んー、あるいは現在時刻や他の変数に基づいて数字を考えることもできますが、リアルタイムのデータにはアクセスできません。任意に数字を選ぶか、あるいは何らかの精神的なアルゴリズムを使うべきでしょうか。最近使っていない数字を考えてみましょう。42は一般的でしたし、7と13は避けた方がいいでしょう。73はどうでしょうか? でも、それは恣意的すぎるかもしれません」
このように延々と続き、ランダムな数字を選ぼうとしていますが、それは本当にランダムではないので、次に何をすべきか決めようとしています。「おそらく最善のアプローチは、恣意的に感じられる数字を選ぶことです。57にしましょう。待って、なぜ57? 特に理由はありません。あるいは、人々があまり選ばない1から100までの数字を考えてみましょう。研究によると37は一般的なランダムな選択なので、それは避けましょう。73か58はどうでしょうか」
このように延々と続き、最終的に76を選択しましたが、このような思考プロセスは今まで見たことのないものです。これは奇妙なほど人間らしく見えます。
もう1つの例として、これを医療診断にも使用できます。「7日間続く咳、発熱、鼻づまりがある99歳の少年で、ふくらはぎに激しい痛みがあり、目立つほど足を引きずっている」という症例について、どう考えるでしょうか。
その思考プロセスを見てみましょう:「まず、呼吸器症状 - 咳、発熱、鼻づまり - これは一般的なウイルス感染症のように聞こえます。これらの選択肢かもしれませんが、ここでのポイントは、ふくらはぎの激しい痛みと足を引きずる新しい症状です。呼吸器の病気と筋骨格系の症状を関連付ける必要があります。
考えられる原因としては、子供の場合、特にインフルエンザのようなウイルス感染後に、ふくらはぎに影響を与えるミオシチスになることがあります。もう1つの考えは筋肉の破壊ですが、これはより重症で、暗色尿を伴う可能性がありますが、それは言及されていません。また、感染後に起こる可能性のある反応性関節炎もありますが、この場合はあまりありそうにありません。これも当てはまるかどうか分かりませんが、考慮する価値はあります」
このように、症状に基づいて考えられる病気や感染症のすべての可能性を検討し、それぞれの可能性を比較検討しています。最も可能性が高いのは急性ウイルス性ミオシチスで、実際にそれを出力しています。
これはなんと素晴らしいことでしょうか。私のかかりつけ医よりも徹底的で知識豊富です。そして私が言ったように、思考ボタンをオンにすると見ることができるこの思考プロセスを見ると、それは奇妙なほど人間らしく、まるで自己認識があるかのように、あるいは何らかの知性の兆しがあるかのように見えます。
ただし、OpenAIのo1とo1 miniにもこの思考機能がありますが、これは無料プランでは利用できません。o1とo1 miniにアクセスするには有料ユーザーである必要があり、それでも限定的なアクセスしかできません。そのため、大多数の人々はOpenAI o1について実際には知らず、GPT-4oを使用する無料プランを使っているだけだと思います。
DeepSeekがこの思考モデルを誰でも無料で提供しているという事実は、それだけでもすでに非常に驚くべきことです。
これがダビデ対ゴリアテの物語です。限られた資金とリソースの制約を持つ小さな企業が、テック業界の巨人を打ち負かすものを設計することができました。さらに、奇妙なほど人間らしい思考機能も持っています。これだけでも素晴らしいストーリーですが、それだけではありません。
彼らはこれをオープンソース化する、より技術的に言えばオープンウェイトにすることも決定しました。学習データはリリースされませんでしたが、モデルはリリースされたので、誰でもDeepSeekのコピーをダウンロードして自分のサーバーで実行したり、自分のデバイスでオフラインで実行したりすることができます。
このデザイン、アーキテクチャを公開し、誰でも無料で使用・編集できるようにこのモデルをリリースするという事実は、まさに信じられないほどのことです。これによって、AIの力が少数の強力な企業や政府の手から、人々に分配されることになります。
ご存知かもしれませんが、OpenAIは全くオープンではありません。彼らの最も強力なモデルはクローズドソースで、どのように設計されたのかは全く分かりません。また、例えばChatGPTを使用する場合、あなたの情報は彼らのサーバーに送信され、ChatGPTをオフラインでコンピュータでローカルに実行する方法はありません。
MetaのチーフAIサイエンティストであるヤン・ラオンは次のように述べています:「オープンソースモデルが独占的なモデルを凌駕しているのは、その研究が公開されオープンソースであり、誰もがそこから利益を得ることができるからです。それがオープンな研究とオープンソースの力です」
そして今、DeepSeek R1によって、オープンソースはついにすべてのクローズドソースの商用モデルに追いついたのです。なお、DeepSeek V3とDeepSeek R1を除く残りのモデルはクローズドソースです。
このモデルは先週リリースされ、私はその仕様について動画を作成しました。そして週末にかけてさらに注目を集め、より多くの注目を集めるようになりました。このため月曜日には混乱が起きました。NASDAQは3%近く下落し、Googleは4%以上下落し、NVIDIAは彼らのチップが高すぎて、もはやそれほど重要ではないという懸念から、20%近く暴落しました。少なくとも市場はそう考えたのです。
ちなみに、世界で最も時価総額の高い企業の1つであるNVIDIAの16%から20%の下落は、わずか1日で約6,000億ドルの損失に相当します。比較のために言えば、これはBoeingとHome Depotを合わせた価値、あるいはDisneyとBank of Americaを合わせた価値、さらにはStarbucksとPepsiとMcDonaldʼsを合わせた価値よりも大きいのです。
先ほど私は、OpenAIと米国政府が5,000億ドルのデータセンタープロジェクトを計画していると言いましたが、これは建設に何年もかかり、5,000億ドルは多くの国のGDPよりも大きい巨額な金額です。しかし、このDeepSeekの発表がわずか1日でNVIDIAの価値を6,000億ドル以上下落させたという事実は、考えてみると非常に驚くべきことです。
また今週、DeepSeekのモバイルアプリがリリースされ、App Storeでチャートのトップに躍り出て、ChatGPTを上回る最も人気のあるアプリとなりました。レビューも圧倒的に好評でした。Googleトレンドを見ると、他のAI製品がChatGPTを上回ったのは今回が初めてです。青い線で示されているDeepSeekの検索量が、わずか数日でこれほど急激に上昇したという事実も、まさに信じられないほどのことです。
なお、GoogleのGeminiやAnthropicのClaude、イーロンのGroのような他のAIモデルもありますが、それらはChatGPTとDeepSeekの検索量に比べると見劣りします。
これは正当なものです。AIおよびテック分野の著名人から好意的なコメントを受けています。まず、サム・アルトマンはDeepSeekについて次のように述べています:「DeepSeek R1は印象的なモデルです。特にそのコストで提供できるものについては。我々はもちろん、もっと優れたモデルを提供しますが、新しい競合が現れたことは本当に活気づけられます。リリースを早めることになりそうです」
このビデオのスポンサーであるAI Portraitに感謝します。LinkedInやビジネスプロフィールに良質なプロフェッショナルな写真を載せることは大きな違いを生みます。自分で撮影したり、友人に頼んだりすることもできますが、ほとんどの人はプロフェッショナルな写真を撮るのは得意ではありません。あるいはプロのフォトセッションを依頼することもできますが、これは平均して200ドル以上かかり、さらにセッションを予約し、カメラの前で何時間も気まずく pose を取る必要があります。
そこでAI Portraitの出番です。わずか数分で、プロフェッショナルな高品質な写真のポートフォリオを生成できます。1枚の写真をアップロードし、性別を選択するだけで、様々な設定での50枚のプロフェッショナルなヘッドショットのポートフォリオが数分で生成されます。物理的なフォトセッションの手間なしに高品質なプロフェッショナル写真が欲しい場合、AI Portraitがベストな選択です。説明の下のリンクからチェックしてみてください。
Intelの元CEOは次のように述べています:「エンジニアリングとは制約に関するものです。中国のエンジニアたちはリソースが限られており、創造的な解決策を見つけなければなりませんでした。オープンが勝利を収めました。DeepSeekは、ますますクローズドになっている基盤的AIモデルの世界をリセットするのに役立つでしょう。DeepSeekチームに感謝します」
SalesforceのCEOであるマーク・ベニオフは次のように述べています:「DeepSeekがApp StoreでChatGPTを上回り、1位になりました。NVIDIAのスーパーコンピュータも1億ドルも必要ありませんでした。AIの真の宝はUIやモデルではありません。それらはコモディティ化しています。真の価値はデータとメタデータにあります。それがAIの可能性を支える酸素なのです」
NVIDIAのドクター・ジム・ファンは次のように述べています:「私たちは、非米国企業がOpenAIの元々のミッションを生かし続けている時代に生きています。すべての人々に力を与える、真にオープンなフロンティア研究です。DeepSeek R1は一連のモデルをオープンソース化しただけでなく、すべての学習の秘密も明かしました。なんて優れたチームなのでしょう。意味が分かりません」
OpenAIのチーフリサーチオフィサーであるマーク・チェンは次のように述べています:「o1レベルの推論モデルを生み出したDeepSeekに祝福を。彼らの研究論文は、o1に至る過程で私たちが発見したいくつかのコアとなるアイデアを、彼らも独自に発見したことを示しています」
マーク・アンドレは次のように述べています:「DeepSeek R1は、私が今まで見た中で最も素晴らしく印象的なブレークスルーの1つです。オープンソースとして、世界への深遠な贈り物です」と、小さな敬礼とともに。
これは、DeepSeek R1が正当なものであり、AIおよびテック分野の多くの著名人から認められていることを示すためです。
概して好意的なコメントを受けましたが、一部には辛辣な意見もありました。OpenAIの従業員であるこの人は次のようにツイートしました:「アメリカ人は無料のものと引き換えに自分たちのデータをCCPに喜んで提供するんだね」しかし、すぐにXの非常に便利な機能によって訂正されました:「読者が追加したコンテキスト:DeepSeekはOpenAIモデルとは異なり、インターネット接続なしでローカルで実行できます」
ちなみに、私はこの機能が大好きです。Xで虚偽の情報を投稿しようとする人にとって、大きな痛打となります。今では非常に素早く訂正されることになります。
これがあまりにも特別なストーリーであるため - このような限られたリソースと限られた計算能力から何かを作り出すことができたという - 一部の人々にとっては真実味がないように思えました。彼らが主張するよりも多くの計算能力を持っていたのではないかと疑う人もいました。また、R1の学習に500万から600万ドル以上を投資したのではないかと疑う人もいました。
しかし、これらのいずれについても証拠はありません。実際、計算を行った人々もいますが、それはDeepSeekの主張と一致しています。Stability AIの創設者であるエモッドは次のように書いています:「DeepSeekは実行のコストを偽装していません。データ構造、アクティブパラメータ、その他の要素を考えると、ほぼ予想通りの線です。他の人々が学習した他のモデルと同じコストで独立して実行できます。彼らは一生懸命働く優れたラボです」
別のAI科学者による別のツイートもあり、これはかなり技術的ですが、基本的に彼も同じような範囲だと結論付けています。
最後に、メインストリームメディアではあまり強調されていない1つのことについて話したいと思います。すべてのハイプと誇張された見出しを除いても、DeepSeekは実際に考えられているよりもずっと大きなものです。以下の理由からです:
DeepSeekは実際にAGIへの進歩を加速させるのです。これを理解するには、まずR1がどのように設計され、どのように学習されたのかを見る必要があります。これは非常にハイレベルな概要で、もちろん多くの技術的な詳細は省略していますが、基本的にはこのように学習されました:
彼らは以前に作成したDeepSeek V3と呼ばれるベースモデルから始めました。これから強化学習という技術を使用して、DeepSeek r10と呼ばれる新しいモデルを学習しました。最も単純な意味では、これはAIモデルが自分の答えが正しいかどうかを自分で理解しなければならないというものです。
例えば、数学の問題が与えられた場合、すべてを考え抜いて異なる解決策を考え出すだけでなく、答えを検証し、実際に正しいことを証明しなければなりません。この技術により、まず第一に、人間の指導は必要ないことが分かります。答えを示し、何を学ぶべきか指導する必要はなく、AIに任せておけば、十分な学習を重ねることで、問題を解決し、正しく答えることを自分で学習できるのです。
本当に、すべてが創発的で、何もハードコードされていません。推論について見られるものは、モデルに「ねぇ、解決策を検証すべきだよ」とか「バックトラックすべきだよ」とか「XYZすべきだよ」といった戦術は一切与えられていません。すべてが創発的で、強化学習を通じて学習されています。これは驚くべきことです。
このようにAI研究者が言うように、何もハードコードされておらず、すべてが強化学習によって学習されています。問題を解決する方法を自分で学習しなければならず、答えを検証するために各ステップを考え抜く必要があるため、このような驚くべき振る舞いが生まれます。
例えば、AIがこの数学の問題を解いている途中で「待って、待って、これは重要な発見のポイントです」と言い、そして人間の指導なしに、問題を解決するより良い方法を自分で発見します。この「重要な発見」のポイントは、基本的に強化学習によってAIが人間の指導なしに新しいことを学習し、発見できることを示しています。
それはDeepSeek r10モデルだけでした。次に、このモデルからの高品質な回答を使用して、私たちが皆知っているDeepSeek R1というさらに優れたモデルを学習しました。DeepSeek R1の学習開始時には、実際にDeepSeek r10からの高品質な回答が与えられ、その後、強化学習を使用して学習を続けました。r10からのこの初期データを与えることで、このDeepSeek R1モデルは少し賢くなり、このDeepSeek R1は様々なベンチマークでOpenAI o1を上回るモデルとなりました。
しかし、すべてが合成的であることに注目してください。r10の応答を使用してR1を最初に学習させ、その後、強化学習を使用して自分で学習を続けました。これは基本的に、AIが別のAIを学習させて、どんどん賢くなっていくということです。
他に何もしなくても、あるいはシステムにより多くの計算能力を投入しても、これを繰り返すだけで、AIは世代を重ねるごとにどんどん賢くなっていきます。そしてこれはすべて人間の指導なしです。理論的には、これを続けるだけで最終的にAGIに到達する可能性があります。
そしてもし、これにGoogleの新しいTitansのブレークスルー - これは基本的にメモリを持ち、時間とともに学習し続けることができるAIモデルです - を組み合わせれば、答えはすでに目の前にあります。これを拡大するだけでAGIを達成することができます。ちなみに、Googleのブレークスルーについてもっと知りたい方は、まだご覧になっていなければ、このビデでをご覧ください。
さらに、もう1つの点があります。DeepSeekがMicrosoftやX、OpenAIなどの大手テック企業が持っている計算能力のほんの一部で学習されたことを考えると、次世代のDeepSeekを学習するためにこれらすべての計算能力を追加したら、どれほど賢くなるか想像できますか? 実際、それが今まさにOpenAIやX、Metaが行っていることだと思います。オープンソースなのでDeepSeekをすでにクローンし、次世代を学習させるために大量の計算能力を投入しているはずです。この次世代は桁違いに賢くなるでしょう。これは考えてみると非常に驚くべきことです。
最後に、ビデオの冒頭で言及したこの人物に戻りましょう。これはDeepSeekのCEOであるlangang Wan Fさんですよね? 実は、これは同姓同名の一般の中国人です。メインストリームメディアがDeepSeekのCEOを表すためにこの写真を使用しているのは、ちょっと面白いですね。この人 - 本物の人物 - は「一体何が起きているんだ、なぜ私の写真が至る所に表示されているんだ」と不思議に思っているに違いありません。
ちなみに、気になる方もいるかもしれませんが、DeepSeekのCEOは実際にはこのような外見です。いや冗談です、このような外見です。これは彼の数少ない写真の1つで、かなり控えめな人物です。
彼の数少ないインタビューの1つから、いくつかの重要な抜粋を紹介します。「なぜ革新を選び、そしてその革新をオープンソース化することを選んだのか? リリースしたアーキテクチャは他者にすぐにコピーされるのではないか?」という質問に対する彼の回答です:
「破壊的技術に直面した時、クローズドソースで作られたモードは一時的なものです。OpenAIのクローズドソースのアプローチでさえ、他者が追いつくのを防ぐことはできません。だから私たちは、私たちのチームに価値を置いています。私たちの同僚はプロセスを通じて成長し、ノウハウを蓄積し、革新が可能な組織と文化を形成します。それが私たちの考えです。オープンソースは商業的なものというよりも文化的な行動であり、それに貢献することで私たちは尊敬を得ます。企業がこれを行うことには文化的な魅力もあります」
そして「後でクローズドソースに変更しますか?」という質問に対する彼の回答:「クローズドソースには変更しません。強力な技術エコシステムを持つことが先決だと考えています」
「資金調達の計画はありますか?」という質問に対する彼の回答:「短期的には資金調達の計画はありません。お金は私たちにとって問題になったことはありません」これは予想通りです。彼らは定量的取引会社なので、お金を稼ぐのは簡単なはずです。
彼は続けます:「高度なチップの出荷禁止が問題です」そして「より多くの投資がより多くの革新に直結するわけではありません。そうでなければ、大企業がすべての革新を独占しているでしょう」
そして、他のスタートアップや企業との競争について尋ねられた時の彼の回答:「正直なところ、私たちはあまり気にしていません。なぜなら、これは私たちが途中で行ったことの1つにすぎないからです。先ほど言及したように、これは単なるサイドプロジェクトでした。クラウドサービスの提供は私たちの主な目標ではありません。私たちの最終的な目標は依然としてAGIを達成することです」
なんて素晴らしいことでしょう。彼はお金を気にせず、競争を気にせず、すべてをオープンソース化し、彼らの主な目標はAGIを達成することなのです。
いずれにせよ、この動画がDeepSeekとは何か、この数日間に何が起きたのか、そしてなぜこれが多くの人々が考えているよりも実際に大きな出来事なのかについて、良い説明になることを願っています。私に言えることは、シートベルトを締めてください、なぜなら私たちは予想よりもずっと早くAGIに近づいているからです。
これらすべてについて、あなたはどう思いますか? コメント欄で教えてください。いつものように、私はトップのAIニュースとツールを探して皆さんと共有していきますので、このビデオを楽しんでいただけたなら、いいね、シェア、購読をお願いします。また、次のコンテンツもお楽しみに。
また、毎週AIの世界で本当に多くのことが起きているので、私のYouTubeチャンネルですべてをカバーすることは不可能です。そのため、AIで起きているすべてのことを本当に最新の状態に保つために、私の無料の週刊ニュースレターに登録することをお勧めします。そのリンクは説明欄にあります。
ご視聴ありがとうございました。次回の動画でお会いしましょう。

いいなと思ったら応援しよう!