このオープンソースAIは全てを圧倒する - DeepSeek R1

2025年1月24日 20:31

8,969 文字

この企業は副業プロジェクトとして始まり、外部資金を求めませんでした。従業員数はわずか200人程度で、OpenAIの4,000人以上と比べてもごくわずかです。最高のGPUも持っていませんが、この会社は驚くべきオープンソースモデルをリリースしました。
DeepSeek R1と呼ばれるこのモデルは、完全に無料でオープンソース、検閲もありません。今すぐ使用可能で、一部のユーザーはiPhoneやAndroidでも使用できています。さらに驚くべきことに、このモデルはOpenAIのフラッグシップモデルであるo1を凌駕しています。
これはPhDレベルのAIで、DeepSeek R1は様々なベンチマークでo1に匹敵するか、それを上回る性能を示しています。ついにオープンソースが最高の商用モデルに追いつき、さらには凌駕したのです。
このビデオでは、DeepSeek R1とは何か、そのアーキテクチャ、仕組み、利用可能な異なるモデル、そして他のユーザーが共有している興味深い使用例について説明していきます。
このメインページへのリンクは説明欄に記載しますが、技術論文も公開されていて、トレーニング方法や設計の詳細を知りたい方は読むことをお勧めします。このビデオでは、その開発プロセスについて簡単に説明します。
このDeepSeek R1モデルは、ChatGPTやClaude 3.5のような従来の大規模言語モデルとは大きく異なります。従来のモデルは教師あり学習を使用していますが、これについては後ほど説明します。対照的に、DeepSeekはモデルのトレーニングに強化学習を使用しています。
強化学習とは何でしょうか？最も単純な説明をすると、強化学習は次のようなものです。エージェント（AI）が特定のアクションを取り、そのアクションが正しい場合は報酬を、間違っている場合は罰を受けます。
これは犬のトレーニングに似ています。犬が良い行動をすると褒美（報酬）をもらい、悪い行動をすると叱られる（罰）というようにです。時間とともに、犬はどのような行動が褒美につながり、どのような行動が叱責につながるかを学習します。
同様に、AIを強化学習でトレーニングする場合、このフィードバックループを通じて、最高の報酬を得るための最適な行動を学習します。この場合、プロンプトに正しく応答したり、最高の精度を達成したり、最高のベンチマークスコアを獲得したりすることが報酬となります。
彼らはDeepSeek r10を教師ありデータを使用せずに強化学習でトレーニングしたと述べています。これはどういう意味でしょうか？
従来のChatGPTやLlama、その他のAIモデルのトレーニング方法では、大量のデータを与えるだけでなく、検証用の正解も提供します。例えば、猫や犬の画像を識別するようAIモデルをトレーニングする場合、大量の猫や犬の画像を与え、最初はランダムな回答を出力させます。
その後、AIの応答と提供した正解を比較し、応答が間違っている場合、AIモデルは次回正しく答えられるようにエラーを最小化するために重みを再構成します。このように、AIが応答を比較するための正解を提供するため、これは教師ありデータまたは教師あり学習と呼ばれます。
しかし、このベースモデルであるDeepSeek r10について、著者らは人間からの初期ガイダンスや教師ありデータなしで、強化学習のみでトレーニングしたと述べています。これは、完全に自身の経験から学習したということです。
例えば、数学の問題が与えられた場合、実際の正解は提供されません。そのため、数学の問題を解くための異なる方法を試すだけでなく、自身の回答も検証しなければなりません。これは、これまでに見たことのない全く異なるモデルです。
その結果、自己チェックや複雑な問題を段階的に考える能力など、高度なスキルを身につけました。これはAI研究における大きなブレークスルーで、AIが人間からの追加支援なしに自己改善と学習が可能であることを示しています。
この論文からもう一つ興味深い洞察が得られます。強化学習を使用し、人間や既存の回答による指導を受けずに自力で物事を理解する必要があるため、DeepSeekは新しい技術を発見し、それを「アハ体験」と呼んでいます。
ここでモデルは、人間からの指導なしに独自に問題を解決する新しい方法を発見しました。これは再び、AIが明示的な指示なしに問題解決方法を適応し改善する能力を示しています。
以上がDeepSeek r10の開発についての説明です。その後、さらに優れたモデルであるDeepSeek R1が作成されました。
ここで、DeepSeek r10の有望な結果から2つの疑問が生じました。一つは、高品質なデータを少量コールドスタートとして組み込むことで推論性能をさらに向上できるかということです。つまり、AIモデルに全てを強化学習から学ばせるのではなく、開始時に高品質なデータを与えることで性能が向上するかということです。
もう一つは、明確で一貫した思考の連鎖を生み出すだけでなく、強力な一般的能力も示すユーザーフレンドリーなモデルをどのようにトレーニングできるかということです。
これら2つの疑問に対応するため、彼らはDeepSeek R1モデルを作成するためのハイブリッドトレーニングアプローチを開発しました。
技術的な詳細には深入りせずに説明すると、高品質な思考連鎖データを与えました。このデータには、詳細な回答と振り返り、検証が含まれており、非常に読みやすい形式になっています。
このアプローチは、強化学習のみでトレーニングされた元のDeepSeek r10モデルで経験された混乱する言語や不明確な記述などの問題を解決するのに役立ちました。
この高品質なデータを処理した後、教師ありデータのない強化学習に移行し、全ての問題を解決し、全てを自己チェックする学習を行いました。
これはハイブリッドアプローチであることに注意してください。最初に高品質な教師ありデータを受け取り、その後強化学習、つまり自己学習に移行します。
このハイブリッドトレーニングパイプラインにより、実際に非常に優れた性能を発揮しています。
ここに英語、コーディング、数学、中国語などの様々なベンチマークの表があります。太字の値は最高性能を示しています。ほとんどの項目でDeepSeekがPhDレベルのAIである、難しい数学やコーディング、科学の問題を解決できるOpenAI o1モデルを上回っていることがわかります。
特に数学についてはDeepSeekがo1を圧倒しており、これは絶対に驚くべきことです。
これは動画の冒頭で示したもう一つのグラフです。左の濃い青い棒がDeepSeek R1で、ほとんどのベンチマークで濃いグレーのOpenAI o1を上回るか、少なくとも同等の性能を示しています。
DeepSeekが完全にオープンソースで無料、ローカルで実行可能なモデルであるのに対し、OpenAIはクローズドソースでo1がどのように設計されているのか、正確に何なのかわからないことを考えると、これは信じられない進歩です。
これらは公表されたメトリクスですが、本当にそれほど優れているのでしょうか？いくつかの独立した評価を見てみましょう。
ここに「Humanity's Last Exam」という新しいベンチマークがあります。これはかなり驚くべきベンチマークで、世界で最も難しいAIベンチマークとして設計されています。様々な分野におけるAIモデルの専門家レベルの能力を本当にテストします。
GPT 4oやClaude 3.5 Sonnet、Gemini Thinking、さらにはo1のようなトップモデルでさえ、その性能は低いことがわかります。GPT 4oは4%未満で、平均して10%未満です。
しかし、これらすべてのモデルの中で、DeepSeek R1が最高スコアを記録したことがわかります。これらのモデルの中で唯一の無料でオープンソース、検閲のないモデルであることを考えると、これは素晴らしい結果です。
次に、Abacus AIによる別の独立した評価ツールであるLivebenchを見てみましょう。ここでもDeepSeekはGoogleのフラッグシップモデルであるGemini 2.0 Flash Thinkingを上回る2位にランクされています。平均スコアはOpenAI o1より数パーセントポイント低いだけです。
このDeepSeekモデルは正当に優れています。もう一つの独立した評価者であるArtificial Analysisのリーダーボードを見てみましょう。ここでもDeepSeekは2位にランクされており、o1に1ポイント差まで迫っています。
上位5つの結果を見ると、DeepSeekだけが無料でオープンソースです。モデルは既にリリースされており、ローカルでダウンロードして実行したり、好きなように調整したりできます。
ローカルで実行したくない場合は、無料で使用できるオンラインプラットフォームもいくつかあります。例えば、DeepSeekは無料でDeepSeek R1とチャットできるネイティブチャットインターフェースをリリースしています。
このチャットには2つの機能があります。1つはDeep Think機能です。これをオンにすると、質問に答える際の思考プロセスが表示されます。例えば、9.9と9.11のどちらが大きいかをテストしてみましょう。
Deep Thinkボタンをオンにしているので、人間のように考えて質問に答える過程が表示されます。その後、9.9が9.11より大きいことを確認します。
また、これをクリックしてウェブを検索し、最も関連性の高い最新の情報を取得することもできます。Deep Thinkをオフにして、ウェブ検索をしてみましょう。「トランプの5,000億ドルのStargateプロジェクトの発表について教えてください」
これは2日前に起きたことなので、このAIのトレーニングデータにはないはずです。ウェブ検索機能をオンにして、最新の情報を検索する必要があります。エンターを押して、何が返ってくるか見てみましょう。
ウェブを検索し、50件の結果を見つけ、それらの情報から引用していることがわかります。実際に、OpenAI、Oracle、SoftBankとのパートナーシップを含むすべての詳細が正確で、2025年1月21日に発表されたことも確認できます。
このDeepseekのチャットツールはPerplexityのように非常に強力なツールとして使用できます。
次にこれをオフにして、PDFなどのドキュメントをアップロードして分析することもできます。例えば、Titansという新しいアーキテクチャに関するこの技術論文をアップロードし、1段落で要約するよう依頼してみましょう。
この論文を知らない方のために説明すると、これは基本的に記憶を組み込んで新しいことを継続的に学習し記憶できる新しいAIモデルです。興味がある方は、この論文について詳しく解説した最新の動画をチェックしてください。
DeepSeekに戻りましょう。1段落の要約が提供され、簡単に確認しただけでも正確であることがわかります。チャットだけでなく、ドキュメントをアップロードして分析することもできる素晴らしいツールです。
これはDeepSeekをオンラインで無料で使用できる多くのプラットフォームの1つに過ぎません。もう1つの興味深い場所は、colqueによるAny Chatという無料のHugging Faceスペースです。
DeepSeek Coderを含む多くの異なるAIモデルから選択でき、右パネルで出力をプレビューできるので、プロトタイピングに非常に便利なツールです。
「Spotifyホームページのクローンを作成」とプロンプトを入力して、生成をクリックし、何が出力されるか見てみましょう。左パネルでコードが生成され、右側にページのプレビューが表示されます。これはすごいですね。これはどのように使えるのでしょうか？「Create an interactive synth piano with adjustable settings」とプロンプトを入力して、生成をクリックしてみましょう。
左パネルでコードが生成され、終了後に右パネルにプレビューが表示されます。いくつかのキーをクリックして動作を確認してみましょう。はい、動作します。異なる波形を選択してみましょう。Squareを選択してみましょう。素晴らしいです。Sawtoothも選択してみましょう。素晴らしいですね。
わずか3秒で、pianoのスペルミスがあったにもかかわらず、インタラクティブなシンセピアノが動作しました。
これらは基本的な例に過ぎません。このHugging Faceスペースへのリンクは説明欄に記載しますが、他のユーザーが投稿したさらに興味深い使用例をご紹介します。
このユーザーはDeepSeek R1にピタゴラスの定理を説明するアニメーション全体を作成させました。これは1回のプロンプトで、エラーなしに30秒未満で完了したと述べています。
なお、これは数学的なアニメーションや説明用ビデオを作成するためのオープンソースツールであるManumというコーディング言語で出力されています。
既にDeepSeek R1が作成できることは驚くべきことです。ピタゴラスの定理の説明は簡単です。これは高校レベルのものですが、次に量子電気力学に関するアニメーションを作成させました。これは私の知識をはるかに超えていますが、数学的なエラーなしで一発で作成できたと主張しています。
本当に印象的で強力なAIモデルですね。このビデオのスポンサーであるAI Portraitに感謝します。LinkedInやビジネスプロフィールに良質なプロ写真があることは大きな違いを生みます。
自分で撮影したり、友人に依頼したりすることもできますが、ほとんどの人はプロ写真の撮影が得意ではありません。あるいはプロのフォトセッションを依頼することもできますが、平均して200ドル以上かかり、セッションのスケジュールを組んで何時間もカメラの前で気まずくポーズを取る必要があります。
ここでAI Portraitの出番です。わずか数分で高品質なプロフェッショナル写真のポートフォリオを生成できます。1枚の写真をアップロードし、性別を選択するだけで、様々な設定で50枚のプロフェッショナルなヘッドショットのポートフォリオが数分で生成されます。
実際のフォトセッションの手間なしで高品質なプロフェッショナル写真が欲しい場合、AI Portraitが最適です。説明欄のリンクからチェックしてください。
このほかのユーザーはDeepSeekに赤いボールが跳ね返る回転する三角形の実装を依頼し、左側でOpenAI o1 Proに同じプロンプトを与えました。トップモデルの1つであるo1 Proでもこのアニメーションを生成できませんが、右側のDeepSeekは完璧に処理できています。
これらは使用できるクリエイティブなアイデアの一例に過ぎません。既に言及したように、ローカルでダウンロードできるモデルをリリースしており、実際に様々なサイズのいくつかのモデルをリリースしています。
主なモデルとして、強化学習のみを使用して作成されたベースモデルのDeepSeek r10があります。そして、初期の教師ありデータと強化学習の両方を使用してトレーニングされた、若干優れたモデルであるDeepSeek R1があります。
これらのモデルはどちらも6,710億のパラメータを持ち、ほとんどの商用AIモデルと同様に120kのコンテキスト長を持っています。
6,710億のパラメータでは、ほとんどの人がローカルで実行するには大きすぎます。幸いなことに、これら2つの主要なモデルをリリースしただけでなく、より小さなモデルに基づいたいくつかの小さなバリアントもリリースしています。
例えば、DeepSeek R1 Distill Llama HPを見てみましょう。これははるかに小さなLlama 80億パラメータモデルに基づいています。このモデルは、DeepSeek R1の出力を使用してLlama 3.18Bを微調整したものです。
比喩的に言えば、DeepSeek R1の知性の一部をこのLlama 8Bモデルに渡すようなものです。合計6つの小さなモデルがリリースされており、最小のものは15億パラメータです。
これらは小さなモデルで、このモデルはわずか1.5Bなので、ベースモデルや40やClaude 3.5 Sonnetのような主要な商用モデルと比べて性能が劣るのではないかと思うかもしれません。
しかし、この技術論文のどこかに隠された重要な一文があります。見つけてみましょう。
「このDeepSeek R1 Distill Quin 1.5bモデルは、数学のベンチマークでGPT 4oとClaude 3.5 Sonnetを上回る性能を示します。」
冗談でしょうか？1.5億パラメータのこのモデルが、数学のベンチマークで主要な商用モデルであるGPT 4oとClaude 3.5 Sonnetを上回るのです。
これらはどちらも数千億のパラメータを持っているので、100倍以上小さいこのモデルが数学でこれら2つのモデルを上回れることも驚くべきことです。
これが利用可能な全てのモデルの概要です。このフルモデルを実行したいが十分な計算能力がない場合は、DeepSeek APIも使用できます。
さらに驚くべきことに、DeepSeekの使用コストは非常に安価です。APIを使用する場合、出力トークン100万件あたり22.19ドルです。OpenAI o1の100万トークンあたり60ドルと比較すると、DeepSeekはo1の約27分の1の価格です。
しかも無料で、オープンソースで、完全に検閲がなく、o1の性能に匹敵します。これは絶対に驚くべきことです。我々は知性が測定するにはあまりにも安価な時代に生きています。
とはいえ、APIを使用したくない場合やすべてをローカルで実行したい場合は、いくつかのオプションがあります。前述のように、1.5bが最小のオプションで、一部のユーザーはiPhoneでローカルに実行することに既に成功しています。
これは完全にオフラインで、インターネットやGPUクラウドへの接続は必要ありません。このDeepSeek 1.5bモデルはiPhone 16でかなり高速に実行できます。iPhoneを持っていない場合でも、Androidでも動作します。
このユーザーの例では、Androidでオフラインでの設置と実行に成功しています。この1.5bバージョンが数学でGPT 4とClaude 3.5 Sonnetを上回ることは驚くべきことです。
1.5bの小さなモデルだけでなく、6,710億パラメータの完全なモデルの実行にも成功したユーザーもいます。この人はわずか2台のM2 Ultraで実行に成功し、その応答速度は非常に高速です。
これも信じられないことです。o1と同等の性能を持つオープンソースモデルを、消費者向けのハードウェアで実行できるようになりました。GPUファーム全体をレンタルする必要はありません。
さらに驚くべき設定もあります。この人は、DeepSeek R1のフルバージョンを実行するために、7台のM4 Pro Mac miniと1台のM4 MacBook Proをリンクしたそうです。見てわかるように、動作し、非常に迅速に回答します。
計算能力はますます高速で効率的になっていきます。例えば、NVIDIAは今年の春にAIスーパーコンピュータをロールアウトする予定で、これによりさらに大きなモデルを家庭で実行できるようになります。今年は本当にエキサイティングな年になりそうです。
最後に、NVIDIAのJim Fan博士によるDeepSeek R1に関する投稿で締めくくりたいと思います。
「非米国企業がOpenAIの本来のミッションを実現している時代に我々は生きています。真にオープンなフロンティア研究を行い、全ての人々に力を与えるDeepSeek R1は、モデルの大規模なオープンソース化だけでなく、全てのトレーニングの秘密も公開しています。
彼らはおそらく、強化学習フライホイールの大きな持続的成長を示す最初のオープンソースソフトウェアプロジェクトです。」
なんという皮肉な展開でしょうか。OpenAIの本来のミッションは、人類の利益のためにオープンソースAIを作ることでしたが、現在、彼らのトップモデルは全てクローズドで、どのようにトレーニングされたのか、これらのAIモデルのアーキテクチャも全くわかりません。
皮肉なことに、中国企業であるDeepSeekがOpenAI o1を上回る最先端のモデルをオープンソース化しています。なんというプロットの展開でしょうか。
以上がDeepSeek R1についての詳細な解説です。その能力と印象的な点についてよく理解していただけたと思います。コメント欄で感想を聞かせてください。試してみた方は、他にどんな面白いことができたか教えてください。
いつものように、トップAIニュースやツールを共有していきますので、この動画を楽しんでいただけた方は、いいね、シェア、購読をお忘れなく、次のコンテンツもお楽しみに。
また、毎週AIの世界で多くのことが起きているため、YouTubeチャンネルですべてをカバーすることはできません。AIの最新情報を本当に把握するには、無料の週刊ニュースレターを購読してください。リンクは説明欄に記載しています。
ご視聴ありがとうございました。次回の動画でお会いしましょう。

このオープンソースAIは全てを圧倒する - DeepSeek R1

いいなと思ったら応援しよう！