見出し画像

AIショック:「R1」、最強の中国モデル!

8,678 文字

中国の人工知能モデルDeepSeek R1が新たにリリースされ、完全にオープンソース化されました。OpenAIの最高モデルと同等かそれ以上の性能を持ち、ChatGPTを凌駕しています。このモデルは蒸留によって他のモデルを生成することができ、これが何を意味するのかすぐに見ていきましょう。それ自体が革新的ですが、さらに重要なのはオープンソースだということです。個人のコンピュータでも、企業でも、あるいは独自のモデル作成にも使用できます。
この技術は最近リリースされたばかりですが、研究者たちが「ユーレカの瞬間」と呼ぶ、見過ごされている側面があります。これは研究者たちにとってではなく、モデル自体にとってのユーレカの瞬間でした。このモデルの初期バージョンは、ある時点で注目すべき自己評価プロセスを示しました。DeepSeek R1の自己評価プロセスは、強化学習によってモデルが完全に自律的に推論能力を向上させる方法の魅力的なデモンストレーションです。
これは今まさに公開されたばかりで、皆さんにもぜひ見ていただきたいと思います。中国のマストドンが加速しています。
始める前に、もしご支援いただけるなら購読をお願いします。これが最良の方法です。
私が言ったように、今日の新着はR1 Dipsicです。その背後にある企業もDipsicで、R1が問題のAIモデルです。以前にも触れましたが、今日は言わば解き放たれた状態です。完全にオープンソースです。
このポストは私がビデオを作っている時点でほんの数時間前のもので、編集を含めると皆さんがご覧になるのは明日か明後日になるでしょうが、すでに200万以上の視聴回数を記録しています。彼らが言うように、Dipsic R1はOpenAI GPT-4と同等の性能を持っています。
完全にオープンソースで、MITライセンスの技術報告書があり、自由に蒸留して商用利用できることがわかります。どれほど驚くべき性能を持っているか、すぐにお見せしますが、まずポストの最後を見てみましょう。APIを通じて利用可能で、対話もできると書かれています。URLも記載されていますので、もちろんすべてのリンクは説明欄に記載します。
ここに示されている数学の問題は、高度なベンチマークで、これらの推論モデルの優れた指標となります。特に、回答がデータベースに含まれている可能性が低いため、本当に一行一行考えて、推論を示して結論に至る必要があるからです。
別のポストでは、蒸留モデルがオープンソースであると述べています。これについて簡単に説明しましょう。というのも、これは比較的新しい概念で、まだよく理解されていない可能性があるからです。数日前の動画でも触れましたが、概念を手短に説明させてください。
これらのAIモデルは非常に大規模で高コストで、扱いが少し難しいのです。非常に優れていますが、実行が非常に複雑で、強力なハードウェアが必要です。強力なハードウェアがあっても、エネルギー消費が大きいため、あまり速くありません。しかし、非常に知的で効率的です。
蒸留とは、大規模モデルを使って小規模モデルを訓練するプロセスです。これらの非常に知的な大規模モデルは、特定の問題や特定のタスクに対して訓練された、より小規模な学習モデルを作成するための教師モデルとして機能します。
この考え方は少し戸惑うかもしれません。現在、蒸留モデルと呼ばれていますが、以前は知識の蒸留と呼ばれ、大規模モデルを使って合成データを作成し、それに伴う結果、思考、推論のステップを生成していました。基本的に、より小規模で効率的なモデルを作成するための技術です。
様々な用語を耳にするかもしれませんが、教師-生徒モデル、知識の蒸留、あるいはここでの蒸留モデルのように、実際には同じことを指しています。この分野では用語が繰り返し使用されます。大規模モデルが推論を生成し、その推論データを使って他のモデルを訓練します。そして、その小規模モデルは、元の教師モデルほど大規模や高コストである必要なく、特定のタスクで非常に効果的になります。
こちらをご覧ください。IME、非常に高度な数学の問題です。これは人工知能の水準を測るために実施される現在最も難しいベンチマークテストの一つです。以前の動画をご覧になった方はご存知かと思います。
2024年のIMEの例を見てみましょう。これが問題で、これが解に至るために必要な手順です。ChatGPT4とClaude 3.5は16%、9.3%という低いスコアを記録しています。これはパーセンテージです。GPT-4のような推論モデルになると、スコアはずっと知的になります。
そして、このR1によって作成されたAIモデルがあります。一般的に、70億パラメータのモデルは下位クラスと考えられます。今日のAIモデルはパラメータ数で分類されています。70億パラメータや700億パラメータなど、いくつかの標準的な数字があります。
70億パラメータのモデルは非常に小規模で、通常、数学や推論テストでは良い成績を収めません。700億パラメータは中級クラスで、より大規模なモデルは4,050億パラメータ、さらにはそれ以上になることもあります。GPT-4は1兆7,000億パラメータと言われており、最大級のモデルの一つです。
しかし重要なのは、このモデルが15億パラメータしか持っていないことです。小規模というレベルではなく、極小、ナノサイズです。小規模モデルと考えられているものの一部分に過ぎません。それにもかかわらず、このスコアで28%、ほぼ30%を獲得しています。つまり、ChatGPT4の3倍近い性能です。
70億パラメータ、つまりAIモデルの下位クラスである小規模モデルになると、非推論モデルの中では最高の性能を示しています。唯一上回っているのはMiniですが、これは当然です。このモデルは異なる方法で訓練されており、思考の連鎖を行うAIで、まさに推論の代表的なモデルですが、実行には巨大なセンターが必要になります。
140億パラメータに進むと、スコアは爆発的に向上します。140億パラメータのモデルは、一般消費者向けのグラフィックカードでも問題なく実行できるということはご存知でしょうか。320億パラメータでは72.6%に達します。
要するに、これらは非常に小規模なモデルでありながら、特定のタスクで優れた性能を発揮し、さらにオープンソースなのです。それだけでなく、R1を使用して独自のモデルを作成することもできます。つまり、基本モデルもオープンソースになり、オープンソースコミュニティに力を与えることになります。
これは本当に興味深いことです。なぜなら、まもなく個人データ、つまり企業のデータなどで独自のモデルを訓練できるようになると考えているからです。
次に彼らが言っていることは、少し行間を読む必要があります。アステリスクと感嘆符をたくさん付けてOpenAIの限界を押し広げていると言っていますが、何を暗示しようとしているのでしょうか?誰に向けられているのでしょうか?
それを見る前に、私の新しいプロジェクトについて手短にお話しさせてください。ご存知の通り、このチャンネルではAIに関するすべての新着情報と新製品を分析しています。私の目的は、この素晴らしい技術をできるだけ多くの人々に知ってもらうこと、そして何よりもAIに対する意識を高めることです。
以前にもお話ししましたが、私の周りの人々と話をすると、AIの本質や、社会に与える巨大な影響について、あまり認識していないように感じます。このチャンネルでは商品のプロモーションは行わず、できるだけ本物の情報を提供したいと考えています。
そのため、トレーニングコースを作成しました。生活のあらゆる場面でAIを使用する方法を学びたい方のためです。この動画をご覧の方は、おそらくすでにChatGPTなどのAIを使用されていることでしょう。
AIツールの使用方法をより深く理解し、生活のあらゆる場面で具体的に活用する方法を学びたい方は、動画の下にピン留めされたコメントのリンクをご覧ください。興味がある方はぜひチェックしてください。
Vision AIコミュニティにもアクセスできることを付け加えておきます。プロジェクトを開始してまだ間もないですが、すでに100人以上の方がトレーニングを受講されています。様々な分野から参加されているのが素晴らしく、学んだツールを各自の分野でどのように適用しているか、定期的に議論するのが本当に興味深いです。
申し訳ありません、少し話が逸れましたが、これ以上時間は取りません。すべてのリンクは説明欄またはコメント欄にあることを改めてお伝えしておきます。
では、技術的な側面に戻りましょう。この文書の中に埋もれていた非常に示唆的で驚くべきものをお見せしたいと思います。彼らはこれをDipsic R1の「アハ」の瞬間、つまりユーレカの瞬間と呼んでいます。
ここで話題になっているモデルは2つあります。これまで話してきた既知のDipsic R1と、より興味深く、少し奇妙なDipsic R10です。その理由がすぐにわかります。
Dipsic R10は、大規模な強化学習(RL)で訓練されたモデルです。以前の動画でもこの技術について触れましたが、今日のAIモデルをより知的にする最も効果的な方法の一つです。多くのモデルがこの方法で訓練されています。
人間からのフィードバックを使用する強化学習(RLHF)についてよく耳にしますが、基本的には良いことをしたら親指を立て、悪いことをしたら親指を下げる、そういう方法で訓練します。
このモデルは、事前の監督調整なしでRLで訓練されています。監督調整とは、人間がデータ、つまりラベル付きデータを提供することを意味します。例えば、翻訳タスクでは、文章とその正しい翻訳を与え、これらのデータペアをモデルに提供して「これが正解だから、これから学習せよ」と指示します。
大量の文章を、元の文章と翻訳された文章のペアで与え、それを使って訓練するように指示します。彼らによると、このモデルゼロはそのような訓練なしで訓練され、自然に顕著な推論能力を示したといいます。強力で興味深い推論行動が複数出現しました。
しかし、いくつかの問題があり、それらを解決するためにDipsic R1が作られました。つまり、Dipsic R1は一般公開用の完成版であり、Dipsic R10は奇妙で興味深い研究プロジェクトですが、まだ公開する準備ができていない可能性があります。最先端の技術で、彼らが達成できる最高のものですが、研究室に留まっています。その理由がわかるでしょう。
このモデルで何が起きているのか見てみましょう。Dipsic R10の自己評価プロセスについて語っています。このプロセスは、強化学習がモデルの推論能力を自律的に向上させる方法の魅力的なデモンストレーションです。
実際にここで示されているように、大規模言語モデルでは、人間のデータに基づく学習から、自律的な自己改善へと移行しているように見えます。以前、自己改善する能力を持つモデルに関する研究について動画を作りました。その動画でここで話している多くの概念を詳しく説明していますので、まだご覧になっていない方のために説明欄にリンクを残しておきます。
例えば、GoogleのAlphaGoモデルでは、人間のデータで訓練すると相当良くなりますが、チェスや囲碁のように自己トレーニングを行う方法を見つけると、自分自身と対戦し、何十億もの対局を生み出し始めます。自己学習に入り、ただ勝つことだけを目標に掲げます。チェス盤の各駒の意味や使うべき戦略を具体的に教えることはせず、ただゲームのルールだけを与えて対局させます。無限に自分と対戦させ、ゼロから学習させることで、人間を超える能力を身につけていきます。
チェスをプレイするAIには興味深い事例があります。私たちが非常に悪手だと考える、奇妙で異様な手を指すことがありましたが、それは専門家でも決してしないような手でした。しかし、世界チャンピオンたちを打ち負かした後になって、何かに気づき始めました。それは私たちの理解を超えた手だったのです。計算があまりにも深すぎて、人間の頭脳では、それがいかに素晴らしい手だったかを理解できなかったのです。
興味深いのは、今や同じような自己学習と自己評価のプロセスを、大規模言語モデルでも引き起こす方法を理解し始めているように見えることです。これは本当にすべてを変える可能性があります。人間のデータは必要なくなり、完全に自己改善できるようになるかもしれません。
図3が示すように、訓練プロセスを通じて一貫した改善を示しています。重要な点は、この改善が外部からの調整の結果ではなく、モデル内部での本質的な発展だということです。理解を深めていただくために説明すると、このモデルを訓練する際、「このデータを使って結果を出し、それが良いか悪いか教えてあげる」というやり方はしません。代わりに、モデルを動作させ、自己改善と自己判断を行わせるのです。
モデルゼロは、長い計算時間を活用することで、自然により複雑な推論タスクを解決する能力を獲得します。つまり、論文で述べられているように、考え、処理し、回答する前に思考を生成する時間が長くなればなるほど、より良い結果が得られるということです。これは私たち人間と同じです。質問について考える時間が長ければ長いほど、より良い答えが出せます。
ここから興味深くなってきます。この自己評価の最も注目すべき側面の一つは、計算時間が増えるにつれて、高度な行動が出現し始めることです。この「出現」という概念の存在自体について、またそれが適切な言葉かどうかについて、多くの議論があります。
基本的な考え方としては、モデルの訓練を継続し、より多くのリソースとデータを与え続けると、時として突然の能力向上や、私たちが予期していなかった新しいスキルが現れることがあるということです。時にモデルは、私たちが予想もしていなかったことができるようになり、それが可能だということに驚かされます。
例えば、画像モデルを訓練する場合、最初は意味のないものしか出力できませんが、データと計算能力を増やしていくと、ある時点で突然、本物のオブジェクトが現れ始めます。最終的には影や光源、3D空間、さらには反射や解剖学的な理解までもが可能になります。
Ninjaのジム・ファン博士は、これを「物理学の仕組みを学ぶモデル」と呼びました。彼によれば、モデルは暗黙的に学習します。物理学の方程式や仕組みの説明を与えるのではなく、単にたくさんのビデオシーケンスを与えるだけです。そして時間とともにスケールが大きくなるにつれて、物理学の仕組みについてより良い理解を発展させていくことに気づきます。
これだけでも十分に驚くべきことです。完璧ではありませんが、現実世界の物理学の仕組みについて、一種の精神モデルを持っているように見えます。以前の動画で取り上げたいくつかの研究では、精神モデルという用語が適切であることを示しています。
この論文の研究者たちが高度な行動の出現について語るとき、これは必ずしも私たちが導いているものではないということを理解することが重要です。それは自然に現れるものなのです。まるで意識と知性が、データや学習の複雑さに応じて自然に現れるかのようです。
おそらく、これは私たちの意識が現れた方法かもしれません。AIが私たちの意識や意識の本質について多くのことを教えてくれる可能性があるというのは、とても魅力的です。しかし、それは別の議論ですね。
実際、前のステップを振り返って再評価するような反省的な行動や、問題解決の代替アプローチの探索などの継続的な行動が、自然に現れます。彼らはこの点を強調しています。これらの行動は明示的にプログラムされているのではなく、学習環境とモデルの相互作用の結果として現れると述べています。この自発的な発展が、Dipsicの推論能力を大きく向上させるのです。
このモデルの訓練中に観察された興味深い現象の一つが、「ユーレカの瞬間」、つまり「アハ」の瞬間の出現です。この段階で、モデルゼロは初期のアプローチを再評価することで、問題により多くの思考時間を割り当てることを学びました。これは予期せぬ高度な結果でした。
実際、この考え方、つまり知性が一種の創発的な特性であるという考えに強く反対する人々も多くいます。科学や SF、あるいは哲学をよく読む方で、この質問に答えられる方がいらっしゃれば、コメント欄で教えていただきたいと思います。そのような回答を読むのが好きです。
私の知る限り、読んだほとんどのSF小説では、人工知能やロボットについて、人間によって慎重に設計されたものとして描かれています。スター・トレックのデータや、アイザック・アシモフの「ファウンデーション」におけるロボット工学の法則など、すべてが人工知能を人間によって構築され、コード化されたものとして描いています。
私の知る限り、人工知能を、すでに存在していて、ただ成長させ育てる必要がある物質の創発的な特性として描いているものはありません。イリヤ・サツケバーが「これらのトランスフォーマーは学習したがっている」と言ったとき、これを指していたのだと思います。彼は本当に先見の明がありました。
また、サム・アルトマンが「知性は物理学の創発的な法則かもしれない」と言ったとき、質問は次のようになります:この思考の道筋を予測し、指摘したSF小説や映画はあるでしょうか?考えてみても思い浮かびません。
さて、論文は続けて、研究者たちにとってのアハの瞬間、つまりユーレカの瞬間は次のようなものだったと述べています:これは強化学習の力と美しさを強調するものでした。モデルに問題の解き方を明示的に教える代わりに、適切なインセンティブを与えただけで、モデルは自律的に高度な問題解決戦略を発展させました。
これは、人工システムにおける新しいレベルの知性を解き放つための強化学習の可能性を強力に示唆するものであり、将来的により自律的で適応的なモデルへの道を開くものです。
これが大きな出来事である理由は、この考えが今やシリコンバレーのAI企業だけでなく、中国企業によっても採用されているからだと思います。異なる場所、異なる文化、異なるガバナンス機関、異なる政治システム、つまり異なる動機を持つ組織が、しかし同じことを言っているのです。
これらは学習したがっているだけで、暗黙的な学習が行われており、適切な環境を整えれば、創発的な知性、創発的なスキル、創発的な能力が現れると。これらすべてを見るのは非常に興味深いことです。
Dipsicは、研究者たちが観察し研究するのに非常に興味深い奇妙なモデルです。確かにこの方向でさらに多くのことを行うでしょうが、この分野でより多くの科学的探求が行われるまでは、おそらく製品は出てこないでしょう。
このモデルから浮かび上がるもう一つの特徴は、推論の一部が人間的だということです。ここで述べられているように、モデルは擬人化された調子、つまり人間的な言語や態度を使って再考することを学びます。推論のステップを進め、「待って、待って、待って、ここでアハの瞬間を指摘できる」というような具合です。モデルは小さなユーレカの瞬間を経験したのです。
私は非常に興味があります。これは皆さんにとって恐ろしいことでしょうか、それとも続きを見るのが楽しみでしょうか?多くの人々が、これらのオープンソースモデルの一部のリリースについて非常に慎重で警戒的だったのは、部分的には中国がそれを手に入れたり生産したりすることを望まなかったからです。
2025年初頭の現在、状況は大きく異なっているように見えます。オープンソースモデルは、今日入手可能な最先端のAI企業の最高モデルと同等の性能を持ち、中国が最初にそれをオープンソース化しました。正直に言って、これは予想外でした。
皆さんはどう思われますか?まず、モデルが推論中に経験したユーレカの瞬間についてどう思われますか?自己評価についてはどうでしょうか?そして一般的にオープンソースについてどう思われますか?
すべてのオープンソースモデル、インフラストラクチャ、研究が世界中で利用可能になれば、もちろんすべてを管理し、自分がコントロールしていることを確認し、AIの開発の方向性に影響力を持つことは少し難しくなります。これは本当に考える価値のある質問です。私には答えがない、少なくともこの件について確固たる意見はありません。
いずれにせよ、動画をご覧いただきありがとうございます。まだ購読されていない方は、ぜひ購読をお願いします。これが私をサポートする最良の方法であり、特にこのような動画をフォローするのに最適です。技術とAIに関する最新情報を毎日1本ずつ公開しています。
また、AIを学びたい方のために、説明欄またはビデオ下のピン留めされたコメントにすべてのリンクがあることを改めてお伝えします。ありがとうございました、また明日。

いいなと思ったら応援しよう!