
Deepseek R1: 中国のオープンソースAIモデルがOpenAIのコストの3%で凌駕
8,596 文字
OpenAIに対して中指を立てるかのように、彼らは「私たちはそんな複雑なやり方は必要ない。予算内でやる方法を見つけた」と言っています。そうですね、確かにo3ほど良くないかもしれませんが、それはo3が長期間訓練されてきたからかもしれません。
おはようサム、調子はどう?
マット、元気だよ。
月曜日のDeepseek R1の大きな発表についてですが、このモデルはリリースされました。この中国のオープンソースモデルは基本的にOpenAIを打ち負かし、コストの3%程度で同等のものを提供しています。
私は2つの大きなブレークスルーがあると考えています。1つ目は、モデルの訓練の非常に早い段階で強化学習のステップを取り入れたことで、推論能力が組み込まれました。それに関連して、非常に安価で革新的な方法で実現したことです。2つ目は、透明性とオープンソースという特徴で、実際にどのように機能しているのかを見ることができます。これらがOpenAIのリーダーシップを揺るがす2つの大きな要因だと思いますが、同意しますか?
ええ、その通りです。特に2つ目についてですが、o1は昨年後半にリリースされ、OpenAIは誰にもその仕組みを教えませんでした。彼らは少し得意げでしたが、どのように実現したのかを確認することはありませんでした。それは彼らの知的財産で、共有したくなかったのです。
11月末、DeepseekはこのR1のプレビュー版のような軽量版を公開しました。人々が本当に予期していなかったこと、つまり知らなかったことは、その実現方法に関する論文全体でした。多くの点で、OpenAIが示したものよりもずっとシンプルだったことが判明しました。
つまり、OpenAIは非常に困難で高価な方法で行っているか、あるいはDeepseekが、実はこれを実現するために必要とされていたほど多くのものは必要ないということを偶然発見したのかもしれません。コミュニティ全体が、これが完全にオープンであることに驚いています。人々はすでにこれを複製することや、他のモデルに使用すること、これらのアイデアを活用して新しいものを生み出すことについて話し始めています。
彼らは実際にDeepseek V3という非常に人気のあるモデルを持っていました。彼らはこのために全く同じベースモデルを使用しました。DeepseekV3はより標準化された事後訓練を行っており、これは過去数年間で人々が理解してきたことですが、事前訓練の後に通常行うのは、SFT(教師あり微調整)または指示チューニングと呼ばれるものです。
その後、モデルの望ましい振る舞いに合わせるために、最後に強化学習で仕上げを行います。Deepseekはその方法を少し投げ捨て、教師あり微調整を行わず、この種の強化学習を行うことにしました。
彼らは事前訓練済みのモデル、つまりインターネットを読み込んだものを取り、特別なプロンプトを与えます。そこでは、ユーザーとアシスタントの間の会話を作成し、何らかの質問をするように指示します。それは小学校の算数の問題のような、正解のある言葉の問題を想像できます。
これは正解があるということが重要です。なぜなら、彼らは報酬モデルを使用せず、実際の答えを何かとして使用するからです。他の高度な訓練を行う前に、事前訓練済みモデルから64の例を生成します。
その後、それらを見て、平均的な回答や実際に正解を得られた回答の数を確認します。そして、良い思考ステップで行ったものとそうでないものを計算し、それを使ってモデルを更新します。彼らは、これだけでも多くの進展が得られることを発見しましたが、100%うまくいったわけではありません。
その理由の1つは、英語と中国語で行っていたため、思考の一部が英語で、一部が中国語で出力されることでした。彼らはそれを望まなかったので、改善を試みました。最良の例を数千件取り、最初に戻って、より従来型のSFTを少し行い、数千件の例だけで訓練を行いました。
その後、この強化学習を行ったところ、非常にうまくいきました。その後、より従来型のパイプラインを実行することができ、素晴らしい結果を出すモデルが完成しました。
最初のSFTステップを省くことは、従来のアプローチが特定の質問やデータセットに対する硬直した回答方法を強制してきたという意味で、重要だったように思えます。それを省いて直接強化学習に移行することで、モデルに自身で推論ステップを考えさせることを促しています。
あなたが言うように、それは完璧には機能しませんでした。なぜなら、いくつかの問題が発生したからですが、その後、より小規模で焦点を絞ったSFTアプローチを取ることで、最初の基本的な推論ステップを台無しにすることなく進めることができたわけですね。
マット、あなたは非常に良い指摘をしましたね。これらのものに特定の思考スタイルを強制しすぎると、ある面で制限されてしまうということです。論文全体を通して彼らが示唆していた興味深いことの1つは、強化学習だけを行ったr10モデルから最良の出力を得ることで、これらの出力がすべてこのモデルと互換性があったということです。
つまり、他者の思考をモデルに強制するのではなく、基本的に自身の思考を適用しているだけで、それがこのモデルと互換性があるということです。それが本当に役立ったように思えます。
マット、ここで非常に興味深いことを説明させてください。これでより明確になるかもしれません。ここに4つのモデルがあります。Deepseek R1、OpenAI o1、蒸留されたDeepseek 32ビリオン(これは実際にquenモデルの1つのバージョンです)、OpenAI o1 mini、そしてDeepseek V3です。
Deepseek V3は、先ほど説明したように、R1が訓練されたのと同じベースモデルを持っています。統計を見ると、最も低いDeepseek V3でも39.2を記録していますが、全く同じベースモデルでこの新しいRL方式を適用すると、79.8まで跳ね上がっているのが分かります。他のすべての比較でも、ほとんどの場合で大きな飛躍が見られます。
このダイアグラムは他にも興味深いことを示しています。元のDeepseek V3からこの改良されたDeepseek R1への比較、そしてこのDeepseek R1とquen 32 B1(そこに示されているDeepseek R1 32b)の比較です。これは本当に良い成績を上げており、後の方では多くの異なるタスクでo1 miniを上回っていることも示されています。
彼らは貢献について説明する際に、この事後訓練の全体的な考え方から始めています。これが重要なポイントで、事前訓練では何も異なることはしていませんが、SFTを予備ステップとせずに、このベースモデルに直接IRLを適用したことを示しました。
これが重要なポイントで、これに関して多くの興味深い考察があります。元々、思考の連鎖(Chain of Thought)は、事前訓練モデルが時々自然に行うことに気付いたものでした。これはGoogleから出てきたもので、DeepMindも最近また言及しています。
過去6ヶ月から1年の間、思考の連鎖がモデルに訓練されモデルに組み込まれているのを見てきました。
マット、彼らが示している興味深いことの1つは、この思考の連鎖を促進し引き出すにつれて、それがどんどん長くなっていくということです。そして、それが長くなるにつれて、このベンチマークでより多くの正解を得られることが分かります。
良い結果を得るためには、まず考える必要があり、難しい質問では時には思考の連鎖や考えを巡らせることで、正解という甘い地点に到達する必要があります。これらの両方のグラフが示しているのは、その甘い地点に到達するまでに時間がかかるということです。
このモデルが本当に優れた性能を発揮する思考の連鎖の長さに達するまでには時間がかかります。ある意味で、彼らはOpenAIに中指を立てて「そんな複雑なやり方は必要ない。予算内でやる方法を見つけた」と言っています。確かにo3ほど良くないかもしれませんが、それはo3が長期間訓練されてきたからかもしれません。
大手テック企業のラボの多くもこの論文を見て「私たちもそれを試すべきだ」とか「ここには良いアイデアがある」と考えているでしょう。
ほとんどのRLでは、報酬モデルと呼ばれる異なる種類のモデル、基本的に何が良くて何が悪いかを決定するモデルを持っています。r10では、ルールベースの報酬システムを採用しています。
これらの多くは決定論的な結果を持つ数学の問題で、たとえば学校の食堂にリンゴが23個あり、昼食時に20個売れ、さらに6個買い足したら残りは何個か、というような簡単な言葉の数学問題です。それを考えるのはそれほど難しくありませんが、より複雑になると、この時点でリンゴが何個あって、この時点では23引く20で、答えの9に到達するというように考える必要があります。
重要なのは、そこに決定論的な結果があり、9が正解だということです。モデルが9と言わなければ、それにペナルティを与えることができます。彼らが行っているのは、この決定論的な結果について、正解を出したときだけ「それは良い考え方だった」と言うことです。
ただし、彼らはまた、思考をタグで囲むというフォーマットも持っています。開始の思考タグと終了の思考タグがあり、思考を示さない場合にはペナルティを与えます。「それは良くなかった」と言います。
ほとんどの場合、このアプローチが適用される場合、OpenAIのo1モデルについて完全には知られていませんが、強化学習は正しい応答に依存せず、応答が十分に良ければよいということですか?
本当の答えは分からないということです、マット。それは非常にブラックボックスなシステムだからです。人々が推測しているのは、彼らは実際にステップごとの検証を行っているということです。つまり、思考の連鎖の異なる時点でスコアを付けているということです。
2017年に当時nipsと呼ばれていた会議で興味深い話がありました。人々がモデルがどのように改善されるかについて、本当に長く複雑な答えを提示しました。しかし後から振り返ると、Transformer論文は「いや、次のトークンを予測するだけでいい」ということを示しました。
ある意味で、これも同様の興味深いことです。数学から始め、コードから始め、彼らはリートコードの問題(コーディング問題のような)について言及していますが、これを使って良く考えることを教え、時間とともに拡張できることが分かったということです。これがこれほどうまく機能し、やり方が比較的シンプルだというのは魅力的です。
サム、これはOpenAIのo1モデルが手痛い打撃を受ける領域だと思います。私の理解では、o1は明らかに答える前に考えていますが、応答する前に長い内部の思考の連鎖を生成しています。R1もそのように見えますが、R1は実際にテスト時の前の段階で推論を組み込むことで、早い段階で多くの効率性を生み出しているように聞こえます。
長い思考の連鎖プロセスの多くを避け、それをはるかに安価な方法で行っているように思えます。訓練もはるかに安価な方法で行われています。
課題は、o1が正確に何をしているのか分からないということです。o3が何をしているのかも分かりません。OpenAIの「Let's verify step by step」という論文から分かっているのは、それがR1とは異なるアプローチだということです。R1は全体を見て、正解か不正解かをチェックするだけです。
彼らが発見したのは、正解のある問題について十分に推論を訓練することが、必ずしも固定的な答えがない問題についても推論できるようになるのに十分だったということです。
思考の連鎖については、o1もR1も実際には同じです。唯一の違いは、OpenAIがその思考の連鎖を私たちに見せていないことです。彼らはそれを隠しているのです。「いや、それを見せたくない。AGIに到達したかどうかを予測するために使いたい」などと言っています。
この論文から本当の理由は明らかに思えます。R1では、60万件の思考の連鎖の例と20万件の通常の微調整の例があれば、15億パラメータしかない小さなモデルを含む他のすべての小さなモデルを訓練できました。これは非常に小さく、スマートフォンにも搭載できるサイズです。そして、特定の分野ではAnthropicのClaude 3.5と同等の性能を発揮できることが分かりました。
あなたが言ったように、これはオープンソースにとって、そして「これが私たちのやり方で、これが機能した」と言う人々にとって大きな勝利です。論文では、機能しなかったことについても言及しています。
マット、彼らは今、検索機能を追加したという本当にクールな機能も加えました。それを見てみましょう。
Deepseek R1モデルを自分で試してみたい場合は、chat.deepseek.comでチャットGPTのような彼らのバージョンを使うことができます。完全に無料で、何も費用はかかりません。
いくつかの異なるオプションがあり、基本的なDeepseek V3を使用したい場合は、このDeep thinkをオフにします。Deepseek R1モデルを使用したい場合は、これをオンにします。検索も有効にできます。
「Deepseek R1モデルについて教えて」のように質問できます。検索を実行して32件の結果を得て、考えを巡らせ、すべてを検討していることが分かります。異なるウェブページを見ていることが分かります。
確かに、非常に正確な結果を得ています。モデル自体とすべての詳細については、モデルが作られた後にリリースされたものなので、必ずしも知っているとは限りません。明らかに検索から情報を取得していますが、引用があり、どのように機能したかについての多くの情報があります。
OpenAI o1モデルとの比較を尋ねることもできます。再び、異なる検索を行っているのが分かります。ここに思考トークンがあり、それらを隠したり表示したりできます。より難しい問題では、より長く考えることは明らかです。
この場合は11秒かかり、異なる結果について言及し、OpenAI o1とDeepseekを比較し、基本的に素敵な比較表を作成しています。自分で試してみてください。完全に無料で、試すのに費用はかかりません。
サム、ここでの要点は、基本的にR1の背後にある企業、ハイフライヤー・キャピタル・マネジメント(これはヘッジファンドです)が、あらゆる角度から、あらゆるアプローチで、新興の中国式を代表しているということです。
コミュニティではこれについて対話が始まっており、中国のオープンソースモデルがこれらの問題にどのようにアプローチしているかについてですが、基本的にはシンプルさ、アジリティに焦点を当て、本当に賢い回避策、コスト効率、革新的なアイデアを重視しています。
一方で、OpenAIはアメリカ式のアプローチを代表していると思います。つまり、大量の計算能力、これらの非常に高価なモデルを実行するために必要な計算能力を作り出すための5000億ドルのファンドなどです。そして今、それが本当に正しい方法なのか、そしてそのような高価なアプローチから本当にROIを得ることができるのかについて議論が始まっています。
マット、なぜみんながOpenAIを、そしておそらくサム・アルトマンをも、これほど嫌うのか説明してもらえますか?Twitterを開くたびに、実際には何を意味するのか知らない多くの人々が、この論文がOpenAIの鼻をへし折ったことを喜んでいるように見えます。
サム、それは良い質問ですね。これは大きな感情的な話です。多額のお金が関係しており、シリコンバレーは長い間血生臭いスポーツと考えられてきました。ベンチャーキャピタリストたちがディールに参入しようと戦っています。
そしてここには、このインサイダーのコミュニティがありますが、あなたの質問に答えるなら、OpenAIの透明性の欠如に対する一定の苛立ちがあると思います。つまり、AGIに近づいているというコンセプトのハイプです。
それはAGIを必要とするという偏りがあります。なぜならAGIを手に入れれば、Microsoftから独立でき、実際にその労力の果実をより多く享受できるからです。そのアプローチには矛盾があるという考えがあります。取締役会の騒動もありました。
そのため、OpenAIとその行動を狙い撃ちにしている人々が多くいます。私のような多くのユーザーは、製品を愛しています。しかし、これらは混在した概念です。なぜAGIを追求するためにそれほど多くのお金を使い、高価なアプローチを取るのか、私たちの中には現在の問題を解決するソリューションを持つことにより重点を置き、行き過ぎないようにしようと考える人々もいます。
これは非常に魅力的で、火曜日にGoogleが新バージョンの推論モデルをリリースしたことについてまだ触れていませんが、Deepseekがなければ、それが今週最大のニュースだったでしょう。
12月に実験モデルとしてリリースしたものから大幅な向上が見られ、一部の結果では40%の向上が見られます。それを試してみると、やはり印象的です。そして再び、彼らは誰もが無料で試せるように提供していますが、本番環境に移行する場合でも、おそらくOpenAIのものよりもはるかに安価になるでしょう。
では、これは中国のモデルへの回答なのでしょうか?多くのパラメータで主導的なモデルと考えられていたチャットボット分野で今リードしているなら、明らかにテストバージョンの後では無料ではなくなりますが、OpenAIと同じ計算能力や同じアプローチを使用しているのでしょうか?
再び、私たちには分かりません。西洋のラボはその作り方についてとても静かにしています。確かに最初のバージョンからの改善は見られ、彼らは公にこれが終わりではないと言っています。これは他のものを得る前の、もう一つのステップストーンに過ぎません。
これらのオープンソースモデルを持ち出すとき、米国のプロバイダーから聞こえる反応があります。ザッカーバーグはジョー・ローガンのポッドキャストでこれを取り上げ、「天安門広場についてこれらの中国のモデルに質問してみてください。本当に良い回答は得られないでしょう」と言いました。
明らかに、ザッカーバーグは自身の問題には言及していません。私の記憶が間違っていなければ、特定のデータセットの使用で訴えられていると思います。しかし、これらの問題が実際の使用にとってどれほど重要なのか、もし偏りの認識があるなら、企業は実際にこれらを使用するのでしょうか?
私は、すべてのモデルが自然に何らかの偏りを持つと思います。私たちが他の偏りよりも寛容な偏りもあります。Anthropicは、ヨーロッパの人々がカリフォルニア人のように聞こえるモデルを望まないということを大きな問題にしました。それがチャットGPTでした。
個人的に、中国の開発者たちと多く話してきた経験から感じることは、開発者たちは法律を破ることができないということです。中国共産党がこれとこれとこれについて話してはいけないという法律を定めているので、彼らはそれらのフィルターを入れなければなりません。
しかし、それは彼らが個人的にそうしたいわけではなく、単にそれがそこでの法律なので、それに従っているだけです。それ以外の99.999%のことについて、人々はそれらの問題に触れることはありません。
マット、私が気になっているのは、6ヶ月後にOpenAIが「AGIに到達しました。これが証明です」と言い、その2週後に中国の誰かが「はい、ここにAGIを実現するモデルがあります。ローカルコンピュータで実行できます」と言うようなことが起こるのではないかということです。それが起これば、OpenAIの多くの投資家は喜ばないでしょう。
そうですね、確かにそのようなことが起こりそうな気がします。OpenAIは昨年初めや一昨年には、その物語を味方につけていたかもしれません。私たちは、彼らが行った全ての仕事と、他よりも早くAGIに到達することと、1年か2年か3年の先行があることについて、信用を与えていたかもしれません。
しかし、もはやそれを証明する方法はありません。あなたが述べたシナリオの方が、それ以外のものよりも起こる可能性が高いと思います。
素晴らしい話をありがとう、サム。
ありがとう、マット。
最新のAIとテクノロジーについての洞察をもっと得るために、いいねとチャンネル登録をお願いします。より深い分析と最新情報については、venturebeat.comをご覧ください。