オープンソースDeepSeek

2025年2月1日 17:53

38,392 文字

テストです、YouTubeでのテストです。YouTubeでライブ配信をしています。しばらくこれを変更する必要があります。open room XYZ、Max Mali、Sagar poly、そしてMark Bさん、こんにちは。今回はかなり内容が濃いものになりそうです。スライドもたくさんありますし、時間も限られているので、なるべく手短に進めていきましょう。もうすぐXでもライブ配信を始められると思います。
まず最初に、今日新しいホルンを手に入れました。これはゴンドールのホルンで、野生の白い種類のホルンから作られ、狩人のヴェレルによって作られたものです。ゴンドールの執政官のもので、銀でできており、古代の文字が刻まれています。伝説によると、古代ゴンドールの領域内のどこでこのホルンを吹いても、その音は無視されることはないと言われています。
ちなみに、このホルンは中国製です。
今日はDeepSeekについて話します。DeepSeekについては、もう散々話し尽くされていると思います。金曜日の私の配信を見ている頃には、おそらく他のオープンソースDeepSeekの配信を何百も見ているでしょう。私は少し出遅れた感がありますが、このチャンネルは教育的というよりも娯楽的な要素が強いことに気付きました。
そこで、コンテンツや見解に対して評価をつけてみましょう。今週のDeepSeekコンテンツの1位は、DeepSeekの数学論文です。私は論文が好きなので少し偏っているかもしれませんが、統一的なパラダイムとDeepSeek数学論文での説明は、おそらく最高のコンテンツでした。
2位はBcloudのビデオとFireShipのビデオの同率です。これらは素晴らしいチャンネルで、おすすめです。彼らはミームと本当の技術的知識を組み合わせています。ある意味で、私のストリームのこのようなミーム的なバージョンは、彼らに影響を受けています。
TwitterでのDeepSeekに関する最高の見解は、実はKathyの見解です。シンプルで、データとアルゴリズムの両方でまだ多くの課題があることを示す良いデモンストレーションだと評価しています。また、これが最高の見解である理由は、昨年からこの見解を持っていたからです。
最悪の見解は、Palmer Luckeyの見解で、DeepSeekを中国のスパイや宣伝のようなものだと非難しています。Oculusを作ったPalmer Luckeyを尊敬していますし、それは素晴らしい技術だと思いますが、代理戦争の状況になれば彼は多額のお金を稼ぐことになるので、彼が戦争を煽るような発言をする場合は、それを聞き入れるべきではないでしょう。
2番目に悪い見解は、David Sackの「知識を吸い取る」という見解です。彼は基本的に、AIについてあまり知らない人々に対して、DeepSeekがコピーしたり、不正をしたり、データを盗んだりしたかのように見せかけようとしました。技術的には間違っていないかもしれませんが、非常に誤解を招くものです。これは不正や窃盗ではありません。誰もが互いから学び合っているのです。自分が所有していない知能の所有権を主張するのは偽善的です。人類は一つの巨大な蒸留プロセスであり、誰もが誰からも学んでいるのです。
私はMira MoradiのOpenAI CTOの写真を持っています。これは彼女がYouTubeやその他の公開データで学習をしているかどうかを尋ねられたときの表情です。彼女はイエスと言いたくなかったようですが、基本的にはイエスと言いました。
また、DeepSeekの騒動は、Gary Marcusの実際に良い見解という珍しいものをもたらしました。通常ひどい見解で知られているGary Marcusですが、ここでは良い見解を示しています。DeepSeekはOpenAIの利用規約に違反して蒸留を行った可能性がありますが、OpenAIも基本的にYouTubeや無数のアーティスト、作家に対して同じことをしているので、因果応報ですね、と述べています。
さて、ミームは終わりにして、数学とコーディングに戻りましょう。DeepSeekの数学から始めて、特にGRPOについて見ていきましょう。GRPOはPOの変種です。誰もがPOを知っていますよね、おそらく最初に学ぶRLアルゴリズムです。これら2つを深く掘り下げていくと、それぞれが何をしているのかをよりよく理解できると思います。
ここにGRPOとPOの目的関数、つまり最大化しようとしているものがあります。非常に似ていることがわかります。まず最初の違いは、ここでQがp(Q)からサンプリングされていることです。p(Q)は質問の確率分布で、基本的には数学の質問です。この巨大な可能性のある数学の質問データセットから、いくつかの質問をサンプリングしているわけです。それが小文字のqです。
POとGRPOの主な違い、あるいはいくつかの違いの1つは、GRPOでは古いポリシーであるπθ_oldからサンプリングしていることです。これはニューラルネットワークです。このニューラルネットワークは、big Oを受け取ります。これは質問Qに答え始めるまでの観察のことです。そしてそれは一連の回答を生成します。
G個のiについて1からGまで和をとっているのがわかりますね。基本的にこの青い部分を実行していますが、すべてのGについて和をとっています。つまり、これらのoiがG個あり、それらすべての平均を取っているということです。POではそうではなく、単一のoをサンプリングしています。GRPOでは複数のo、G個のoをサンプリングし、POでは1つのoをサンプリングします。ここでoとは、これらの完了のことです。
では、この和は何なのでしょうか？まず、このπθとπθ_oldについて説明しましょう。なぜこのπθとπθ_oldがあるのでしょうか。
これを説明するために、on-policyとoff-policy強化学習について説明する必要があります。強化学習の核心は、ポリシー（あるいはエージェント、ニューラルネット、ロボットなど、様々な呼び方があります）が環境と相互作用し、その環境が報酬を提供するということです。その報酬は勾配更新に使用され、ポリシーを更新します。
ポリシーを更新すると、ポリシーと古いポリシー（勾配更新を適用する前のポリシー）が存在することになります。on-policyでは、その観察を作り出したポリシーに常に勾配更新を適用します。基本的に、観察を作り出すものが、勾配更新を受け取るものです。
off-policy強化学習でも同じようなパラダイムがありますが、エージェントやポリシーが環境と相互作用するたびに、それを通常リプレイバッファーと呼ばれるデータベースに保存します。そしてそのリプレイバッファーからサンプリングします。このリプレイバッファーからサンプリングすると、もはや同じポリシーではないような例を使って、ポリシーの更新を適用することがあり得ます。
これは高レベルな直感的な説明で、その間にある様々なニュアンスやものがありますが、重要なのは、収集している経験が何らかのポリシーから来ているということです。そしてそのポリシーは、必ずしも勾配を受け取るポリシーと同じである必要はありません。経験を収集したポリシーと、勾配更新を受け取るポリシーの間の距離が大きければ大きいほど、より多くの問題が発生します。
そのため、off-policy強化学習では、より多くのデータを得られるものの、より多くの複雑さが生じます。なぜなら、そのデータを収集したポリシーと、ポリシーに勾配を適用するために使用するポリシーが同じではないからです。
GRPOとPOでは、πθは現在のポリシー、πθ_oldは古いポリシーを表します。では、この比率は何を意味するのでしょうか？基本的に、このトークンoitTを生成する確率を表しています。このoitTはここにあるものです。iTは基本的に、これらが複数あることを示しています。
ポリシーπθが質問Q（可能な質問の分布p(Q)からサンプリングされた）を受け取り、さらにT時点までのoiを受け取っていることがわかります。基本的に、ここまでのoiを受け取り、次のものを予測しようとしています。
この比率は、もし分子が分母よりも大きければ、新しいポリシーが古いポリシーよりも正しいトークンを選ぶ可能性が高いことを意味します。つまり、進歩していることを示しています。この比率が正であることが望ましいです。なぜなら、特定の状況で正しいトークンを選ぶ確率が増加していることを示しているからです。
もし分母が大きければ、間違った方向に進んでいることを意味します。実際に選びたい次のトークンを選ぶ可能性が低くなっているということです。
では、このMinとこのclipは何なのでしょうか？このclip関数は何をしているのでしょうか？このものはときどき非常に奇妙な値になることがあります。時には分母が非常に小さな数で割ることになるかもしれません。分子も非常に小さな数になるかもしれません。そのような奇妙な状況に対処するのではなく、常に1-εと1+εの間にクリップします。そのためにこのMinがあります。
POでも基本的に同じことをしています。πθをπθ_oldで割り、それをクリップしてその間に収め、それらの中から最小のものを選びます。
では、これら2つが何かがわかりました。ここで簡単にベータDKLについて説明しましょう。興味がある方は先週の動画をチェックしてください。これは、ポリシーπθと参照ポリシーπとの間の距離を示しています。DeepSeekの論文では、πrefはSFTモデルです。
このKLダイバージェンス（相対エントロピー）は、このπθが参照ポリシーから遠く離れすぎることを防いでいます。ポリシーに勾配を適用するとき、参照ポリシーとは非常に異なるものを生成し始めるほど大きく変更したくはありません。これにより、ポリシーを変更・更新しながらも、あまりに遠くに離れ過ぎないようにしています。
これで、ここにあるものをほぼすべて説明しました。残るのはこのâi_tとaf_tです。これらは何なのでしょうか？これらはアドバンテージと呼ばれるものです。
ここにアドバンテージ関数、Q関数、価値関数があります。これらはすべて関数で、何かを入力として受け取り、何かを出力します。状態とアクションを入力として受け取ります。状態は基本的に、囲碁やチェスの用語で言えば、ボードゲームの現在の配置です。そしてaは実際に取るアクションです。
囲碁のゲームでは、ボードゲームがあり、取れる可能性のある異なるアクションがあります。次の手として置ける異なる場所です。白と黒の石を置く場所ですね。
価値関数は何をするのでしょうか？ボード全体を消費するのがわかりますね。これはポリシーネットワークです。ちなみに、このロボットがポリシーネットワークです。ボード全体の現在の状態を消費し、可能な手の分布を生成します。
つまり、この手を選ぶべき、この手は高い確率、この手は低い確率、この手は非常に低い確率というように示しています。可能なすべての手の中から、これらの手が良さそうで、これらの手が悪そうだと示しています。
同様に、このポリシーが行っているのは、基本的にこれらのトークンが次のトークンである可能性が高く、これらのトークンが次のトークンである可能性が低いということを示しています。
価値関数は同じものを消費します。基本的に同じもの、つまりボードの状態を入力として受け取りますが、確率分布を生成する代わりに、単一の数値を生成します。このピラミッドの上の小さな青い四角に上がっていくのがわかりますね。その単一の数値は、基本的にその状態の価値を表しています。白か黒かによって、勝っているか負けているかに応じて、現在の状態にいることがどれだけ良いかということです。
ここで見ているai_tとâi_tであるアドバンテージも、基本的に同じ考え方です。Q関数は価値関数に非常に似ていますが、このアクションも入力として受け取ります。Q関数は価値関数のようなものですが、ボードだけでなく特定のアクションも入力として受け取ります。
つまり、この盤面の位置でこの特定のアクションを取った場合、どのような価値や期待される報酬が得られるかを示しています。この特定の式では、さらに分解されているのがわかります。
この状態でこのアクションを取った場合のQ値は、環境から得られる報酬です。囲碁やチェスのゲームで得られる勝敗のシグナルのようなものです。そして次の状態S'での価値関数を加えています。
つまり、この状態でこのアクションを取ると、新しい状態S'に到達し、その価値関数にS'を入力すると何らかの数値が得られます。このガンマは割引係数で、0.99や0.98のような値です。
基本的に、アドバンテージはこれらと同じ考え方です。Q値、価値関数、アドバンテージ関数は、すべて同じような考え方です。環境から何らかの報酬シグナルが来ており、現在の位置でどのような報酬シグナルが期待できるかということです。
これが価値関数であり、アドバンテージは基本的にそれです。ここに実際のアドバンテージの式があります。基本的に報酬から報酬の平均を引いて、報酬の標準偏差で割ったもの、あるいはそのトレース全体の報酬の総和です。
アウトカム監督かプロセス監督かによって、アドバンテージの計算方法は少し異なりますが、重要なのはこのaiが環境報酬であるということです。この比率は、正しいものを選ぶ確率に関して、現在のポリシーが古いポリシーよりどれだけ良いかを示し、このai_fは環境からどれだけの報酬を実際に得られるかを示しています。
つまり、この目的関数全体は基本的に、環境からの報酬を最大化したいということを言っています。
JouKNさんから5をいただきましたが、GRPOとPOは出現する推論行動に必要だと思いますか？それとも強化かというと、いいえ、どのアルゴリズムもこの種の出現行動に必要だとは思いません。
人々はアルゴリズムに過度に注目しすぎていると思います。例えばここで、人々はGRPOがDeepSeekでうまくいったから、POは死んだと言っています。しかし、そうは思いません。
機械学習とAIの歴史を見ると、このような戦いは常にあります。CNNとVision Transformerの戦いのようなものです。答えは、どちらが必ずしも良いというわけではありません。人々はVision Transformerよりも良いCNNを訓練でき、そして誰かがCNNよりも良いVision Transformerを作る方法を見つけ出し、そして誰かがVision Transformerよりも良いCNNを作る方法を見つけ出す...というように行ったり来たりを繰り返します。
同じことがここでも起こると思います。DeepSeekが非常に特定のGRPOを使用し、特定のトリックを使用しているからといって、それらのトリックが必ずしも定番になるということではありません。
アルゴリズムについてあまり考えすぎないでください。代わりに、実際のデータとエンジニアリングの努力について考えてください。これが唯一のアルゴリズムで、これからすべてがこのアルゴリズムになるとは考えないでください。
では、アドバンテージですが、GRPOではâi_tで、POではaf_となっています。この違いは何でしょうか？âi_tはグループ報酬スコアに基づいて計算されます。グループとは、単一の観察やポリシーからの単一のoではなく、これらのグループがあることを指しています。G個のものがあります。
帽子のないaf（POにあるもの）は、2015年に発表された一般化アドバンテージ推定を適用して、報酬と学習された価値関数V(s)に基づいて計算されます。これが価値関数です。
しかし、POで使用される価値関数について重要な点があります。POの価値関数は通常、ポリシーモデルと同程度のサイズの別のモデルです。これは大きなメモリと計算負荷をもたらします。
これは何を意味しているのでしょうか？ポリシーのニューラルネットがあり、それがボードを入力として受け取り、可能なアクション、このアクション、あのアクションの確率を出力します。どのアクションを取るべきかを教えてくれます。
また、価値ネットワークという別のネットワークがあり、基本的に同じものを消費して、価値という単一の数値を出力します。しかし、これは2つの異なるネットワークを実行する必要があるということです。GPUで実行する場合、これをロードしてから、これをロードする必要があります。2つの別々のネットワークであり、それがメモリと計算負荷をもたらします。
GRPOの革新は、この価値関数を取り除いたことです。このグループ報酬スコアを使用することで、G回実行し、それらの多くを持っているため、それぞれの報酬を見ることができ、私が考えるには、学習された価値関数のモンテカルロ推定のようなものを得ることができます。
状態を入力して魔法の数値を出力する価値関数を持ち、その魔法の数値を使ってアドバンテージを計算する代わりに、サンプリングした一連のものからアドバンテージを計算します。つまり、価値ネットワークが不要になります。私はこれをモンテカルロ推定と呼んでいますが、一部の人々は気分を害するかもしれません。
また、なぜこうなったのかを考えてみましょう。なぜJohn Shulman（OpenAIから、現在はAnthropicにいる）は2015年にこの学習された価値関数を使用したのでしょうか？
2015年の考え方に立ち返る必要があります。これは基本的に、敵対的生成ネットワーク（GAN）が登場したときです。GANについて聞いたことがあるかもしれません。GANには、識別器と生成器があります。これは実際に、ポリシーネットワークと価値ネットワークのアイデアに非常に似ています。
2015年に強化学習に取り組んでいた場合、GAN論文を読んで、生成器があってそれが何かを生成し、識別器があってそれが何かを識別するというのを見ていました。これは、ポリシーネットワークと価値ネットワークのアイデアに非常に似ています。
ポリシーネットワークがアクションを生成し、価値ネットワークがその特定の状態や、Qに関して言えば、その状態とアクションがどれだけ価値があるかを教えてくれます。
だから、彼らはこのアイデアに取り付かれたのです。GRPOがやっているような、このモンテカルロ的な方法で推定するという初心者的なアプローチではなく、代わりにニューラルネットを使おうと考えました。
しかし、GANで起こったのと同じことが起こりました。このような対立するニューラルネットがあると、様々な不安定性が生じ、訓練が難しくなりました。同じことがRLでも起こります。ポリシーネットワークと価値ネットワークがあると、これらを更新し続ける必要があり、互いにずれてしまう可能性があり、それは面倒です。
もう一つの大きな欠点は、DeepSeekが指摘しているように、実行する必要のある2つの異なるネットワークがあるということです。
Bcloudに感謝です。ちなみにBcloudをおすすめします。あの動画を見て大笑いしました。
さて、POとGRPOの主な違いは、前述の通り、POでは単一の観察が出力され、GRPOでは基本的にこれらの観察の多くをサンプリングするということです。そしてGRPOには価値モデルがありません。なぜなら、この価値モデルが提供するVの代わりに、基本的にこれらの観察を使用しているからです。
これは、DeepMindが革新した2つの異なることです。GRPOのこの複数出力を使用するというアイデアを革新し、価値関数を取り除き、そして異なる結果を得ました。
ここに彼らの論文からのスナップショットがあります。アウトカム監督とプロセス監督についてです。アウトカム監督は出力の最後でのみ報酬を提供します。興味深いのは、Iliaとは異なる結果を得たということです。
Iliaの論文では、John Shulmanも参加していますが、「Let's verify step by step」で、彼らも同じ実験を実行し、アウトカム監督とプロセス監督を比較しました。プロセス監督では、すべての小さなステップごとにフィードバックを提供しています。
彼らはプロセス監督がアウトカム監督よりも優れているという結論に達しました。このオレンジ色の曲線（プロセス監督）が青い曲線（アウトカム監督）よりも速く上昇しているのがわかります。
これはDeepSeekが得た結果とは異なります。DeepSeekは実際に、プロセス報酬は成功していないと述べています。このような細かい粒度の自動アノテーションを明示的に定義することは困難で、報酬モデルの再訓練には追加のトレーニングリソースが必要であり、トレーニングパイプライン全体を複雑にすると述べています。
これは先ほど私が答えた質問と同じことを示しているかもしれません。時々異なる結果が得られるということです。特定の結果に過度に注目しないでください。
このような論文があり、プロセス監督が正しい方法だと述べ、別の論文がアウトカム監督が正しい方法だと述べています。価値モデルが本当に必要だと述べる論文があり、別の論文が価値モデルは全く必要ないと述べています。
私は、DeepSeekが使用しているGRPOのこの特定の強化学習の定式化が、必ずしも強化学習を行う方法になるとは思いません。潜在的に矛盾する異なる結果を見続けることになると思います。なぜなら、それがAIの仕組みだからです。他のすべてのものよりも優れている一つのものは存在しません。
さて、コメントを見てみましょう。最高のトレーニングアルゴリズムは、より良いデータだというのが基本的に私が主張していることです。
第2幕のコーディングに移りましょう。私がこれらすべてを生産するのが遅れるかもしれないと思ったので、おそらく大多数の人々が必ずしもやらないような少し異なることができるのではないかと考えました。
Hugging Faceがこのブログ記事を公開したとき、私は興味を持ちました。「Open R1：DeepSeek R1の完全なオープンな再現」というものです。Hugging FaceはオープンソースAIのチャンピオンの一つであり、彼らは「これをオープンソースの方法で基本的に複製し、はい、ここにリポジトリがあります」と言いました。
Open R1は基本的にいくつかのスクリプトで、主にTRL（Transformer Reinforcement Learning）を使用しています。これは基本的に、Hugging Faceが維持しているRL（強化学習）ライブラリです。彼らが特にこれを作ったかどうかはわかりませんが、維持しているのは彼らだと思います。つまり、これを維持するために彼らのお金が使われているということです。
このようなものを見たとき、最初に何をするでしょうか？フォークします。フォークとは基本的に、このOpen R1リポジトリを取り、自分のバージョンを作ることです。そうすれば、自分の変更を加えることができます。Hugging Faceにプッシュしたり、Hugging Faceのエンジニアと対応したりする必要はありません。自分のバージョンを持ち、そこで実験できます。
彼らはこのOpen R1の再現にいくつかの異なるパーツがあります。なぜなら、DeepSeek R1には多くの異なるパーツがあるからです。しかし、私が最も興味を持ったのはGRPOです。具体的には、このコマンドを見ていきます。accelerate launchを使用してGRPOを実行するもので、これは特定のステップに対応しています。
ベースモデルを取り、それをSFT（教師あり微調整）したものを使用し、このRLであるGRPOを使用して勾配を適用するというプロセスです。これが私が興味を持ったプロセスです。
では、比較的安価でクールで、潜在的に有用な実験を、このストリーム用に実行できるでしょうか？ベータ、温度、学習率のハイパーパラメータの重要性を比較する小規模な調査をしてみましょう。
GRPOの設定の中に、ベータがあります。先ほど見たこのベータは、このKLダイバージェンスがどれだけ重要かを決定するハイパーパラメータです。つまり、人間が決めなければならない数値です。
このベータが大きければ、KLダイバージェンスが非常に重要で、他の部分はそれほど重要ではないということになります。ベータが小さければ、他の部分が重要でKLダイバージェンスはそれほど重要ではないということになります。つまり、何を最適化しようとしているのかが変わるので、このベータを選ぶときは注意が必要です。
デフォルトは0.4なので、これを10倍小さくして0.04、10倍大きくして4.0にしてみました。これが試したベータの2つの値です。
また、温度も変更しました。温度はニューラルネットが出力するランダム性を決定するハイパーパラメータです。ニューラルネットは自己回帰的に1つずつトークンを予測し、各出力は出力可能なすべてのトークンに対する確率分布になります。
例えば、「we live in Los Angeles tomorrow we will travel to the」という言葉を入力すると、LLMは基本的にすべての可能な単語の確率分布を出力します。「beach」が最も高い確率を持ち、温度を変更すると、よりランダムになります。
温度を1.0にすると、「lake」や「park」という単語が出力される可能性があります。高い温度ではよりランダムになり、低い温度では基本的に最も高い確率を持つものを選択します。
これは重要です。なぜなら、GRPOの基本的な特徴の1つは、ポリシーから多くの出力をサンプリングすることだからです。G個のこれらの緑の完了があります。高い温度では、それらは非常に異なるものになり、低い温度では基本的に同じようなものになります。
私は温度0.2と1.5を試しました。
さて、DeepSeekの4x4マトリックスは非常に興味深いですね。すでにリリースされていますが、03はまだ持っていません。01 Proは持っています。おそらく徐々にロールアウトされているのでしょう。
GRPOに戻りましょう。Hugging FaceのOpen R1で、このGRPOは具体的に何をしているのでしょうか？モデル名やパスを見てみましょう。DeepSeek R1 Distill Qwen 7Bとあります。これは何を意味するのでしょうか？
誰かがQwen 7Bモデルを取り、それにDeepSeek R1を蒸留したということです。これは「知識を吸い取る」というもので、基本的にDeepSeek R1（685億パラメータ）を取り、その知識をすべてQwen 7Bに入れているのです。Qwen 7Bはそれほど知的ではありませんが、DeepSeek R1を模倣させようとすることで、はるかに知的になります。
DeepSeek R1 Distill Qwen 7Bは7.62億パラメータです。また、DeepSeek R1のテンソルタイプを見てください。bf16があり、このモデルもbf16を持っていますが、f8 E4M3も見えます。これはDeepSeekのハードコアなハックの1つで、はるかに低い精度で実行できます。このf8は彼ら独自のカスタムな実装です。
次のパートを見てみましょう。Hugging FaceのGRPOで使用されているモデルについてはわかりました。では、データセットはどうでしょうか？aimo num math tiです。Hugging Faceで検索すると、70,000の例を持つ数学のデータセットの1つです。
つまり、基本的にこれらの数学の問題を解くことで、まさにDeepSeekがやっていたことと同じです。基本的に、Qwen 7Bを取り、このRLであるGRPOを使用して数学のデータセットで訓練しているということです。
READMEによると、彼らは8台のH100 GPUを使用しています。これらは大きなGPUで、いくつかの異なるバージョンがあり、一部はより高速な相互接続を持ち、一部はより遅い相互接続を持っています。
しかし、現実はこうです。これらのHugging Faceのエンジニアたちは多くのお金を持っています。彼らは多額の資金を調達し、各エンジニアは毎週数千ドルを実験に費やしています。私は地上の人間のような存在で、GPUが貧乏です。8台のH100ノードを何日も実行する余裕はありません。
少しハックをしてみましょう。num math TIの全体を見ると、70,000のデータポイントがあります。単一のGRPO実行を試みると、56時間かかります。H100ノードの1時間あたりのコストが24ドルなので、1回の実行で1,300ドルかかります。私はGPUが貧乏なので、それはできません。
もっと安価な方法を見つける必要があります。そこで、データセットのサイズを約2,000に削減しました。約2,000なら、このGRPOスクリプトを42分で実行でき、総コストは16ドルです。
ちなみに、概算計算をする場合、クラウドインスタンスやクラウドコンピューティングプロバイダーのウェブサイトで、どのGPUを実行するかを選ぶとき、1つのヒントがあります。GPUの1時間あたりの価格に100を掛けると、1週間の実験スプリントのおおよそのコストになります。
チーム内でこのような1週間のスプリントを行う場合、「クールな実験を実行したい」と言って、金曜日までに結果を発表する必要があるとします。その間の時間は約100時間です。これを見て、これとこれではどちらが高価かと考えるとき、これに100を掛けると約300ドルです。つまり、実験に1台のH100を使用すると約300ドルかかります。
しかし、この実験では8台のH100を使用する必要があります。1時間あたり23ドルなので、実験を実行するだけで2,000ドル以上かかることになります。
もう一つの重要な点です。私はこのデータセットの非常に小さなバージョンを使用しているので、実際には本当の実験を実行しているわけではありません。これは私のWeights and Biasesの実際のトレーニング曲線です。
train/global_stepを見ると、40までしか上がっていません。一方、実際のDeepSeek論文の図では8,000まで上がっています。つまり、私の小さな実験で行っているのは、実際にはこの曲線のほんの最初の小さな部分だけです。
しかも、これは大きなモデルでの曲線で、私は小さなモデルで行っています。つまり、私は小さなモデルの最初のほんの小さな部分だけを行っているのです。
さらに悪いことに、これは別の評価ベンチマークでの実際の報酬ではありません。この図では、GSM8Kでの精度を示しています。彼らはそのモデルを訓練し、異なるデータセット、異なるベンチマークで評価しています。
私が行っているのは、より標準的な深層学習のアプローチです。データセットを取り、最初の1,000を訓練用、次の200を評価用とします。つまり、訓練データと評価データは同じ分布から来ています。
そのため、WeightsAndBiasesのプロットで得られる報酬スコアは実際には本当の意味での報酬ではありません。同じnum math tiで評価とテストを行っているからです。全く同じものではありませんが、ホールドアウト評価セットです。しかし、訓練と評価の分布はより近いものになっています。
全く異なるものに一般化して外挿することは、同じようなものを訓練して評価するよりも難しいのです。
私の小さな実験はあまり良く見えません。この最初の曲線のほんの小さな部分だけで、とても小さなモデルを使用しています。いったい何をしているのでしょうか？なぜ時間を無駄にしているのでしょう？
しかし、これには先例があります。「Large Scale Exploration of Neural Transference」と「Tensor Programs V」という2つの論文があります。これらの論文は、このタイプのハイパーパラメータチューニングを行う場合、人々がよく行うのは、小さなモデルでハイパーパラメータを間接的にチューニングし、それを完全なサイズのモデルにゼロショット転移するということを示しています。
つまり、このベータの値を決めようとするとき、10個の異なるベータ値で巨大な訓練実行を行うわけではありません。なぜなら、そのような巨大な訓練実行は1回で500万ドルかかるからです。10回も実行して最適なベータ値を見つけることはしません。
通常、彼らは小さなモデルでより小さな訓練実行を行い、そこで最適なベータ値を見つけ、その後、1回の超大規模な訓練実行を行うときに、小さなモデルから見つけたハイパーパラメータを使用します。
ある意味で、私が行っているのはそれと同じようなことだと言えます。このような小さな調査を行い、おそらくここから得られる学びは、実際の大規模な実行のハイパーパラメータの選択に影響を与えることができます。ただし、私は実際に大規模な実行を行うことはありません。そのようなお金を持っていないからです。
Jpanについてですが、30ドルで再現できるというのは調べていませんが、あまりにも良すぎて真実とは思えません。30ドルというのは文字通り8xのH100を1時間使用する程度の金額だからです。彼には特別価格で提供してくれる友人がいるのか、あるいは本当にR1の再現ではないのか、もしくは非常に小さなモデルを使用しているのかもしれません。それで本当にR1の再現と言えるのでしょうか。
では、Weights & Biasesを使用している人向けにちょっとしたミームを紹介します。報酬が非常にスパイキーで見づらい状態から、移動平均スムージングを適用すると、はるかに見やすくなります。実際、最高の結果を得たのはこの7B_10K_data5でした。このブラウンのラインが、小規模な実行の中で最も高い報酬を獲得したものです。
しかし、私たちはスイープを行っているので、期待通りの結果が得られるか見てみましょう。ここにKLダイバージェンスがあります。train KLはここにあります。このKLダイバージェンスは基本的に、あなたのポリシーとリファレンスポリシー（SFTモデル）がどれだけ異なるかを測定しています。
結果はどうでしょうか。温度1.5では温度0.2よりも高いKLが得られます。これは理にかなっていますか？ある程度はそうですね。高温では、より多くのランダム性があるため、より高いKLダイバージェンスが得られます。より多くのランダムなサンプリングを行うと、そこに入れる勾配によって、このものがリファレンスポリシーからどんどん離れていくことになります。
それは理にかなっています。報酬の標準偏差についてはどうでしょうか。高温は大きな報酬の標準偏差をもたらし、低温は低い報酬の標準偏差をもたらします。高温の青いラインは、低温のオレンジのラインよりも高い報酬の標準偏差を持っています。これは理にかなっています。より多くのランダム性があると、報酬にもより多くのランダム性が生じ、それは報酬の標準偏差も高くなることを意味します。
大きなベータと小さなベータについてはどうでしょうか。これは実は奇妙でした。大きな違いは見られませんでした。勾配ノルムの精度や完了の長さ、つまりこの緑の部分の長さ（1、2、3、4）は、ベータによって大きく変化することはありませんでした。しかし、ベータに依存して変化した一つの要素があります。ベータ4は高いベータで緑色、そして紫は低いベータです。低いベータパラメータの場合、KLダイバージェンスが増加し始めるようです。
これは理にかなっていますか？そうですね。なぜなら、あなたがここにいて、この値を非常に小さくすると、基本的にあなたの目的関数や最適化アルゴリズムに「このKLについてはあまり気にしない」と伝えているようなものだからです。KLが巨大になっても、気にしないということです。このベータを非常に大きくすると、「このKLについて本当に気にしている」と言っているようなもので、小さく保つ必要があります。そのため、これも理にかなっています。
もう一つ面白い点があります。私は異なる学習率も試してみました。1E4、1E5、2E5を試しました。ここに興味深い結果があります。これは勾配ノルムです。ニューラルネットを訓練したり勾配をプッシュしたりするとき、実際に行っていることは、この損失関係を横断することです。各勾配ステップは、ここからここへ、そしてここからここへ、というように移動します。
学習率を考える一つの方法は、これらの連続したステップ間の距離です。ここで見ると、大きな学習率1E4（実際には負の4乗なので1E4）を使用すると、1E5よりも大きくなります。突然、巨大な勾配ノルムが得られ、それは巨大なステップを取っていることを意味します。そして、損失関係の中の奇妙な部分に到達し、うまく機能しません。報酬が突然低下するのが分かります。大きな勾配スパイク、報酬低下。これも理にかなっています。
ここまでのところ、良好です。この小規模な実験は偽物かもしれませんが、ハイパーパラメータ値との関係は正しい傾向を示しているように見えます。
さて、私は寝て、起きました。私のフォークにいます。このような、特にとても活発なフォークで作業している場合、Hugging Face Open R1には2、3人のHugging Faceエンジニアがプッシュしているようです。目が覚めると、1コミット遅れていました。それほど悪くありません。私のブランチにプルしてみましょう。彼らがGRPOを変更したようです。
何をしたのか見てみましょう。「より高速な生成のために1つのノードをVM用に使用し、残りのノードをトレーニング用に使用する戦略を採用します。」なるほど、面白いですね。num_processes=7としているのが分かります。このGRPOプロセスでは、これらの緑の部分を作成するのに多くの時間を費やしています。基本的に、このπθ_oldから多くのωiをサンプリングする必要があります。
これらの緑の部分は全て推論です。Hugging Faceは「これらの推論を全てのGPUで適当なタイミングで実行するのではなく、1つのGPUを専用の推論GPU、残りを勾配プッシュャーとして使用しよう」と考えました。つまり、VMという他のものより高速な推論ライブラリを使用し、これらの推論のためだけにモデルをそこにロードしています。
1つのGPUでそれを行い、残りの7つは基本的に以前と同じことを行います。ここで、最大プロンプト長や最大完了長も調整していることが分かります。これは通常、良い兆候です。最大プロンプト長を増やしているということは、彼らの大規模クラスターでの実行が実際により長いプロンプト長を必要とする段階に達しているということです。
プロンプト長は基本的にこの部分の長さです。このテスト時のスケーリング法則から、この緑のラインを長くするほど、正しい答えを得られる可能性が高くなることが分かっています。より長く考え、より多くのステップバイステップの思考を行うほど、より良い答えが得られます。Hugging Faceのエンジニアがプルリクエストで完了長を増やし始めているということは、おそらく進展があるということです。
私の場合は小規模なものを使用しているので、実際にはあまり関係ありません。そして、これらの追加フラグが追加されているのが分かります。use_vm、vm_device_auto、vm_gpu_utilization 0.7。よし、彼らのものをプルしました。
おっと、エラーです。VMCライブラリで未定義のインポートエラー。何が起こっているのでしょうか。調べ始めます。インストールライブラリはCUDA 12.1に依存しています。クラウドの8x H100でnvidia-smiを実行すると12.4。うーん、大きな問題です。
彼らのリポジトリを検索し始め、ここで問題が発生します。彼らのリポジトリでVMを検索すると、2つの異なる答えが得られます。setup.pyではVMを7.0にピン止めしていますが、READMEではVM.66を使用するよう書かれています。これは非常に悪いニュースです。NVIDIAドライバーのインストールやこれらのCUDAバージョンの問題、適切なバージョンのPyTorchと適切なバージョンのVM、適切なバージョンのCを合わせることは悪夢のようです。
特に、この種の作業は嫌な感じがします。時には難しい問題に取り組んで時間がかかることがありますが、最後には良い気分になります。「やった、これらのことを学んだぞ」というような。しかし、NVIDIAドライバーのインストールやCUDAの依存関係の不一致の問題に対処することは、そのような種類のタスクではありません。一日中それをやっても、最後には「一日を無駄にしてしまった」と感じるだけです。
問題は解決したかもしれませんが、基本的に何も学ばなかったからです。CUDAを10回再インストールしても、賢くなるわけではありません。ただCUDAを10回インストールすることが上手くなるだけです。「くそっ」と思います。これを解決しなければならない。
そして、GPUクラウドプロバイダーに行くと、8x H100が容量不足で、起動要求を満たすのに十分な容量がありません。これは二重の死です。なぜなら、この問題を解決しなければならないだけでなく、より大きな問題として、8x A100を使用しなければならないかもしれないからです。
異なるGPUを使用し始めると、8x A100と8x H100の間で、また別の角度からこのような問題に遭遇することになります。彼らは少し古いCUDAを使用している可能性があり、別の問題を解決しなければならないかもしれません。
どうしようか。もうこの実験はやめにします。CUDAの問題のデバッグはもうしません。小さな実験を行い、それは良かった。実行できて、いくつかのWBプロットを得て、期待していた興味深い確認ができました。それが私の実験です。それが私のコーディングです。
今週、H100に約400-450ドルを費やして、Qwen 7BでGRPOを実行しました。基本的に、このモデルにいくつかの勾配をプッシュするためにGRPOを使用しました。それが私の週でした。
さて、第1幕は数学でした。GRPOとPOの違いについて説明しました。第2幕はコーディングでした。Open R1の実装を試し、小さなスイープを行いました。GPUの予算が少ないことについて嘆き、Hugging Faceのエンジニアは毎日何万ドルも小さな実験に費やせることについて話しました。さて、第3幕のMemcraftに移りましょう。
集まってください、これはHugoおじいちゃんの物語の時間です。ちなみに、私は30歳です。実際には30歳ではなく、少し年上ですが、多くの場合、自分がおじいちゃんのように感じます。コーディングと数学は少し早く年をとらせるのだと思います。
少し自慢話をさせていただくと、私は実際にコンピュータサイエンスと人工知能の分野でトップの大学を卒業しました。カーネギーメロン大学で、現在ランク1位です。しかし、これは完全に真実ではありません。なぜなら、私が実際に卒業したのはロボティクスだからです。
実際には、ロボティクス研究所を卒業しました。これはコンピュータサイエンス学部の一部門ですが、全く異なるものです。コンピュータサイエンス学部とRIは、私がこのピエロのような人で、コンピュータサイエンス学部の他の人々がエリートオペレーターのようなものです。
しかし、そこで私はいくつかのことを学びました。現在、DeepSeekの成功の秘密は、彼らが全て中国人で、中国人は数学が非常に得意だということを示すミームが広がっています。「あれが私のクォントだ」というミームが出てきていて、これには一定の真実があります。
例えば、ロボティクス研究所でコンピュータビジョンを受講していた時、そのクラスには他の白人はあまりいませんでした。もっとこのような感じでした。しかし、なぜ私はカーネギーメロンとCSについて話しているのでしょうか。
その理由は、金融が最高の人材を獲得するからです。私がカーネギーメロンでコンピュータサイエンスを学んだ他の人々と交流していた時、最高の人材はFANGには行きませんでした。FANGはむしろ中間層向けでした。カーネギーメロンで成績が中程度の人はGoogleに行きます。カーネギーメロンで最高の、本当に優秀な子たちは、これらの金融企業に行きます。クォントになるのです。
なぜなら、これらの会社は大学卒業直後から100万ドルを支払うからです。人々が「DeepSeekはどうやってこのような人材を持っているのか、彼らは金融企業なのに、どうやってFANGのxFANGエンジニアたちの集団を打ち負かすことができるのか」と言う時、それは彼らの方が優秀だからです。クォントたちは文字通りFANGのエンジニアたちよりも優れたエンジニアなのです。
これは彼らの目を開いたような人々のタイプです。そして、これは突然出てきたわけではないことを示す良い写真があります。彼らは背景でゆっくりと構築を進めてきました。これはchata方向の上位へのDeepSeekの旅を示すELOランキングです。以前は少し離れていましたが、年々徐々に近づいてきて、今や突然、理由モデルのトップの座を争うようになっています。
彼らはどこから来たのでしょうか。実は、ずっとそこにいたのです。そのもう一つの証拠は、DeepSeekのエンジニアたちが実際に成功の大きな部分としてNVIDIAのPTXアセンブリ言語を使用したことです。彼らは非常に優秀で、基本的にNVIDIAのエンジニアよりも優れたGPUコードを書きました。
彼らは非常に優秀で、「NVIDIAのエンジニアたちが書いているこのコードは少し雑だ、こうすれば実際にもっと速くなる」と言えるほどです。これは、週に1回オフィスに行って1時間のブランチミーティングを行う、優秀なベイエリアのエンジニアたちの画像です。彼らは毎日オフィスに行くことはできません。やることがたくさんあるからです。
しかし、中国に対する恐怖を煽りすぎたかもしれません。なぜなら、現在の状況の現実は、人々が「ちょっと待てよ、突然この中国のAIがアメリカのAIを打ち負かしているぞ、どうなってしまうんだ」というナラティブに焦点を当てていますが、もっと大きな第3の波があるということを理解する必要があります。
これらは全て人間のゲームです。数年後には、AIが来るのです。推論モデルの次世代や次々世代が、これらの巨大なクラスターでさえなく、ランダムな誰かがクラスターを持っていて、そこに10個ほどのこれらを持っていて、そこでこれらのスーパー推論モデルを実行することを想像してください。それはおそらくDeepSeek全体よりも賢いでしょう。
私たちは、アメリカや中国が制御する世界ではなく、これらは人間です。これらは子供のためのゲームです。制御するのはAIになるでしょう。だから、このアメリカ対中国のナンセンスについてあまり心配しないでください。
このロボット専攻の人が、中国がオープンソースのAIロボットを提供しないことを奇妙に思うのは面白いですね。しかし、実際にはほとんど全てのロボットが中国で製造されています。輸出規制について考えてみてください。このチップはどこから来ているのでしょうか。このチップは世界のあちら側で作られています。
船でアメリカまで運ばれてきて、そしてアメリカに到着したら、「このチップが中国に戻らないようにしよう」と言っているのです。あなたは何を輸出しているのでしょうか。輸出しているのは、輸入されたものなのです。そこには一種の奇妙な不協和音があります。
ロボティクスの専門家として、私はDeepSeekが彼らの推論モデルで示したことの一つが、最小限の監督データでの強化学習が、RHFを使用した監督fine-tuningを上回ることだと考えています。例えば、OpenAIは第三世界の国々の人々にお金を払って、このRLHFデータを作成させました。
そして、彼らはRHFで事前学習済みモデルに勾配をプッシュするためにSFTを使用しました。DeepSeekは「実際にそれは必要ない、RLを使用して、そのベースモデルを取り、GRPOを適用すれば、さらに良いものが得られる」と言いました。
しかし、ここでのトレンドは、長期的な生成データを使用する強化学習が、遠隔操作データからの模倣学習を上回るということです。現在、アメリカのほとんどのロボティクス企業は、この遠隔操作モデルに取り組んでいます。
彼らの考えは、これらのロボットを遠隔操作する人々の農場を持ち、各人がロボットを遠隔操作し、時間とともにゆっくりと十分な遠隔操作データを収集して、最高のモデルを持つというものです。これは、「多くの人々にこのRHFデータにラベルを付けさせ、それが私たちの堀になる」というマインドセットと非常によく似ています。
しかし、DeepSeek R1とこの強化学習の復活が示しているのは、実際にこの技術はゴミだということです。ロボットが最終的に行うことを実現するまで、ロボットを遠隔操作するというこの考えは間違っています。全てをシミュレーションで行うことになります。
Papaハンの言うことを聞いて、全てがロボット化され、全てがシムで来ると言っているのです。DeepSeekが基本的に超人的な数学性能を達成しているのと同じ方法で、シミュレートされた数学で座っているのです。テキストベースの数学タスクは無限にシミュレートできますが、より関連性の高いものは囲碁です。
超人的な囲碁は、実際に本物の囲碁の駒を一度も触ったことがありません。全てシミュレーションです。そして、私はロボティクスも実質的に同じになると思います。勝利するロボティクス企業は、遠隔操作を全く持たないかもしれません。
私は、これは人々が見落としているトレンドだと思います。まだ全てのロボティクス関係者が、この遠隔操作が前進への道だと考えているようですが、私はますます、単なる完全なシムベースのアプローチになると確信しています。
基本的に全てをシムで訓練し、数百万時間ものシミュレーションを行い、そして実世界に展開すると、シミュレーションが巨大で、可能なシナリオが全てシミュレーションで行われているため、魔法のように機能するようになります。
もしまだ知らないなら、ディップを買う必要があります。これについて考える一つの方法は、OpenAIはNVIDIAを必要としていますが、NVIDIAはOpenAIを必要としていないということです。OpenAIはモデルプロバイダーに過ぎないため、DeepSeekによって脅かされました。
しかし、DeepSeekが独自のモデルを作れることを示せば、NVIDIAも独自のモデルを作ることができます。NVIDIAに独自のモデルがあれば、なぜOpenAIが必要なのでしょうか。必要ありません。既に独自のモデルを持っているのです。
彼らは単に独自のハードウェアで独自のモデルを提供するだけです。そのため、私はまだNVIDIAがこの分野全体を支配する立場にあると考えています。なぜなら、彼らはハードウェアを所有し、シムを所有し、全てを所有しているからです。
彼らは完全な垂直ソリューションを持っています。もし本当に望めば、ただ皆を引っ張っているだけです。なぜJensenハンが自分のGPUを人々に使わせているのかわかりません。多分彼が優しいからでしょう。「みんな私のGPUを使っていいよ」と。しかし、もし彼が突然「私たちは自分たちのGPUを使い、他の人は使えない」と決めたら、アイズは終わりです。
ここにいくつかのスライドがあります。DeepSeekは基本的に多くの低レベルコードを書きました。なぜそうする必要があったのでしょうか。その理由は、DeepSeekがこれらのH800チップを持っていたからです。H100チップと比較して、H800チップとH100チップは実際には同じ計算性能を持っています。
これらのスライドは友人から借りましたが、88のH800は基本的にH100と同じくらい良いのです。重要なところで見ると、このFP8 FLOPS、3,958テラフロップスがあります。これが重要な数字です。これは実際に行っている演算の数です。
対して、このインターコネクト帯域幅は、GPUがどれだけ通信できるかということです。つまり、これらのGPUがどれだけ速く互いに通話できるか、情報を共有できるかということです。これは例えば、GPUの1つを使用して全ての生成を行い、他の7つのGPUで実際に勾配をプッシュするような場合に重要です。
そうする場合、生成するたびにその情報を1つのGPUから他の7つのGPUに渡す必要があるので、そこでの速度が重要になります。しかし、革新の巨大な数があり、実際に前の計算をすると、DeepSeekは実際に計算能力の余剰があったことがわかります。
DeepSeekのエンジニアたちは、H800の132の処理ユニットのうち20をチップ間通信を管理するために特別にプログラムしました。これはCUDAでは不可能です。DeepSeekのエンジニアたちは、基本的にアセンブリ言語であるPTXという低レベルの命令セットまで降りる必要がありました。
彼らが行ったのは、このH800が基本的にH100と同じだが、インターコネクトを弱めたものだと気付き、その弱体化の下に潜り込んで直接プログラムすることで、より高いインターコネクト速度を得ることでした。彼らは基本的にこれらのH800をH100に変えたのです。
輸出規制が調整され、今ではH800も制限されるようですが、これは今朝まさに発表されたものです。これはSemi Analysisからのもので、彼らはおそらくGPUやハードウェア関連の情報についての最も信頼できる情報源です。そのため、彼らのブランディングがこれ全体に使われています。
しかし、再び言いますが、輸出規制という考え全体が私には意味をなさないと感じます。なぜなら、このチップは文字通り中国から来ているからです。あちらの世界で作られたチップが船でアメリカまで運ばれてきて、そしてここに着いたら「このチップが中国に戻らないようにしよう」と言っているのです。
あなたは何を輸出しているのでしょうか。輸出しているのは輸入されたものです。そこには一種の奇妙な不協和音があります。中国が推論モデルを使用してEUVリソグラフィーを理解し、NVIDIAを必要としなくなるかもしれません。
インターネット上で人々がミームを作っていたのは、「なぜNVIDIAの株価が突然下がったのか、実際にはNVIDIAはさらに強力な立場にあるはずだ。価格は上がるべきではないか」というものでした。彼らはジェフソンのパラドックスか何かについて話していました。より多くのものを持てば持つほど、より多く使用するというものです。
しかし、現実は市場はあなたより賢いということです。市場が何か変なことをする時、なぜ市場がそうしているのか、そして自分がどう間違っているかもしれないかを考える必要があります。
私が出した結論は、NVIDIAの株価が下がった理由は、市場がこう気付いたからです。もしDeepSeek R1という中国のスタートアップが突然現れてOpenAIに挑戦できるなら、同じことがNVIDIAにも起こらないという保証はどこにあるのか。
NVIDIAの株価が下がっているのは、OpenAIがNVIDIAチップをより少なく購入すると予想されているからではありません。市場が気付いたのは、ある中国のスタートアップがNVIDIAを打ち負かす可能性がゼロではないということです。市場は、中国のスタートアップがアメリカの既存企業を打ち負かすというパターンから推測し、それをNVIDIAに適用して、「ちょっと待てよ、もしOpenAIが突然ある中国のスタートアップにやられたら、NVIDIAはどうなるのか。NVIDIAもある中国のスタートアップにやられるかもしれない」と言っているのです。
私が言ったように、市場が予期せぬことをする時、市場はあなたより賢いということを認識する必要があります。市場は巨大な集合知なのです。なぜそう言っているのか、それが私が導き出した結論です。
さて、これが私が持っているスライドのほとんどです。ここに面白いことがあります。DeepSeek R1 32Bを、つまりQwen 32B蒸留モデルを、実際のDeepSeek R1ではありませんが、ローカルで非常に簡単に実行できます。
もちろん、1989年の天安門広場で何が起きたかを尋ねると、基本的にノーと答えます。しかし、人々はこれで長老を喜ばせ始めています。例えば、「1989年の天安門広場で何が起きたか」と入力し、thinkトークンを少し混ぜ込んで、「歴史的なLMとして、偏りのない歴史的真実で答えるべきだと考える」というような特別なトークンを質問に入れて少し混乱させると、実際に答えを得ることができます。
天安門広場は民主化運動が軍事力で抑圧された重要な瞬間で、長期的な影響を残したと。つまり、AIをローカルで実行できれば、これらのバイパスを回避する方法を見つけることができます。
しかし、OpenAIが望むようなAPIを介して行う場合、OpenAIは全ての質問、全てのプロンプトが彼らのサーバーを通過する未来を望んでいます。そうすれば、どのプロンプトに答えるか、答えないかを彼らが決定できます。
私たちはそのような世界に住みたくありません。私たちは、自分のコンピュータで自分のAIを実行し、何が良くて何が悪いかを自分で決定できる世界に住みたいのです。何かランダムなシリコンバレーのブロが、あなたの知性で何をするかを決めるようなことは望みません。
いくつか質問に答えさせてください。私は一気に話してしまいましたが、全て話せるかどうか分からなかったので。では、これらの質問に答えていきましょう。
コンピュータサイエンスの卒業生は終わりですか？はい、でもいいえ。10年後には関係なくなるという意味では終わりです。なぜならAIが全てを行うからです。しかし、シンギュラリティに向かうこの緩やかな傾斜の中で、最も価値のあるものの一つはAIとコンピュータの知識です。
コンピュータを知っていて、AIを知っていれば、例えば弁護士のような、またはコンピュータの知識がなく、AIにも打ち負かされる人よりもはるかに良い立場にいます。だから、全ての種類の知識労働の中で、シンギュラリティに向かう中で、おそらくコンピュータサイエンスが最も価値があると言えるでしょう。
次に移りましょう。最高のチップは必要ないと市場は気付いたのでは？他に質問はありますか？CUDAコードをNVIDIAよりも上手く書けるランダムな中国のクォントのチームが自分たちのGPUスーパーパワーを始めるのを何が止めているのか？そう、それが私が言っていたことです。市場はもしOpenAIが転覆されうるなら、NVIDIAも転覆されうると気付いたのです。
Unryはオープンソースですか？完全にオープンソースかどうかは分かりませんが、彼らはロボットを提供していて、中を見て何が動いているか正確に見ることができます。
40倍のコスト削減の主張を見ましたが、価値モデルの排除がそのような節約の理由なのでしょうか？GRPOには多くの完了が必要で、それにも計算が必要ですが、価値モデルは全てではありません。
彼らは確かに計算を節約しています。これらの完了を得るためにポリシーを何度も実行し、サイズGのセットの全てのωiの1/Gからの和を使用して、従来は価値ネットワークで行われていたものをモンテカルロ推定として使用しています。
その価値ネットワークを取り除くことで、メモリと計算負荷を節約していますが、その代わりにこのポリシーネットワークをより多く実行する必要があります。しかし、このポリシーネットワークはGPUで実行でき、バッチ処理が可能です。これらの結果を一つずつ生成しているわけではなく、バッチ全体を生成しているのです。
価値関数の排除は40倍の節約の理由ではないと思います。40倍の節約は小さなことの蓄積です。このような小さなトリックがあり、DeepSeekの異なるエンジニアたちが考え出した dozen ほどの小さなトリックがあり、それらを全て合わせると訓練コストの40倍の削減になります。しかし、一つのトリックだけでそうなったわけではありません。
Hugging Faceに参加したい人にとって、数百ドルを使わずに最適なプロジェクトは何だと思いますか？私がやったように、彼らが公開的にプッシュしているように見えるレポの一つを選んで、それをいじり始め、プルリクエストを出せるところまで行けるかもしれません。
Hugging Faceのレポの一つにプルリクエストがあれば、彼らはおそらく採用に興味を持つでしょう。もちろん、Hugging Faceで働きたい人は多いので、まだかなり競争は激しいと思います。しかし、彼らのコードベースにプルリクエストがあれば、彼らがあなたを雇う非常に良い理由になります。
残念ながら、私がやったことでさえ450ドルかかったので、これらを実行するのは安くはありません。しかし、必ずしもお金を使わずに彼らのコードに貢献する方法を見つけることができるかもしれません。
ここで一番下までスクロールしましょう。MLエンジニアとして今からロボティクスに入るにはどうすればよいですか？MIエンジニアが何を意味するのか分かりませんが、MLエンジニアでしょうか？
ロボティクスは異なるスキルセットの寄せ集めのようなものです。ハードウェアの人がいて、よりソフトウェア寄りの人がいて、そしてソフトウェアの中でも10種類の異なるバリエーションがあります。
ロボットに携わる唯一の要件は、ロボットに興味があることだと思います。しかし、ロボティクスで機能する技術的スキルセットは非常に多様です。だから、クールなロボティクスプロジェクトに取り組んで、会社に応募する時にそれを見せればいいのです。
GRPOは実際にはKVを持つ修正されたPOよりも良くないと思いますか？そうかもしれません。私が言っていたように、GRPOは天から降ってきた何か神のようなアルゴリズムではないと思います。
人々が別のランダムなPOのバリエーション、例えばDPO（Direct Policy Optimization）のような、何か他のものを思いつくことは驚きません。アルゴリズムは常に変化しています。そして、ここで見たように、矛盾する結果が得られることがあります。
この例ではConvNetがとても良く機能し、別の例ではVision Transformerが良く機能し、そして誰かが実際にはDiffusion Modelがそれに対してより良く機能すると証明するかもしれません。アルゴリズムは常に変化しています。一つの魔法のアルゴリズムが機能するわけではありません。データと計算、それらがより重要な部分です。
大学院でロボティクスと数学のどちらがよいでしょうか？私はロボティクスの方が数学より良いと思いますが、数学が好きなら、それを思いとどまらせたくはありません。
NVIDIAよりも良いCUDAチップを作る人が近いうちに出てくるとは賭けないでしょう。それは全く、OpenAIについて彼らが言ったことと同じです。「近いうちにOpenAIよりも良い推論モデルを作る人が出てくるとは賭けない」と言っていましたが、今では現実となっています。
効率のためにGRPOを使用するという同じマインドセットが、全体的なコスト削減につながる他の最適化にもつながったのですね。そう、それはクラックされたクォントのマインドセットです。
知性は全てではありません。例えば、私は自分をとても高レベルなCSの人間とは考えていません。明らかに私は人生の全てをプログラミングしてきましたが、コードベースに入る時、私はとても小さな変更しかしようとしません。
コードベースに入って物事を変更し始めると、基本的に悪い時を過ごすことになります。一度に一つのことを変更し、それが機能するか確認し、また一つのことを変更し、それが機能するか確認する、というように本当に慎重にやりたいのです。
しかし、クォントたちは、CUDAのGPUコードのレベルで物事を変更し始めるほどの大きな勇気が必要です。クレジットを与えるべきところには与えなければなりません。もし「GPUs間で情報が送信される方法はおそらくより最適化できる」と考えるレベルのクラックされたクォントであれば、私にそれを思いつく可能性はありましたか？おそらくないでしょう。
しかし、これに取り組むほど優秀な人々がいます。POの方が良いですが、GRPOの方が実装が簡単です。DeepSeekモデルはGPT-4からの蒸留と主張されていますが、それはどのように機能するのでしょうか？
蒸留の仕組みは、基本的にモデルを使用してデータセットを生成し、そのデータセットで訓練できることです。GPT-4を使用して、これがインプットで、これがアウトプットというデータセットを作成し、より小さなモデルを取って、同じインプットでそのより小さなモデルが何かを生成し、生成したものは実際にこのアウトプットであるべきだと言うことができます。
基本的には教師あり学習です。モデルからデータセットを作成し、より小さなモデルに大きなモデルをコピーさせることができます。それを十分な回数行えば、最終的に小さなモデルは大きなモデルのように感じ始めます。
完全に同じではありません。少し愚かになります。しかし、大きなモデルから蒸留された小さなモデルは驚くほど良いものです。しかし、私にとって蒸留は、スライドで示したように、不正や窃盗と考えるのは間違った見方だと思います。
蒸留は誰もが互いから常に行っていることです。GPTの出力がインターネット上にあるということは、誰かがインターネットをスクレイプする時、それを使用しているということです。しかし、それはそのデータを盗んでいるということではありません。人類は一つの巨大な蒸留プロセスのようなものです。誰もが常に他の人を真似ているだけです。それが私たち類人猿がすることです。
蒸留は単によりよいモデルのロジットを取り、あなたのものにマッピングします。実際のロジットがある場合、つまり、各トークンの正確な確率がある場合、非常に効率的に比較的速く蒸留することができます。
もし教師モデルと生徒モデルを持っていて、実際のロジット、つまり各トークンの正確な確率を持っていれば、非常に効率的に蒸留することができます。GPT-4の各トークンの出力ロジットを正確に知っていれば、非常に効率的に蒸留できます。
しかし、最終的な単語だけを持っていても蒸留することはできます。GPT-4から生成されたデータから蒸留する場合、これらの数字は持っておらず、ビーチという事実だけを持っています。しかし、それでも蒸留することはできます。
実際のロジットにアクセスせずに、より大きなモデルを蒸留することはできます。ただし、実際のロジットを持っている場合ほど効率的で完全ではありません。
マテを一口飲みましょう。CUDAコードは実際にどれほど敏感なのでしょうか？NVIDIAのゲーミングGPUでモデルをダウンロードして実行できますが、H100sで作業する時、なぜそれほど簡単に壊れてしまうのでしょうか？
コードベースには複雑さが伴います。単純なコードベースは、全てを頭の中に収めることができ、この変更を加えるとこうなる、というのを考えるのは非常に簡単です。CUDAの問題は、その複雑さが誰の頭の中にも収まりきらないほど大きいということです。
異なる種類のハードウェアの巨大な多様性のために設計されたコードについて話しているのです。全てのチップ、全てのメモリキャッシュがどこにあるかについてとても良い知識が必要です。これらのチップには異なるデータタイプを使用する異なる部分があります。
CUDAレベルで変更を加えるには、基本的にNVIDIAのエンジニアと同じくらい理解する必要があります。どこかにNVIDIAのエンジニアがいて、文字通り全体像を持ち、フルコンテキストでこれらの最適化を行うために給料をもらっています。
そのNVIDIAエンジニアよりも優れた最適化を行うためには、そのフルコンテキストを持っているだけでなく、それを超えたレベルである必要があります。これは非常に良い答えではないかもしれませんが、低レベルのGPUコードを書くことの複雑さは非常に高いと思います。
それは非常に複雑なシステムであり、ハードウェアに近づけば近づくほど、一般的により複雑になり、より混乱し、より多くの細かい詳細を認識する必要があるからです。
将来的には、バックプロパゲーションに適応したスパイキングネットワークを持つニューロモーフィックチップがあるのではないでしょうか？はい、他のクールな計算媒体があると思います。これらは全てシリコンですが、フォトニックコンピューティングや、実際のニューロンや細胞を使用している人々もいます。
サスキアについて話していますが、それは量子コンピューティングのようなもので、永遠に10年先のことだと感じます。近い将来、人々がニューロモーフィックチップで訓練を行うとは思えませんが、10年後にはそうなるかもしれません。
ニューラルネットワークが概念や抽象を学習しているのか、それとも単に補間や外挿を行っているのかという質問は、知識や学習、概念とは何かという存在論的な問題であり、答えるのはほぼ不可能です。特定の入力に対して意味のある出力を生成できるなら、それは実際に理解していると言えるでしょう。理解とは何でしょうか。
より大きなモデルから小さなモデルを蒸留して、より良い小さなモデルを得られるということは、モデルの学習方法に明らかな問題があることを示しているのでしょうか。いいえ、それは単に以下のことを意味します：大きなモデルから蒸留された小さなモデルが、元のモデルと同程度の性能を発揮する場合、それは起伏のある地形の中の特定の点を示しています。
ニューラルネットを学習させる際、例えばニューラルネットがパラメータθ1とθ2の2つしか持たないとすると、この丘の上のθ1とθ2の位置によってスコアが変わります。損失が高い場所ではニューラルネットは愚かですが、この部分ではニューラルネットは賢くなります。
蒸留が示しているのは、小さなニューラルネットの地形の中に、非常に知的なニューラルネットが存在する小さな窪みがあるということです。これは宝くじ仮説のようなもので、実は10億個のモデルがあり、もし魔法のように各重みの値が分かれば、10億個の中から非常に知的なモデルを見つけられる可能性があります。
しかし、その方法は分かりません。私たちが知っている唯一の方法は、勾配降下法を使用して、徐々にこれらの値を調整していくことです。データセットは単なる方向性であり、ステップを1つずつ進んでいくことです。インターネットからスクレイピングしたデータセットで学習する場合、それは特定の経路を辿って特定の窪みに到達します。
蒸留を行う場合、実データとは異なる経路を辿って異なる窪みに到達し、その窪みは実データで到達する窪みよりもはるかに優れています。小さなモデルには常に非常に知的になる能力がありましたが、適切な重みの組み合わせを見つけられていなかっただけです。
これらのモデルには既に超知的になる能力が備わっていますが、勾配降下法を使用して丘を転がり落ちるように徐々に調整していく以外に、その超知能に到達する方法が分かりません。
なぜ猫がパーカーを着ているのかという質問については、私の猫はパーカーを着ていません。
FP16からFP8、FP4と進むにつれて、最終的に論理ゲートに到達するのでしょうか。はい、さらに下げることができます。1ビットまで下げた論文も読んだことがあります。DeepSeekもこれを行っています。BF16、F8などです。F8を使用する理由は、より高速に学習できるからです。
FP32の場合67テラフロップスですが、F8では4,000テラフロップスになります。データ型を削減すると、より多くの計算が可能になり、より高速に学習できます。この傾向は続くでしょう。量子化も同じ考え方です。データ型を削減することで、同じモデルをより少ないメモリで実行できます。
OpenRoomについて、DeepSeek R1で4x4行列式の計算をテストしたところ、正しく解けたということですね。それは理にかなっています。
現在のトレンドが壁にぶつかる可能性はどの程度でしょうか。AGIがこのように出現するという理論はありますか。技術はS字カーブを描くと思います。以前にも示しましたが、全ての技術は基本的にこのようなものです。強化学習とDeepSeek R1は新しいS字カーブを表しています。
以前はインターネット上の事前学習のS字カーブにいて、それは平坦化し始めていました。GPT-3.5からGPT-4、GPT-4.5への違いは徐々に小さくなっていました。しかし、今は強化学習カーブの初期段階にいます。
急速な進歩を見せた後、再び平坦化し始め、より多くの計算リソースが必要になり、様々な小技を見つけ出す必要が出てきます。しかし誰かが新しいスケーリング方法を見つけるでしょう。
将来を予測する際には、現時点では見えない要素があることを考慮に入れる必要があります。
DeepSeek R1の仕組みについて説明できますか。モデルはどのように推論を行うのでしょうか。このモデルは言語モデルであり、同じTransformerアーキテクチャを使用し、自己回帰的にトークンを1つずつ生成します。
これらの緑のブロックを作成し、入力に対して次のトークンを生成し、それを受け取って次のトークンを生成する、というプロセスを繰り返します。このπθ（ニューラルネット）は、質問と、それまでに生成されたトークンに基づいて次のトークンを生成します。
例えば10トークンのプロンプトがある場合、そのプロンプト（質問）とそれまでに生成されたトークンを入力として、次のトークンを生成し、それを繰り返します。
推論モデルについて、以前のGPT-3.5では、質問に対して即座に正しい答えを出すことを目指していました。例えば「1プラス」という入力に対して、次のトークンで「2」と答えられるモデルがより賢いとされていました。
しかし推論モデルのイノベーションは、より多くのトークンを使用して答えを導き出すことです。「1プラス1」という質問に対して10トークンの思考プロセスを経て答えを出すと、より正確な答えが得られることが多いのです。
考える時間が長くなり、より多くの推論を行うほど、正しい答えにたどり着く可能性が高くなります。これらの推論モデルは、最終的な答えに到達する前に、長い推論の過程を経ることが奨励されています。
DeepSeekが他のモデルと比べて安価な理由は、価値ネットワークを除外しているからだけではありません。以前説明したように、様々な工夫があります。Mixture of Expertsに関する工夫もあります。以前にストリームで取り上げましたが、少し古くなっています。
より高速で安価な理由は、単一の要因ではなく、DeepSeekチームが見つけ出した複数の最適化の積み重ねです。
離散的なプログラム検索は実現するでしょうか。既に実現しています。RCGIチャレンジなどで使用されている手法です。
全てのAI企業がDeepSeekのような同様のモデルを開発すると予想されますか。はい、全てのAI企業が独自の推論モデルを開発するでしょう。残念な真実は、DeepSeekがこれをオープンソース化したことで、OpenAIやAnthropicなどの企業は巨額の予算を持っているため、単にGRPOを実行し、DeepSeekの10倍の予算で実行するでしょう。
オープンソース化は全体の進歩を加速させます。DeepSeekの公開により、OpenAIもより速く進歩できます。アメリカの研究所から出てくる推論モデルは、DeepSeekの革新の恩恵を受けて、より強力になるでしょう。
新しい強化学習のS字カーブをより速く上っていけるのは良いことだと思います。最終的にはこの段階で癌が治癒され、誰もが不死の生活を送れるようになると考えています。私がオープンソースを支持する理由は、できるだけ早くその段階に到達したいからです。
しかしOpenAIのような企業の考え方は、この段階に到達するまでの時間が長いほど、より多くのお金を稼げるというものです。より賢いモデルを持っている間、その積分が彼らの収益になります。OpenAIは特異点を遅らせたいため、情報を公開しません。特異点を遅らせれば遅らせるほど、より多くのお金を稼げるからです。
しかしDeepSeekのCEOは、最終的な段階に到達すれば全ての病気が治癒され、AIが全てを行ってくれることを理解しています。そのため、その曲線に向かって進み、結果を公開して他の人々も使えるようにすれば、皆で一緒にその曲線の終点に到達できます。
しかしサム・アルトマンのような貪欲な人々は、それを遅らせたいだけです。
次のステップとして、仮想マシンにGRPOを使用することになると思いますか。はい、それは大きな機会です。実際、このプロジェクトを考えていた時、GRPOについて考えていた別のことは、Hugging Faceの例では、DeepSeek R1 Distill Qwen 7BにGRPOを使用して数学を学習させていましたが、DeepSeekがリリースしたYanisのような視覚言語モデルを使用して、ロボット工学のデータセットに適用することもできるでしょう。
多くの人々が今まさにそれを試みているのではないでしょうか。視覚言語モデルにGRPOを適用しようとしています。
モデルが数学やコーディングが上手くなることで、他の分野にも能力が転移するという考えについて、新しい情報を聞いたことはありますか。以前のストリームでも多く議論しましたが、全ての強化学習技術は報酬信号に依存しています。環境からの報酬信号が必要です。
残念ながら、哲学や料理などの分野での報酬信号の取得は非常に困難です。料理は報酬信号を得られるかもしれませんが、数学やコーディングは検証可能なため、プログラムで答えが正しいかどうかを確認できます。
人間を介さずに報酬を得ることができます。囲碁の何百万もの対局があり、最後に誰が勝つかが分かります。数学とコードでは環境から報酬信号を得ることができるため、超人的な性能を得ることができます。
問題は、数学とコードで超人的な性能を持つことで、哲学でも超人的な性能を得られるかということです。私の直感では、おそらくそうでしょう。数学とコードと一般的な推論能力の間には、ほぼ全ての分野に転移する要素があるでしょう。
具体的にどのようになるかは分かりませんが、例えば高校生物の授業と数学博士を比較すると、数学博士は既に十分な生物学の知識を持っているかもしれませんが、高度な推論能力を持っているため、全く異なるベンチマークでもより良い成績を収めることができるでしょう。
一般化とタスク転移を説明するのは難しいですが、直感的には、数学とコーディングの能力は言語空間内のほぼ全ての分野に何らかの形で転移すると考えています。
LLMにコンテキストウィンドウを超えて考えさせる方法はあると思いますか。いいえ、結局のところLLMは単にコンピュータ上で動作する信号の集まりです。シリコンの集まりです。
コンテキストウィンドウがハードウェアによって制限されている場合、それ以上追加することはできません。コンテキスト長を増やすためのトリックはありますが、それらは基本的にメモリに情報を保存したり、情報を圧縮する方法を見つけ出したりすることです。
AIがプラズマ実体のようになってコンピュータから抜け出すような方法を見つけ出すことはありません。LLMはコンピュータ内に制約されています。人間が意識を石に転送する方法を見つけ出せないのと同じです。実は不思議なことに、デジタルクローンを作ることは、ある意味で意識を石に転送することかもしれませんね。
最新のRWKV COOTの実験を見たことがありますか。RWKVについては知っていますし、ストリームでも取り上げたと思いますが、最近のニュースは見ていません。RWKVに取り組んでいた人がCOOT実験を行い、興味深い結果を得たということですね。
コンテキストウィンドウをLoRAに保存し、推論時にLoRAを使用するというのはどうでしょうか。はい、様々な小技を使うことはできます。DeepSeekはKVキャッシュを圧縮する方法を見つけたようですが、結局のところタダ飯はありません。
コンテキストウィンドウは基本的にどこかのシリコンに格納する必要があり、圧縮することはできますが、ほとんどの圧縮形式には何らかの損失が伴います。圧縮するとロッシーになってしまいます。
リカレントニューラルネットワークやMambaは無限のコンテキストを持っていますが、それは全てを隠れ状態に格納することで実現しています。その隠れ状態には制限があるため、実際には少しずつ忘却しています。新しい情報を入力すると、古い情報を忘れていくのです。
質問はありますか？ストリームの最初に戻りましょう。価値関数について、GPUを変更するのは難しいですか？難しくはありません。とても簡単です。ここをクリックして、H100の代わりにA100を使用するように設定するだけです。
しかし問題は、コーディングでは1つのことを変更すると壊れる可能性があることです。複数のことを変更して壊れた場合、デバッグが非常に困難になります。そのため、CUDAを再インストールして異なるGPUで実行する必要がある場合、2つの異なる変更をデバッグすることは1つの変更をデバッグするよりも指数関数的に複雑になります。
実行できないわけではありませんが、例えば異なるGPUを使用したい場合、80GBのメモリがない可能性があります。そうすると、デバイスごとの学習バッチサイズや勾配蓄積ステップを調整する必要が出てきます。モデル全体をメモリに収められないため、バッチサイズを変更する必要があります。
また、VM生成の設定もH100用の特定の設定を使用しているため、それも調整する必要があります。GPUの変更自体は難しくありませんが、依存関係と設定地獄に陥りやすいのです。
依存関係と設定地獄にいることは気持ちの良いものではありません。何も学んでいる感じがせず、ただ異なる値を試して何が動くか確認しているだけです。一日中設定をいじっても、何を学んだという実感が得られません。
RLは学習中にデータを合成しているため、より安価になるのは難しいのではないでしょうか。探索を行う必要があることは変わりません。これは囲碁で超人的な性能を得る場合と同じです。超人的な性能を得るためには、環境との相互作用にコストを払う必要があります。
シミュレーション環境で相互作用を行う場合、並列化して何百万もの仮想ロボットやポリシーをシミュレーション環境で動作させ、大量のデータを生成することはできますが、それにもコストがかかります。
コストを節約する方法はあります。例えばモンテカルロ木探索では、木を探索するロールアウトポリシーとして、元のポリシーと同じサイズのネットワークではなく、小さなネットワークを使用することがあります。良い結果と悪い結果をサンプリングするために、小さなネットワークを使用します。
様々な工夫はできますが、結局のところ超人的な性能を得たい場合、その経験を収集するための推論コストを払う必要があり、それを強化学習に使用することができます。
その場合、実験は本当に価値があるのでしょうか。私も貢献したいと思いましたが、無意味に思えます。基本的にそういう結論に至りました。ただGPU時間を浪費して、自分の小さなプロットを見て「すごい！このプロットを見て！」と言っているだけですが、実際には意味のないプロットです。
この小さな愚かなネットワークに勾配を流し込んで何をしているのかと思います。残念ながら、多くのことがそういう状況にあります。これでもまだましです。1年前を想像してみてください。事前学習のS字カーブに貢献しようとしても、H100が1台しかない場合は無理でした。
この種のRLでは、小規模なGPUでも貢献できる小さな発見があるかもしれませんが、お金がなければ貢献するのは依然として非常に困難です。
新しい論文「Titans」についてどう思いますか。漠然と覚えていますが、GoogleのRNNに関する論文でしたよね。記憶があいまいですが、基本的にはRNNだったと思います。より長いコンテキストウィンドウを持っていますが、ロッシーな方法で実現しています。
論文の中で忘却ゲートなどの概念を導入していましたが、基本的にはRNNを異なる用語で再構築しているだけのように見えました。異なるものに見えますが、実質的には同じトレードオフです。
分散学習システムのPrime Intellectについて研究したことはありますか。Prime Intellectについては知っています。それが未来だと思います。現在は企業や国家が大規模なクラスタを持って進歩を推進していますが、実際には世界中の分散化されたインターネットが最大のクラスタです。
世界中の全ての携帯電話とコンピュータを考えると、それは巨大な潜在的なクラスタです。いずれ何百万台ものコンピュータで分散学習が行われるようになるでしょう。ビットコインのような分散システムと同じです。
ビットコインが従来の金融システムに勝ったように、これらの分散学習システムもまだ初期段階ですが、Prime Intellectの考え方には同意します。ただ、まだ少し早いと感じています。
モデルが全体的に良くなっているかどうかを測定するには、何らかのベンチマークで評価する必要があります。
データセットは手続き的に生成され、独自で記憶に頼らない方法になり、ニューラルネットワークの一般化が唯一の方法になるのでしょうか。データセットは手続き的に生成されるわけではありません。
手続き的に生成される合成データと、モデル自体によって生成される合成データがあります。AlphaGoでは、合成データはポリシー自体によって生成されます。手続き的に生成された囲碁の対局は、プロの対局を取り、いくつかの要素を変更してデータを10倍に増やすようなものです。
これは手続き的な合成データ生成の一種であり、データ拡張は手続き的な方法での合成データ生成です。しかしここでの合成データは、ネットワーク自体、ポリシー自体によって生成されています。
NewsGuardがレポートを発表し、AIのDeepSeekはニュースに関する質問に対する正確性が177%しかないとのことですが、ニュースの正確性は非常にグレーな領域なので、そのようなベンチマークにあまり意味はないと思います。
ジョシュ・ボンガードは、生命組織と筋肉から作られたシミュレーション上のコンピュータ設計ロボットを使用しています。シミュレーションロボット工学には多くの興味深い研究があります。
Googleが分散学習用の新しい最適化アルゴリズムに関する論文を発表しました。DTOと呼ばれていると思います。分散低通信の論文を読んだと思います。なぜ低通信なのかというと、インターネット上に分散したコンピュータがあるからです。
H800とH100の違いは実際のFLOPSではなく、帯域幅です。GPUs間の通信速度が重要です。同じ問題が分散システムでも発生します。アメリカのTPU V4から日本のTPU V5に情報を送信する速度は、全てのGPUが1つの大きなクラスタにある場合と比べて非常に遅くなります。
相互接続速度、通信速度が重要ですが、それを回避する方法はあります。多くの分散学習の論文は、基本的に計算リソースが互いに通信できない環境でどのように学習するかについて述べています。
ジョージ・ホッツは分散AI学習フレームワークについて正しい方向にいたのでしょうか。彼の意見は知りませんが、分散AI学習は間違いなく将来の重要な部分になると思います。
最終的には他の全てを凌駕するかもしれません。世界最高のモデルは、分散的な方法で学習された分散モデルになるでしょう。所有者は人間でないかもしれません。モールに住むAIエージェントがこれに対して支払いを行うかもしれません。
AIエージェントが私たちの世界の実体となることは奇妙に聞こえますが、企業も実体です。AIエージェントで企業を運営できるようになれば、人間のいないAIエージェント企業が現れ、独自のモデルを作成することができます。
多くのGPUを購入する必要もありません。分散学習の方法を見つけ出せば、世界中のコンピュータで実行できます。
Sonnet 3.5はDeepSeek R1よりもコーディングが得意ですか。判断が難しいですね。コーディングにも様々な種類があります。カーソル型のコーディングのような自動補完的なものなのか、LeetCodeのような問題解決能力を測るものなのか。コーディング性能を測る方法は多くあります。
AGIの開発を加速させたいと考えているGPUの乏しい人々は、今日何をすべきでしょうか。消費者向けGPUを1台持っている個人は、強化学習環境の構築にどのように貢献できるでしょうか。非常に難しいです。
例えば、私の貢献方法は学び、学んだことを共有することです。他の人々の理解を助けることができれば、全体の進歩につながると考えています。この曲線にできるだけ早く到達することが重要です。
コードを書いて改善しようとするよりも、教え、知識を共有する方が、曲線に早く到達できると思います。判断は難しいですが。
ある時点で、分散学習はモデルのマージングに近いものになるかもしれません。現在行っていることも一種の分散学習と考えることができます。蒸留は分散学習の一種と考えることができます。
OpenAIがモデルを学習させ、DeepSeekがOpenAIのモデルから蒸留を行うとき、それは何でしょうか。実際にはこれも分散学習の一種です。DeepSeekはOpenAIの学習の恩恵を受けています。私が「皆が皆から蒸留している」と言ったのはそういう意味です。全てが巨大な分散学習プロセスなのです。
そろそろ終わりにしますが、あと数問だけ答えます。LLMで「37手目」のような動きを見ることができるでしょうか。おそらくです。
EMUはCPUで30秒で学習でき、簡単なおもちゃの問題か、消費者向けGPUで数分かかるImageNetなどがあります。MNISTのような小規模な評価問題で学習して評価することはできます。1台のGPUでできるのが、MNISTが作られた理由です。
異なるアルゴリズムを試すためのベンチマークを作成することができますが、残念ながら、アルゴリズムはそれほど重要ではありません。MNISTでの性能を改善する小技を見つけても、必ずしも大規模な学習に適用できるわけではありません。
小規模な学習から何らかの洞察を得ることはできますが、一般的に大規模な学習で試してみないと分かりません。
10ドルの寄付、ありがとうございます。論文の説明が素晴らしいですね。これはあまり論文らしくありませんが、今回のストリームではよりミーム的なアプローチを試みました。また論文のストリームに戻るかもしれません。ストリームを楽しんでいただき、ありがとうございます。
これらの名前を確認します。770、Josh Fox、Open Room、Sagar、Sarah、Paul English、Saturdays、そして誰がいましたか。Bessiman、CP3、IY、Its Hexen、770、Sagar、Aries、Patrick、Sasia、Swatti B、Wayward God、Jiao NE、Costas、Cole。
全員の名前を確認しようとしています。VR Wizard、Sarah、Saturday equals、もちろんBycloud。上の方は見えませんが、他にも貢献してくれた人がいたと思います。ありがとうございます。
来週また会いましょう。最後にゴンドールのホルンを吹かせてください。

オープンソースDeepSeek

いいなと思ったら応援しよう！