![見出し画像](https://assets.st-note.com/production/uploads/images/154478847/rectangle_large_type_2_590cb83a3ac0e9e4f0b1174e1a0037d9.png?width=1200)
Strawberry
25,465 文字
長いけど今日のおすすめ記事です。
本日はみなさん、ようこそhoostストリームへお越しくださいました。今日はストロベリーについて話していきますわ。ストロベリーって何やねんって?最新のOpenAIモデルのことや。モデルっちゅうより、いろんなもんの集まりみたいなもんかもしれへんけど。詳しいことはよう分からんのやけど、みんなが騒いでるのは、このモデルがいろんなベンチマークで良い成績を出してるからやねん。
ほな、GPT-4と比べてみよか。GPT-4が現行モデルで、O1がその新しいバージョンや。O1 Previewとか O1 Miniとか、名前がややこしいけど、とにかくO1の方が良い成績を出してるんや。
でもな、これに文句言うてる人もおるねん。例えば、AIのYouTuberのLittle CoderとかDavid Shapiroは「なんでみんなOpenAI O1のことを単なる思考の連鎖やって言わへんのや」って怒ってるわ。O1 Previewに対して批判的な人らが出てきてるんやな。
ちょっと前にも似たようなことがあってん。AIの詐欺師みたいなTwitterの人物が「Reflection 70B」っちゅう最高のオープンソースモデルやって発表して、ベンチマークで良い点数取ったんや。けど結局、そいつがやってたんは、AnthropicのSonnet 3.5ってモデルを使って、プロンプトエンジニアリングと思考の連鎖をちょっといじくっただけやったんや。
こんな感じで、OpenAIが思考の連鎖をやると、みんな「すげえ!」言うてるのに、この詐欺師みたいな奴がやると「人事部呼んでこい」みたいな反応になるんや。ちょっと二重基準ちゃうかなって思うわ。
結局のところ、ストロベリーは単なる思考の連鎖以上のもんやと思うねんけど、残念ながら中身は分からへんのや。OpenAIの研究者のJason Weiが「一番驚いた研究結果やけど、秘密は明かせへん」って言うてるし。小さなモデルがこんなに良い成績出すなんて信じられへんって。
でもな、モデルのサイズが分からへんから、「ただのモデルに思考の連鎖つけただけやん、すごないやん」って思う人もおるんや。でも、もしかしたらこのモデルめっちゃ小さいかもしれへん。7Bとか1Bのモデルかもしれへんやん。そしたらすごいことやで。
でもな、残念ながら我々はOpenAIのお偉いさんクラブに入ってへんから、モデルのサイズも分からへんし、思考の連鎖も見られへんのや。OpenAIのブログ見たら、「ユーザーには生の思考の連鎖は見せへん」って書いてあんねん。ちょっと気持ち悪いよな。FBIには見せるけど、お前らには見せへんって感じや。
政府は思考の連鎖見られるのに、お前らは見られへんのやで。モデルのサイズも分からへんし、思考の連鎖も見られへん。最終的な答えだけ見せてもらえるんや。ちょっと気持ち悪いよな。
思考の連鎖を隠す理由としては、セキュリティとか安全性の話をしてるけど、ほんまの理由は別にあると思うわ。思考の連鎖見せたら、それを使ってファインチューニングされるのを防ぎたいんやと思うわ。
覚えとる?Vunaってやつ。ちょっと前の研究やけど、Vuna 13Bっちゅうのは、誰かがLlamaを取ってきて、ChatGPTでファインチューニングしたんや。そしたら、ほぼGPTと同じくらい良くなったんや。完璧やないけど、かなり良くなった。
OpenAIはそういうことが起こるのを防ぎたいんやと思うわ。誰かがLlama 3を取ってきて、思考の連鎖でファインチューニングして、OpenAIが売ろうとしてるもんと同じくらい良いもんができるのを防ぎたいんや。
OpenAIはいつもこうやな。安全性を口実にして、実際は競争を避けるための企業秘密を守ろうとしてる。モデルを独占しようとしてるんや。
さて、もう一つ気になるのは、Sam AltmanがAGI(汎用人工知能)についての質問に「違う」って答えたことや。なんでやろ?実はOpenAIは非営利団体で、Microsoftと収益分配の契約を結んでるんや。Microsoftは買収したんやなくて、ある額まで収益を得られる複雑な契約なんや。
でもな、その契約の重要なポイントがあって、OpenAIがAGIを達成したら、MicrosoftとOpenAIの関係があんまり儲からんようになるんや。そしたらOpenAIは完全な非営利になるんや。
つまり、Sam AltmanがAGIについて「違う」って言うてるのは、本当にそう思ってるかどうかは関係ないんや。AGIの定義自体があいまいやしな。Sam Altmanがそう言うてるのは、自分の財政状況にとって一番ええからなんや。Microsoftのえらいさんらがたくさん儲けられるようにするには、これがAGIやないって言い続ける必要があるんや。
ちょっと暗い世界やな。みんな秘密主義やし、嘘ついたり、真実を隠したりしてる。ちょっと落ち込むけど、でもな、これには何かがあるんや。単なる思考の連鎖やないんや。
今日は3つの論文を見ていくで。これらの論文を見れば、何が起こってるのか分かるかもしれへん。まず、Google DeepMindの「LLMのテスト時計算の最適化はモデルパラメータのスケーリングよりも効果的」っちゅう論文や。次に「数学エージェントの構築:多段階反復選好学習」っちゅうのもDeepMindの論文や。これらは最近の論文で、2024年8月と9月のもんや。
最後に「戦略的スキルの学習:LLMによる二段階ツリー探索」っちゅう論文もあるんや。ここでキーワードになるのが「ツリー探索」やな。
ほな、この論文に戻ってみよか。ここでちょっと止まって、チャットを見てみるわ。
PRさんが言うてるんは、なるほどな。小さなモデルなら1日30回までの制限なんてせんでもええはずやのに、なんでやろって。確かに、めっちゃ小さなモデルやったら、100回でも制限せんでもええはずやな。でも結局のところ、どんな制限でも、コストの問題なんや。
100回できるんやったら、そうするやろうけど、結局のところ、この推論でお金失うてるんや。誰かが計算して、30回くらいが限界やって決めたんやろな。これ、シリコンバレーのスタートアップではよくあることやで。Uberとかも、乗車料金よりも安く提供してるんや。タクシー代を補助して、もっと使ってもらおうってことや。
GPT-1の30回制限も同じようなもんや。1日中使われたら、20ドル以上かかるんちゃうかな。ちょっと赤字になっても、製品を補助することで、お金持ってない競合を追い出そうってことやな。製品をタダ同然で提供して、他の会社が使えんようにする。そうすると独占状態になって、そしたら価格つり上げるんや。これ、独占企業がよくやるやつやで。
tempさんは、学生-教師のセットアップでLlamaを訓練したんかって聞いてるな。学生-教師っちゅうのは普通、蒸留のことを指すんや。大きなモデルを使って小さなモデルに蒸留するんや。小さなモデルを大きなモデルに近づけるんや。これはちょっと似てるけど、ちゃうな。これはLlamaを取ってきて、GPTのデータセットでファインチューニングしたんや。
ファインチューニングとか蒸留とか、今はめっちゃ広い意味になってもうてん。多分100通りくらいのファインチューニングの方法があるし、蒸留の方法も100通りくらいあるんちゃうかな。だから、正確にどういう意味かっちゅうのは難しいんや。
RLHFについての質問もあるな。Chain of Thoughtのモデルに最初にリクエストが行って、そのアウトプットが実際の01モデルに入力されるんやないかって。確かにそうかもしれへんな。正確には分からへんけど、OpenAIは詳しく説明してくれへんからな。でも、そんな感じかもしれへん。
私の考えでは、GPT-4のような小さなモデルを取ってきて、DeepMindのAlphaGoゼロみたいな自己対戦型のRLにたくさんお金をつぎ込んで、MCTSをうまくできるようにしたんやないかな。今やりとりしてるのは、推論が得意なモデルと、そのアウトプットを実際のテキストにするモデルの組み合わせやと思うわ。多分2つか3つのモデルがあって、最初は小さなモデルとだけやりとりして、必要なら大きなモデルを呼び出すんやないかな。
ほな、論文に戻ろか。この論文では、Palm 2モデルのPRM(プロセスベース報酬モデル)のラベル付けに、高額な人力作業の代わりに、モンテカルロ・ロールアウトを使って各ステップの正確さを推定してるんや。これ、何言うてるかっちゅうと、今までの後処理(この緑のバー)はRLHFやったんや。RLHFでは、こういう人力のPRMラベル付けが必要やったんや。
RLHFって何やねんって?これ、Andre Carpathyの説明やけど、RLHFは事前学習と教師あり微調整の後の第3段階の学習やねん。でも、本当の強化学習(RL)とは違うんや。例えば、AlphaGoは本物のRLで訓練されたんや。コンピューターが囲碁の対戦をして、報酬関数を最大化するようにロールアウトで学習したんや。
これはどういうことかっちゅうと、こういうロールアウトを作るときに、最終的に勝者が決まるやろ?そしたら「ここで勝ったってことは、ここでええ手を打ったんやな」って考えるんや。そしたらこの状態でこの行動を取るのはええことやって学習するんや。
そしたら、この信用割り当てをずっと遡って、「じゃあこの行動もまあまあええんやな」って学習していくんや。報酬から遡って、途中の状態や行動にも報酬を与えていくんや。
でも、RLHFではそうやないんや。RLHFでAlphaGoを訓練しようと思ったら、まず人間のラベル付け作業員に2つの盤面を見せて、どっちが白にとってええ状態かを聞くんや。そして10万回くらいそれを繰り返して、人間の「なんとなくの感覚」を真似するように報酬モデルを訓練するんや。
ここで説明してるのはそういうことや。プロンプトがあって、回答AとBがあって、「Bの方がええ」「Aの方がええ」「Bの方がええ」ってデータを集めて、そこからモデルに勾配を与えるんや。
でもこれじゃあ、モデルの推論能力は上がらへんのや。むしろ、ちょっとアホになるかもしれへん。基礎モデルをこういう好み学習でRLHFすると、ちょっとアホになるんや。
でも、本物のRLをやったら違うんや。本物のRLなら、自己対戦して、こういうツリーをずーっと探索して、それぞれの中間状態が勝利につながったかどうかを判断するんや。そうすれば、本当の意味でのRLができるんや。
そしたら、そこにたくさんお金をつぎ込んで、最終的には人間を超える知能を手に入れられるんや。実際、人間を超える知能を手に入れる方法は、今のところRLしか知られてへん。
結局のところ、AlphaGoは人間を超える囲碁AIになったんや。チェスの最新AIも人間を超えてる。ただ人間と同じレベルやのうて、全ての人間チェスプレイヤーより強いんや。
だから今、言語モデルにこの本物のRLをやり始めたってことは、人間を超える推論能力への道が開けたってことやねん。それがどんなもんになるかは分からへんけど、人間を超える囲碁AIがどうなるか想像できへんかったのと同じや。
人間は囲碁の最高峰やと思ってたけど、そうやなかったんや。実はもう一段上のレベルがあったんや。囲碁の達人らによると、AlphaGoの打ち方は人間とは全然違うらしいわ。時々変な手を打つんやけど、結果的にはそれが強いんや。
だから、こういう言語モデルに本物のRLをやったら、トークンやら単語の可能性のツリーを探索して、変な結論に至るかもしれへんけど、それが何かしら優れた結果になるんやないかな。
でも、一番の制限は「正解」が必要ってことや。各ステップの正しさを判断するには、最終的な答えが分かってないとアカンのや。例えば、ここでこれこれこういうことをして、最後に人間が勝ったら、人間のとった行動は全部ええ行動やったってことになる。
でも、これが成り立つのは、最後の環境報酬があるときだけなんや。つまり、「この人が勝った」「この人が負けた」っていう結果が分かるときだけや。これは、コードや数学みたいな分野でしか使えへんのや。
例えば、質問されて、コードを書いて、最後にそのコードが動いて問題を解決したら、それまでの中間ステップは全部ええステップやったってことになる。だからそれらのステップに報酬を与えて、うまくいかへんかったステップには報酬を与えへん。
だから、こういう自己対戦型RLで超人的な推論能力を手に入れられるのは、最後の報酬信号で正しいかどうか判断できる分野だけやと思うわ。例えば、文章を書くとか文学とかやったら、最後の報酬がないんや。哲学の議論とかもそうや。哲学の議論の推論の跡を見ても、誰が正しいかなんて分からへんやろ。
だから、文章を書くとか文学みたいな主観的な分野では、最後の環境報酬を使って全ての推論の跡を遡って、どれがええ推論やったか判断して、最終的に自己対戦で超人的な推論者になるっちゅうのは難しいんや。
でも逆に、転移学習の証拠もたくさんあるんや。コーディングが上手くなったら、なぜか詩を書くのも上手くなるみたいな。直感的にはつながりがなさそうやけど、2024年の今、タスクAが上手くなるとタスクBにも転移するっちゅう証拠がたくさんあるんや。
だから、この本物のRLが数学とコーディングにしか使えへんとしても、そこで超人的な能力を手に入れたら、他のタスクにも転移するかもしれへん。だから、英語みたいな言語タスクにこのアプローチが制限されるのを心配せんでもええかもしれへんな。最終的には転移するやろうから。
ほんで、DeepMindが推論について何も発表してへんのが不思議やって意見もあるけど、実はしてるんや。この2つの論文、どっちもGoogle DeepMindの論文やで。この論文はちょっと面倒くさいかもしれへん。形式的な強化学習の数学がたくさん出てくるけど、基本的な考え方は同じや。
複数ターンの思考の連鎖による推論があって、外部ツールも使えるようになってる。基本的には、推論の全過程でRLをしようとしてるんや。ほら、ここに問題があって、コードがあって、推論のステップがあって、実行のステップがある。多分「executation」は「execution」の間違いやと思うけど、とにかく全体でRLをしてるんや。
この論文が面白いのは、ツールの使用についてもRLしてるってことや。単に「このトークンの次はこのトークン」っちゅうだけやなくて、特定のツールを使うことについてもフィードバックを与えてるんや。ある状況では電卓を使った方がええし、別の状況ではコードを書いて実行した方がええかもしれへん。
もうGoogleからこういうRL関連の論文が出てるんや。Googleはこの分野では経験豊富やからな。結局のところ、GoogleはDeepMindを買収して、このタイプのRLが得意な100人くらいの天才を手に入れたんや。特にこれを大規模にやるのが上手いんや。
こういうのを小さな研究セットアップでやるのと、3500万ドルものコンピューティングパワーを使って大規模にやるのとは全然違うからな。小規模でやるのと大規模でやるのは別物や。結局、大規模にやれるかどうかが重要やと思うわ。
最終的に、この灰色のバー(事前学習)と緑のバー(RL)が一番大きい会社が勝つことになるんやけど、Googleはどっちも得意なんや。OpenAIも両方できるみたいやけど、最近人材流出が激しいみたいやしな。これからどれだけ金をつぎ込めるか分からへんな。
ほんまに、質問に追いつけへんわ。RLの仕組みを一から説明してほしいって?小さなモデルがどうやって作られるかって?サイズは関係ないんや。大きなモデルでも小さなモデルでも、同じ技術が使えるんや。
小さなモデルが欲しい理由は推論のためや。内部推論トークンにたくさんの計算リソースを使うなら、その内部推論をするモデル自体は大きくしたくないんや。財政的に見て、モデルはできるだけ小さい方がええんや。そうすれば、できるだけ安く実行できるからな。
彼らが目指してるのは、超人的な推論ができる極小のモデルや。小さくて超人的な推論ができるモデル、それが黄金の卵みたいなもんや。
RLの仕組みか。ちょっと簡単にまとめてみるわ。ここに書いてあるのは、学習プロセスをマルコフ決定過程としてモデル化してるって話や。これは普通のRLHFで使われるコンテキスト付きバンディットアプローチとは違うんや。
数学は難しそうに見えるけど、実際はもっと簡単なんや。このツリーが分かれば、RLが分かるんや。ほら、ここにVal -1ってあるやろ。次のイテレーション、次のイテレーション、次のアクション、次のアクション...そうやって進んでいって、最後に勝者が決まるんや。
勝者が決まったら、ここの値が高くなる。つまり、ここからここへのアクションは価値が高かったってことや。そしたら、その前のアクションも価値が高かったってことになる。
勝ちにつながった過程全体が報酬をもらえるんや。それぞれのポイントで報酬をもらえるんや。
例えば、ゲームの状態をモデルに入力すると、モデルは次のトークンをこの確率、このトークンをこの確率って予測するんや。それを何回も実行して、どの選択肢からより多くの勝利が出たか見るんや。
そしたら、モデルに勾配を与えるときに、「この状況に戻ってきたら、このアクションの確率をもっと高くしてな」って教えるんや。要するに、前のトークンが与えられたときの、次のトークンの確率分布を変えていくんや。
これが、さっき言うてた「コンテキスト付きバンディットアプローチ」っちゅうもんや。バンディットっちゅうのは、カジノのスロットマシンのことや。一本腕バンディットって呼ばれとってん。それから何十年か前に、強化学習の研究者が「多腕バンディット」っちゅう考え方を思いついたんや。
つまり、前にたくさんのマシンがあって、どれがええかどうか分からへん。たくさんのレバーを引いて、どれがええか探るんや。で、コンテキスト付きバンディットっちゅうのは、そのバンディットにコンテキストがあるってことや。
コンテキストっちゅうのは、こういう状況や。この状況でレバーを1000万回引いて、800万回勝って、100万回負けたら、このレバーを引くべきやってなるんや。
これが「バンディットアプローチ」や。ブラックボックスみたいに扱って、ひたすらレバーを引き続けるんや。3500万ドル分レバーを引いて、経験を積んでいく。最終的に一番ええ結果が出たやつの確率が上がっていくんや。それが勾配のやってることや。
分かるか?RLHFで使われるコンテキスト付きバンディットっちゅうのはこういうことや。プロンプトがあって、回答AとBがあって、「Bの方がええ」「Aの方がええ」「Bの方がええ」ってなっていくんや。
でも、ここではマルコフ決定過程を使うんや。マルコフ決定過程って聞いたら、こういうイメージを思い浮かべてな。要するに、状態があって、そこからアクションを取って次の状態に移るっちゅうシステムを形式的に表現したもんや。
グラフみたいなもんで、アクションを取って次の状態に移るんや。全部決定論的になってる。これがマルコフ決定過程のアキレス腱みたいなもんで、離散的で完全に定義された状態空間でしか使えへんのや。ゲームとかテキストとかな。
テキストもこれに当てはまるんや。語彙が限られてるから、言語モデルが変なアクションを取ることはできへん。出力できるトークンの種類は限られてるんや。だからこういうツリーを作って、3500万ドル使って、どの道筋が一番役に立つか見つけられるんや。
Explorerさんが言うてるみたいに、プロンプトごとに違う連鎖を作って、それに基づいて勾配を与えるんや。そうや、AlphaGoの知能はどこから来てるかっちゅうと、何百万ドルも使って、このスペースをほぼ完全に探索して、最高の答えにつながる道筋を見つけたからなんや。
ここで「この行動を取る」って決めるとき、それを蒸留しようとするんや。おそらく大きなモデルを使うんやけど、実際にはそうやないかもしれへん。こういうロールアウトをするときは、普通小さなモデルを使うんや。
「ロールアウト」っちゅう言葉を聞いたら、「実際にやってみる」っちゅう意味やと思ってな。「これを取ったら次はこれ、次はこれ」ってな具合に。普通、ロールアウトは小さなモデルでやるんや。
小さなモデルがこの可能性のツリーを探索して、このツリーを作る。そしたら報酬モデル、ここでは「検証器」って呼んでるけど、それが一番ええのを選ぶんや。
でも、その報酬モデルを訓練するには、最後に何かスコアがつくものじゃないとアカンのや。だからゲームが使えるんや。ゲームの最後には勝者と敗者が決まるからな。数学も同じや。最後に正解かどうか分かるからな。自動的に正しいかどうか判断できるヒューリスティックが使えるんや。
最後の信号が自動的に得られへんとアカンのや。もし信号が好みのデータセットから来てるんやったら、結局のところ、何人の人間を座らせて好みのラベルを付けられるかに制限されるんや。
めっちゃ複雑なことに対して、好みのデータセットを集めるのは無理や。例えば、AlphaGoをこんな風に訓練しようと思ったら、100人のプロ棋士が座って、一つ一つの状態について丸一日考えんとアカン。
でも、クラウドで自動的にできるシステムがあれば、そんなん要らへんのや。何千台ものコンピューターが「これ、これ、これ、次、次、次、プレイ」ってやり続けるんや。それが完全に自動化されて並列処理できるんや。
だからこそ、こういうDeepMind式のRLは人間を超えられるんやけど、今までやってきたRLHFじゃあ大して変わらへん。むしろちょっとアホになるかもしれへんな。
ほんで、これまでの緑のRLHFを、DeepMind式の古典的なRLに置き換えようとしてるんや。
ほかにも意見があるな。OpenAIのJason WeiとNoam Brownの意見も見てみよか。NoamはポーカーAIのLurusを作った人や。この人、推論がめっちゃ得意なんや。
彼のスレッドを見てみよう。「O1 Preview/O1 Miniは新しいスケーリングのパラダイムや。まだ始まったばっかりや」って。正直、「パラダイム」って言葉をわざと使わされてる気がするわ。結局のところ、サム・アルトマンっていうハイプの王様に率いられてるからな。彼らが最大化しようとしてるのは、このハイプ(誇大宣伝)なんや。
「O1はRLで考えるように訓練されてる」って。これが本当にRLを使ってる理由やと思うわ。単なる思考の連鎖やないと思うんや。もし単なる思考の連鎖やったら、「RLで訓練された」なんて言葉は使わへんやろ。「思考の連鎖をたくさんやって、それを要約してる」って言うはずや。
でも、わざわざ「RLで訓練された」って言うてるってことは、実際にここでやってるみたいに、モデルに勾配を与えてるんやと思うわ。本当に推論能力を向上させるために勾配を与えてるんや。
ほかにも言うてるな。「O1モデルが常に優れてるわけやない。多くのタスクは推論が要らへんし、時間がかかるくらいなら素早い答えの方がええ場合もある」って。
結局のところ、この手の技術は、最終的な答えがチェックできるタスクで効果を発揮するんや。つまり、プログラミングや数学みたいなタスクやな。完璧やないけどな。
ARCチャレンジでどうなるか見てみたいわ。みんな話題にしてるけど、ARCでどうなるか見てみたいな。
彼は「思考の違いを見て、このパラダイムをLLMにも適用しようと思った」って言うてるけど、正直、何年も前から論文で発表されてきたことを自分たちが発明したみたいに言うてるのが気に食わんわ。
もっとオープンやったらええのに。「これがやったことや。思考の連鎖も見せるで」って感じで。でも、秘密主義やし、おまけに全部自分たちが発明したみたいに装うのがちょっとなあ。ちょっと誤解を招くよな。名声欲しさに、自分たちがやってへんことまでハイプしてる感じや。
「思考の連鎖は、推論時間にもスケールできる適応的な計算の一形態や」って。これは基本的に、この緑のバーか赤いバーのことを言うてるんや。緑のバーについてはあんまり触れてへんけどな。
「科学の世界で働いてる人間でも、GPT-4が失敗してO1が成功するプロンプトを見つけるのは簡単やない。モデルは人間っぽいことをたくさんやる。難しいステップを簡単なステップに分解したり、間違いに気づいて修正したり、違うアプローチを試したり」
ここが、ゲームが完全に変わったって感じるところやな。さっきも言うたけど、AlphaGoゼロは囲碁の達人と同じレベルやのうて、人間を超えてるんや。
じゃあ、人間を超える推論ってどんなもんなんやろ?難しいステップを分解したり、間違いを見つけて修正したり、違うアプローチを試したり...こういうことを人間を超えてやるモデルができるんやで。
正直、どうなるか分からへん。だからこそ、誇張されてへんと思うんや。確かにハイプはあるけど、人間を超える推論への道が開けたってのはガチやと思うわ。
人間を超える推論は、全てに転移すると思うんや。例えば、世界中の全ての人間より数学が得意なモデルがあったら、そのモデルは文学や文章力でも人間を超えるようになると思うわ。
これはAGI(汎用人工知能)への道やのうて、ASI(超人工知能)への道やと思うんや。人間と同じレベルの知能やのうて、人間を超える知能への道や。
だから、このリリースについては複雑な気持ちなんや。一方では、そんな複雑なもんやないんや。多くの人が何年も前から予言してたことや。「DeepMindがやったことを言語モデルに応用したら、人間を超える推論ができる言語モデルができるで」って。何年も前から、いや何十年も前から言われてきたことや。
だから、自分たちのアイデアやないのに、そう見せかけようとしてるのはちょっと不誠実やと思う。でも、一方では、これが本当にスタートの合図になると思うんや。GoogleとMicrosoft、もしかしたらAnthropicも(でもAnthropicにどれだけ金が残ってるか分からんけど)、これからRLの部分に大金をつぎ込み始めるやろうな。
人々はすでにこの灰色のバー(事前学習)をどんどん大きくしてきた。10万台のH100クラスターで事前学習するって話も出てきてるしな。でも、これからはこのRL部分にも同じくらいの投資が行くと思うわ。
そして、この2つを組み合わせたら、人間を超える推論ができるテキストモデルができるんや。それはめちゃくちゃすごいことになるで。
だから、このOpenAI O1は過大評価されてる部分もあるし、逆に過小評価されてる部分もあると思うんや。
Gary Marcusはどう思うんやろ?彼のこと知らん人もおるかもしれんけど、ちょっとYann LeCunみたいな感じやけど、もっとクリンジーな人や。Yann LeCunはいつもネガティブで、ドゥーマーみたいなブーマーっぽい意見を言う人として知られてるけど、Gary Marcusはそれ以上にひどいんや。
少なくともYann LeCunは技術的なことにも関わってる。まだ研究室も持ってるし、学生のアドバイザーもしてる。そんなに技術的なことはやってへんみたいやけど、少なくともいろんな技術について意見は言える。
でも、このGary Marcusはもう何も知らへんのや。たぶん最後にコード書いたのは90年代やと思う。いつも完全にゴミみたいな意見しか言わへんのや。
O1についても何か言うてるはずやけど...まあ、見つからへんな。たぶん、理由もなくネガティブなことばっかり言うてるんやと思う。何も知らへんくせにな。
まあ、あまり彼のことを悪く言いすぎるのもよくないかもしれんな。彼に目をつけられたら面倒くさいし。彼は私のこと知らへんけど、私が彼のことをあまりにも悪く言いすぎたら、知られることになるかもしれん。そしたら彼の怒りを買うことになるし、それは避けたいわ。
xAIがColossusでそれをやろうとしてるんやないか?っていう意見もあるな。Colossus、つまりxAIやイーロン・マスクの訓練クラスターは、この灰色のバー(事前学習)に最適化されてるんや。でも、この緑のバー(RL)には少し違うタイプのデータセンターが必要なんや。
このタイプのRL、つまりAlphaGo式のRLは、ちょっと違う計算ワークロードが必要なんや。この灰色のバーの事前学習では、基本的にインターネット全体のデータセットがあって、それをGPUの束に流し込むだけや。
データセットからバッチをサンプリングして、モデルに通して、損失を計算して、勾配を戻す。それを繰り返すだけや。
でも、このAlphaGo式のものには違うタイプのデータセンターが必要なんや。確かに、まだモデルに何かを通して、答えを得て、損失を計算して、勾配を戻すっていう基本的な流れは同じや。
でも、このロールアウトの部分が違うんや。テキスト空間でロールアウトするのに、8枚のH100を使うのは意味ないやろ?
だから、違うモデルを使うんや。実際にロールアウトをするモデルは、おそらく少し違うモデルになる。だから、事前学習用のデータセンターと、このRL用のデータセンターは分かれると思うわ。
事前学習用のデータセンターが巨大市場で、RL用のデータセンターが小さな市場っていうわけやないで。たぶん、同じくらい、もしくはRLの方にもっと金が流れると思う。
だから、これに特化した企業やデータセンターが出てくるかもしれんな。事前学習に特化したデータセンターと、RL用のデータセンターが別々にできるかもしれん。まあ、これは俺の推測やけどな。本当のところは分からへん。
ARCベンチマークでどれくらい良いのかって?まだ分からへんな。今日中には誰かが点数を投稿すると思うけど、このストリームの時点では、ARCベンチマークでどれくらいの性能かは分からへん。
AIに全ての機能を公開して、AIがそれらをマスターできるようにして、そのAIを通してソフトウェアの使い方を学べるようにしたいっていう意見もあるな。
ストリームの最初に話したけど、それが思考の連鎖を見せたくない理由の一つやと思うわ。彼らは「悪い言葉から守るため」みたいなことを言うてるけど、それはちょっとアホな理由やと思う。
本当の理由は、誰かがその思考の連鎖でファインチューニングするのを防ぎたいからやと思うわ。
昔、たぶんバークレーかスタンフォードの学生やったと思うけど、誰かがGPTの回答をたくさん集めて、300ドルでLlamaをファインチューニングしたんや。そしたら、かなり良いモデルができたんや。
誰かがOpenAIに対して同じことをする可能性があるんや。もし思考の連鎖を公開してたら、それは多分1000万ドル分くらいの計算結果やろ?この種の計算をして、勾配を与えて、また計算して、また勾配を与えて...そんなことを何度も繰り返した結果やからな。
でも、もし思考の連鎖を公開してたら、誰かがそれを全部スキップできるんや。蒸留はめちゃくちゃ効果的やからな。モデルが出力する各トークンの対数確率を全部もらえたら、それを別のモデルに蒸留して、全ての計算をスキップできるんや。
だから、みんなが少し秘密主義になり始めてるんやと思う。自分たちのモデルからデータセットを集めて、オープンソースの基礎モデルにファインチューニングされて、ほぼ同じくらい良いものができるのを防ぎたいんや。
Stable DiffusionがMidJourneyでトラブルになったみたいにな。MidJourneyの人たちが文句を言うたことがあってん。Stable DiffusionがMidJourneyのAPIを叩いて、キャプション付き画像の例を集めてるって。それを使って自分たちのモデルを訓練しようとしてたんやと。
基礎モデルが賢くなるにつれて、推論の計算量を増やすことの効果は急速に diminishing returns になるんやないかって質問やな。賢いモデルなら、最初の数回の推論で解決策を見つける可能性が高いってことやな。
これに答えるために、Rich Suttonの「苦い教訓」っちゅう有名な記事を見てみよか。
この記事で言うてるのは、研究者たちが最初に頑張ったのは、人間の理解を利用することやったってことや。つまり、もっと複雑なシステムを作って、少しずつパフォーマンスを上げようとしてん。
でも、結局のところ「苦い教訓」があって、単にモデルを大きくして、大きなデータセットで訓練するだけで、そういう複雑なシステムを打ち負かしてしまうんや。
今やってることは、ある意味でこの「苦い教訓」に反してるんやな。基本的なパフォーマンスがあって、それじゃあ十分じゃないから、思考の連鎖みたいなものを追加して、RLで訓練して、そこに勾配を与えてる。
でも、これがずっと続くわけやないと思うわ。いつかは、この灰色のバー(事前学習)から出てくるモデルがめちゃくちゃ優秀になって、こんな余計なことせんでもええようになるんやないかな。
今はこういう方向に進んでて、最初の超知能はこんな感じになると思うわ。言語モデルを事前学習して、その上でRLで訓練するみたいな。ゲームは完全に変わったと思う。
でも、10年後くらいには、もっとシンプルな解決策が津波のように押し寄せてくると思うわ。ただのでっかい灰色のバーや。それはまだ10年くらい先の話やと思うけど。
データを100倍に、計算量を100倍に、他のすべてを100倍にしたら、最終的には「苦い教訓」が勝つと思うわ。こんな凝ったRLとか、凝ったことは何もせんでもええようになる。文字通り、モデル自体がゼロショットで超人的になるんや。
でも今はまだそこまでの計算能力がないから、ちょっと複雑で過剰エンジニアリングな方法で超人的なシステムを作ろうとしてる。でも時間は負けへんのや。「苦い教訓」は常に勝つ。もし待てるんやったら、最終的にはこの複雑さは全部なくなるんや。
思考の連鎖を隠すもう一つの理由は、モデルのMCTSが無駄な経路を探索するかもしれへんからやっていう意見もあるな。そうやな、思考の連鎖を隠す別の理由としては、これもあると思う:
企業がめっちゃ怖がってたのは、LLMアシスタントが何か悪いと思われることを言うことやってん。例えば、何か意見を言うて、ユーザーが「うわ、この意見嫌い。OpenAIを訴えてやる」みたいになるのを怖がってたんや。
だから企業はRLHFに大金をつぎ込んで、モデルがユーザーに受け入れられないようなものを出力せんようにしようとしてん。でも、そのコストとして、事前学習モデルをちょっとアホにしてしまうんや。
この緑のバー、RLHFは実際、灰色のモデル(事前学習モデル)をちょっとアホにしてしまうんや。でも、この赤いバー(推論)に行ったときに失敗したくないから、そうしてるんや。
もし灰色のモデルを思考の連鎖と一緒に使えるなら、それが一番ええんやけどな。思考の連鎖を隠してる理由の一つは、思考の連鎖がRLHFされてないモデルでやられてるからやと思う。
つまり、モデルは「整列」されてへんから、時々変なクレイジーなことを出力するかもしれへん。でも、それが隠された思考の連鎖の中で起こってるから、最後にフィルターをかけて、そのクレイジーなものがユーザーに見えんようにできるんや。
これで、基礎となるモデルを弱めることなく、ユーザーに悪いものを見せんようにする、よりクリーンな方法ができるんや。だから、これも思考の連鎖を隠す理由の一つやと思う。
実質的にロボトミーされてない基礎モデルを使えて、安全性はあとからボルトオンみたいに付け加えて、出力をチェックして悪いものを取り除くことができるんや。
遠い将来、モデルは純粋なRLになって、次のトークン予測は捨てるんやろか?っていう質問もあるな。いや、まだ次のトークンを予測してるんや。RLをやってるかどうかに関わらず、これはまだ次のトークンを予測してるんや。
結局のところ、これは次のトークンや。RLは全ての可能なトークンの確率分布を変えてるだけや。基本的には、まだ同じパラダイムなんや。
何かのモデルがたくさんのトークンの並びを消費して、一つずつトークンを出力してる。強化学習がそれを変えるわけやないんや。強化学習は、トークンのデータセットを集める別の方法みたいなもんや。
モデルを根本的に変えてるわけやないんや。RLは、モデルをさらに訓練するためのデータセットを作る方法なんや。
モデルはインターネット全体で次のトークン予測で訓練されて、それからこの巨大な推論の跡のデータセットでも次のトークン予測で訓練されるんや。根本的には同じことをしてるんや。
結局のところ、モデルはただトークンを出力してるだけや。それが唯一やってることや。
モデルは自由に考えを表現できんとアカン。だから、ユーザーの好みをポリシーや思考の連鎖に訓練することはできへんっていう意見もあるな。
そうやな、彼らが言うてるのは基本的に、RLHFがモデルをアホにするから、RLHFをやめんとアカンってことや。
Karpathyが言うてたんやけど、「オープンドメインで大規模に、LLMで説得力のある本物のRLを達成して実証したものはまだない」って。これ、2024年8月7日に言うてたんや。
これが今我々が手にしてるもんなんや。Karpathyが「DeepMindがやってるような古典的なRLと、LLMの組み合わせがうまく動いてるのを見たことがない」って言うてるのが、まさにこれなんや。
だからみんなが興奮してるんや。これが文字通りその組み合わせやからな。これが、説得力のある形で達成されて実証された、LLMに対する本物のRLなんや。これが説得力のある達成と実証や。
ゲーム生成の論文の続きで、OpenAIがその方向を追求せんのは「苦い教訓」のせいやって言うてるけど、そうやないと思うわ。
「苦い教訓」はトレンドみたいなもんやからな。日々の意思決定で「苦い教訓」に基づいて行動するわけやないんや。
結局のところ、ミーティングに座ってて「よっしゃ、全部捨てて、もっとシンプルなモデルを大きなデータで訓練しよう」なんて言う人はおらへんのや。
普通は、日々の判断で「ここにちょっと複雑さを加えよう」「ここにエッジケースを追加しよう」「ここをちょっと調整しよう」「ここに自分のバイアスを入れよう」みたいなことをするんや。
日々の判断では、複雑さが積み重なっていくんや。でも、何百年か何十年か経って振り返ってみると、シンプルで、めっちゃ計算量が多くて、人間中心のアプローチをあんまり使ってない技術が勝ってるってことに気づくんや。
でも日々の判断では、「苦い教訓」に従うのは実際には悪いアイデアなんや。普通は、ちょっと過剰エンジニアリングなことをする方が、短期的にはパフォーマンスが上がるんや。
ワールドモデルの論文では、ワールドモデルが夢を見て、夢の中で合成データを作るって言うてたけど、AGIは人間みたいに夢を見るんやろうか?っていう質問もあるな。
これはほと�ど意識の問題やな。言語モデルの経験の質感(クオリア)は、人間の経験の質感と同じなんやろうか?これはほぼ答えられへん質問や。
LLMが意識を持ってるかどうかみたいな話になると、もう答えがないんや。個人的な文章について超人的な推論ができへんのと同じで、主観的すぎるんや。
LLMの意識についての議論は、ほぼ同じようなもんや。無限のうさぎの穴みたいなもんで、どこにも行き着かへんのや。LLMの意識について超人的に推論するなんてことはできへんのや。
推論の部分が分からへんっていう人もおるな。推論っていうのは基本的に、モデルがトークンを生成してて、これらの推論トークンっていうのは普通の日常的なトークンなんや。
多分、終了シーケンスの開始とか終了みたいな特別なトークンが何個かあるんやと思う。例えば、ツール使用開始とかツール使用終了みたいな内部推論トークンがあるかもしれへん。これらは基本的に同じやけど、新しいのが数個あるかもしれへん。
これらはユーザーからは隠されてるんや。あんたが何か答えを入力したりプロンプトを入力したりすると、こんな感じになるんや。ほら、トークンを生成してるのが見えるやろ?今、トークンをバンバン出力してるんや。でも、あんたには見えへんのや。
そして、ある時点で別のモデル(たぶん別のモデルや)が、今まで出力した全部のゴチャゴチャしたものを取って、それを小さな段落にまとめて、実際に出力するんや。
実際の推論の予算って意味では、GPT-4とかO1 Previewが生成してるトークンの数は...おっと、見てみい。教えたくないみたいやな。
レストランに行って、スープを注文して「このスープに何入ってるん?」って聞いたら、ウェイターが「スープの中身は教えられません」って言うようなもんや。「すみません、このスープに魚入ってますか?ピーナッツアレルギーなんですけど」って聞いても、「スープの中身を聞くのはやめてください。出ていってもらいます」みたいな感じやな。
LLMはまだ順序立ってるけど、複数の経路を探索できへんのやろ?っていう質問もあるな。そうや、複数の経路を探索するのは訓練のときだけなんや。
この緑のバー、強化学習の部分で訓練してるときだけ、実際にこういうツリーを作って、どの経路が一番価値があるかを見つけるんや。でも、この緑のバー全体の目的は、巨大なデータセットを作ることなんや。
そのデータセットでモデルを調整して、実際にこのモデルを動かすと、そのときの文脈で可能な全てのトークンのツリーの中で、より価値の高い経路を表すトークンの並びを生成するようになるんや。
一回だけやないで。たぶん何回か経路を作るんや。RLはこういう経路を作るのを上手くするんやけど、実際に推論するときは、何百万もの経路を作るわけやないんや。
推論のときでも、まだある程度の思考の連鎖はあって、まだ経路を作って選別してるんやけど、訓練のときに思考の連鎖のデータセットを集めるためにやってる思考の連鎖とは全然違うんや。
RLの全ポイントは、モデルを思考の連鎖を作るのが上手くすることなんや。そして、モデルが思考の連鎖を作るのが上手くなったら、ユーザーとやりとりするときは、ほんの少しだけそれをやるだけでええんや。
これはAuto-GPTやBaby AGIとどう違うんや?っていう質問もあるな。他の全ての思考の連鎖やツリー探索の論文は、実際にはモデルを良くしてへんのや。
基本モデルを使って、推論のときにこれをやって、一番ええのを選ぶだけなんや。でも、このモデルがやってること(正確には分からへんけど、OpenAIが教えてくれへんからな)は、モデル自体がRLからの勾配を受け取ってるんやと思う。
つまり、彼らは追加で...3500万ドルかどうか分からへんけど、たぶん100万ドルくらい使って、モデルを思考の連鎖作りが上手くなるように改良したんやと思う。基本的に、この種の思考の連鎖の自己対戦MCTSのデータセットでファインチューニングしたんや。
結局のところ、他の人たちも使ってる思考の連鎖と基本的には同じなんやけど、それを使うための基本モデルの方が優れてるんや。
数学の訓練はどうやったんやろ?これがその方法や。数学が上手くいく理由は、最後に「これが数学の問題の正解や」って言えるからなんや。だから、そこに至る全ての道筋が正しい道筋ってことになるんや。
アバカス埋め込みを使ったんやろか?アバカス埋め込みについてはよく知らんわ。
定理証明ツールみたいなのを使って、強力な合成データを作る新しい技術を発明したんやろうか?たぶん、彼らがやったことには何か新しいところもあると思うわ。でも、やったことのほとんどは、他の論文でも示されてきたことやと思う。
特に新しいことをやったとは思えへんわ。何か秘密のソースがあるとも思えへん。秘密のソースがあるとしても、誰でも大体何かは言えると思う。それはRLをこの上に乗せたってことや。
新しいのは、本格的な実装をしたってことやな。今まで見てきた小さな論文は、ただの小さなチームが、小さなサーバーノードでLlamaを訓練しただけやからな。
でも、これは実際に何百万ドルも使って、大きなチームで取り組んでるんや。だから他のより優れてるんやと思う。
数学とプログラミングだけでMCTSをやって、創造的なことではやってへんのかな?正解の信号が出せるのはそこだけやからな。ほぼ確実にそうやと思う。
最終的な答えがあるときだけ、このRLができるからな。だから、プログラミングと数学だけでやったんやと思う。でも、プログラミングと数学でやると、他のことの推論も上手くなることが分かったんやと思う。
数学とコーディングから、広報や法律の専門的なことにも、ある程度の転移があるんやな。
新しいベンチマークを信用していいのか分からんって言う人もおるな。そんなに強くなってる感じがせんって。ああ、そうやな。確かにその問題はあるわ。
評価やベンチマークの考え方は、科学の基本的な考え方である「再現可能な結果」に基づいてるんや。つまり、「Aをやった」って言うたら、本当にAをやったかどうか確認できんとアカンのや。
でも、何をやったか教えてくれへんかったら、本当にそれをやったかどうか確認のしようがないんや。ちょっとそんな感じになってるんや。
本当にこれが正しいのか、実際には単にこのデータセットでファインチューニングして、このスコアを出しただけやないのか、我々には分からへんのや。
このおっさんがやったみたいにな。ちょっと思考の連鎖を入れて、プロンプトに答えのヒントを入れたら、めっちゃええスコア出るんや。でも、誰かがそれを見たら「ああ、お前ただのチートやんけ」ってなるんや。
OpenAIがこのベンチマークでちょっとずるしてる可能性はあるんや。知っとるか?ちょっとやっちゃいけないことをして、高いスコア出してる可能性があるんや。
サム・アルトマンみたいな人が、そういうちょっとしたずるを許す文化を作ってるかもしれへんな。でも、そこまで陰謀論的に考えんでもええと思う。
結局のところ、OpenAIで働いてる人たちは、たぶんまともで正直な人たちやと思うわ。だから、このスコアはずるしたもんやないと思う。本当のスコアやと思うで。
SIMPOOがどう動くか説明してって?SIMPOOが何かは知らんわ。POOをSIMでやるみたいなもん?
次のステップは、どんどん良い思考の連鎖のデータセットを作って、どんどん良いモデルを訓練して、それを無限に続けてASI(超人工知能)になるまでやるってこと?そうや、基本的にはそうや。
何億ドルもの計算資源をつぎ込めるからな。だからこそ俺はワクワクしてるんや。道筋ができたんや。ゲームが変わったんや。もう限界はないんや。
事前学習のデータをきれいにすることにこだわる必要はもうないんや。今までどれだけの時間を、事前学習をより良くすることに費やしてきたか考えてみい。「もっとデータをスクレイピングしよう」「データをきれいにしよう」「人間を雇ってデータを整理しよう」ってな。
この灰色のバー(事前学習)を最適化することに力を入れすぎてたんや。でも、この緑のバー(RL)こそが重要なんや。ここで導入してるのは、DeepMindがやってたRL的なことを全部やるってことなんや。
ここには無限の信号があるんや。なぜかって?これは自己対戦なんや。どんどん計算資源を使って、自己対戦、自己対戦、自己対戦...ってやり続けられるんや。最終的には、人間を超える囲碁AIができたやろ?
テキストでも同じことをやれば、いつかは人間を超える推論ができるようになるんや。それがどんなもんか想像するのは難しいけどな。でも、可能やと思うわ。
RLの経験はあるんか?って?ああ、俺はRLの論文に名前載ってるで。そんなに多くの論文に載ってるわけやないけど、一つくらいはあるわ。階層的RL...ほら、ここや。
正直、そんなにええ論文やないけどな。ただの平凡な論文や。でも、これが出たんや。これ、Googleにおったときのもんや。ほら、2019年のHierarchical Sim2Realや。
俺は全然有名人やないで。Andre Carpathyとか、ここで紹介した人たちは誰も俺のこと知らへん。でも、GPTが出る前からこの分野におって、ちょっとは詳しいから、ちょっとはマシな意見が言えると思う。
たぶん、そういう理由であんたらがこれ見てるんやと思う。ちょっとはマシな意見が聞けるからな。でも、俺がこの人たちより強化学習について詳しいかって?絶対そんなことないで。
この人たち、Chang-Ki LiuとかChang-Ki Liuとか、数学と強化学習に関しては俺をボコボコにできるで。
Karpathyが「完璧なデータセットがあれば、1Bパラメータでもいけるかもしれん」って言うてたな。そうや、これが蒸留の魔法なんや。
蒸留とか、スパース化とか量子化とか、大きなモデルを小さくしても同じくらいの性能を出す研究がいろいろあるんや。
量子化はモデルのサイズを小さくすることに関するもので、スパース化はモデルのパラメータの一部を取り除くこと、つまり枝刈りみたいなもんや。
蒸留は、ほぼ文字通り大きなモデルを取って、小さなモデルにその真似をさせるみたいなもんや。
これには限界がないと思うんや。時々、こんなクレイジーなアイデアを言うんやけど、大きなモデルを小さなモデルに蒸留できるのと同じように、全ての知能を小さなモデルに蒸留できるんやないかって。
クレイジーに聞こえるかもしれんけど、もしかしたらASI(超人工知能)をノキアの携帯電話で動かせるようになるかもしれんのや。
もしどんどん強力なモデルを作り続けて、そのモデルを使ってもっと小さなモデルを蒸留し続けたら、枝刈りやスパース化、蒸留の技術も改善し続けたら、いつかはこの巨大な超知能モデルを、携帯電話のちっちゃなCPUで動く小さなパーセプトロンに蒸留できるかもしれんのや。
完全にクレイジーに聞こえるかもしれんけど、実際そんな世界にもう生きてるんやで。考えてみい、2010年代に設計されたNVIDIAのGPU、つまりLLMが出る前に設計されたGPUで、Llama 3が動くんや。
Llama 3はある意味AGI(汎用人工知能)みたいなもんやけど、これがLLMの存在すら知らんかった時代に設計されたGPUで動くんや。
すでに、こんな変な後方互換性みたいなのが起きてるんや。どんどん知能の高いものを作ってるのに、どんどん昔のハードウェアでも動かせるようになってるんや。
これをずっと続けられるんやないか?いつかはLlama 4を2000年代のNVIDIAのGPUで動かせるようになるんやないか?Llama 5か、その超蒸留版を1990年代のCPUで動かせるようになるんやないか?どこまでいけるんやろ?
なんで人々がテキストタスクにUniversal Transformerアーキテクチャを使ってるのか分からんって?Universal Transformerがなんのことか分からへんけど、一般的に言うて、モデルのアーキテクチャはそんなに重要やないんや。データセットの方が重要や。
他に何か話したいことあったかな...ちょっと見てみるわ。この論文はあんまり詳しく見れんかったけど、まあ、大体話は終わったと思う。
主に話したかったのは、ここやな。もう一つの論文、「二段階ツリー探索によるLLMの戦略的スキル学習」っていうのもあるで。マルチエージェントゲームを自己改善プロセスでプレイするんや。
モンテカルロ・ツリー探索とLLMベースの振り返りを使うと、従来の強化学習アプローチやその他のLLMベースのスキル学習アプローチよりもパフォーマンスが良くなるんや。
ここに点がたくさんあるやろ。それぞれの点が状態か答えを表してて、枝がそこから伸びてる。内部の思考の連鎖をより多く使うほど、答えの質が上がっていくのが分かるやろ。
一般的な傾向として、テスト時の計算量を増やす、つまり可能な出力シーケンスをこういうツリーで探索する予算を増やすほど、最終的に出力するシーケンスの質が良くなるんや。
ASI(超人工知能)のタイムラインはどう思う?って。正直、俺にとってはChatGPTがAGI(汎用人工知能)の瞬間やったと思うわ。
ChatGPTがAGIの瞬間で、こういうのがASIっぽく感じ始めてるんや。もう、これらのモデルを使って作ったものが、検証するのがほぼ不可能なレベルになってきてるからな。
俺たちは超知能のドアの前に立ってると思うわ。ただ、超知能っぽく感じへんのは、それが身体を持ってへんし、人間みたいに声で対話してへんからやと思う。
でも、現実的に考えたら...例えば、このモデルは弦理論についてめっちゃ詳しいし、化学についてもめっちゃ詳しい。知識の幅がめっちゃ広いんや。
もう人間を超えてるんや。これらのモデルほど多くのことを知ってる人間はおらへん。無人島でテストを解かなあかんってなって、世界で一番頭のええ人間かGPT-4かO1 Previewのどれかを選べって言われたら、どれを選ぶと思う?
俺やったら、O1 Previewを選ぶで。人間はな、自分の専門分野については詳しいかもしれんけど、このモデルは何でも知ってるんや。もう人間を超えてる。知識の幅が半端ないんや。
死ぬなよ、ってアドバイスもあるな。そうやな、ええアドバイスや。
そろそろ疲れてきたわ。みんなの時間を無駄にしたくないし、そろそろ終わりにしようと思う。水飲んで、今日話したことをちょっとまとめて、終わりにしよう。
EmilyがペプチドをSDFフォーマットからPDBチェーンフォーマットに変換するスクリプトを書かせたらしいな。Emilyはバイオ関係のことをようやってるな。俺も感心したで。
最近、コーディングでこれ使ってるんやけど、面白いことがあってん。しばらく前にCursorに登録して、んで解約したんや。なんでかっていうと、VS CodeのCo-pilotで十分やったからな。
でもな、最近また話題になったからCursorに再登録したんや。ところが、O1が出たら、またCursorを解約してもうた。もう2回もCursorに登録して解約してもうたわ。
でもな、これがもっと統合されたらなあと思うわ。今のままやと、ちょっと使いにくいんや。コンピューターに完全に統合されて、マウスを操作したり、いろんなものをクリックしたり、ダウンロードしたり、ターミナルを開いたり、SSHで接続したりできるようになってほしいわ。
それこそが、俺が待ってるパラダイムシフトなんや。行動空間があるものが欲しいんや。今のモデルには行動空間がないんや。今のモデルの行動空間は、ただテキストを出力することだけなんや。
だから、どんなに賢くても、結局できることは俺が読めるトークンを生成することだけなんや。でも、もっと広い行動空間を持つモデルが欲しいんや。クリックしたり、新しいタブを開いたり、ターミナルを開いたりできるモデルが欲しいんや。
そういう行動ができるようになれば、使い道が劇的に広がると思うんや。でも、なんでOpenAIがそれに興味示さへんのか分からへん。他のスタートアップにやらせてるみたいやけど。
でも、時間の問題やと思うわ。いつかはOpenAIもコンピューターを操作できるものをリリースするやろ。そしたら、そうやな...AGIを本当に感じることになると思うわ。
ほんじゃあ、まとめるで。
今日のストリームは「ストロベリー」についてやった。ストロベリーは、OpenAIが最近リリースした最新モデルや。ちょっと評価が分かれてるんや。
AI業界の一部の人は「OpenAI O1は単なる思考の連鎖を凝らしただけや」って言うてる。でも、別の人たちは「信じられへんくらい驚くべき研究結果や」って言うてる。つまり、ハイプ(誇大宣伝)する人もおれば、クソだって言う人もおるってことや。
真実はその中間にあると思うわ。似たようなアイデアを紹介してる論文をいくつか見たな。OpenAIはめっちゃ秘密主義やから、彼らが裏で何やってるか正確には分からへん。だから、推測して予想するしかないんや。
でも、裏でやってることと、少なくともOpenAIの人たちが感動してる理由は、強化学習(RL)のAI研究の分野と、大規模な並列計算を使うTransformerの事前学習の分野を組み合わせることに成功したからやと思うわ。
この2つを組み合わせて、LLMでお馴染みの大規模な事前学習と、おそらく大規模なRL後処理を組み合わせたシステムを作ったんや。このRLの後処理では、古典的なマルコフ決定過程の抽象化を使って、質問に対する可能な答えの空間を探索できるんや。
そして、数学やコーディングみたいな、最終的な答えを検証できる分野では、時間をかけて正しい答えに至る完全な推論の連鎖を含む、質の高い答えのデータセットを作れるんや。そういうのを何百も集めて、それでモデルをファインチューニングするんや。
つまり、事前学習、RLHF、そしてゼロショットの推論っていう流れから、事前学習、モデルがどんどん推論が上手くなるRLの段階、そして新しい推論時計算っていう流れに変わったんや。この推論時計算では、モデルが内部推論トークンを作ることを許してる。
つまり、「一歩ずつ考えよう」って自分でタイプする必要がなくなったってことや。例えば、数発射プロンプティングとか、一歩ずつ考えるように指示するとかいうプロンプトエンジニアリングの技術は、もう性能を上げへんし、むしろ下げることもあるんや。
「理由を説明してください」っていうのも必要なくなった。なぜかって?結局のところ、もうそれを勝手にやってくれるからや。
これが、ハイプされてない部分や。でも、ハイプされてる部分は、Karpathyの言葉を借りれば、これが「LLMに対する本格的な実用レベルのRL」やってことや。ベンチマークでもかなり良い成績を出してるみたいやし、OpenAIの研究者たちが正しければ、小さなモデルでこれをやってるってことやから、さらに印象的やな。
つまり、RLを乗せた小さなモデルで、推論時に少し計算予算を使えるようにしたのが、現在の最先端のAIってことや。そして、これが超知能に到達するために必要な全ての要素やと思うわ。
なぜかって?これには限界がないからや。事前学習だけで、インターネットを学習することで全ての知能を得るっていうのには限界があったんや。インターネットを学習し尽くしたら、次は何するん?まあ、化学や生物学の合成教科書みたいなデータセットを作り始めるかもしれんけど、結局のところデータを並べ替えてるだけやからな。
いつかは、自己対戦っていうRLの根本的なアイデアを使わなあかんようになる。自分自身と対戦することで、もっと知能を得られるってやつや。
これこそが、今回解禁されたもんなんや。言語モデルと一般的な推論能力を、この自己対戦型のRLで改善できるようになったんや。これに何億ドルも使えるんや。もっと金をつぎ込んで、もっと知能を得られるようになったんや。
あと、もう一つ話したのは、思考の連鎖を隠した理由についての俺の理論や。彼らが思考の連鎖を公開したくない理由は、誰かが新しいVunaを作るのを防ぎたいからやと思うわ。
もし思考の連鎖を公開して見せてたら、誰かがその思考の連鎖を取って、Llamaモデルに蒸留してしまう可能性があるんや。そしたら、オープンソースのLlamaモデルがかなり良くなってしまうからな。
だから、モデルの出力を隠し始めてると思うわ。彼らの知能の一部を盗まれんようにな。これが俺の理論の一つや。
Geminiでも既にやってるんやないか?って意見もあるな。そうやな、Googleでも似たようなことが起きてる可能性は高いわ。ChatGPTが出る前から、こういうことを考えてたと思うで。
彼らがアホなわけないやろ。LLMの上にRLを乗せられることは分かってるはずや。言語が完全に離散化された空間やから、マルコフ決定過程に変換できるんや。囲碁やチェスみたいなゲームと同じように、自己対戦とRLで改善できるってのは分かってたはずや。
言語でそれができるってのは、ずっと前から分かってたんや。特に、我々がやってる離散化されたトークンベースの言語モデルではな。ただ、本当の意味での製品レベルの金と時間をかけてやった人はおらんかっただけや。
でも、OpenAIがそれをやったんや。製品レベルの金と時間をかけてこれをやって、その結果はかなり良かったんや。
ASIがこんな推論をしたら、人間には理解できへんやろうな。じゃあ、正しい報酬をどう与えたらええんや?って質問もあるな。
そうやな、だからこそ数学やコーディングみたいな、答えが分かってる分野でしか正しい報酬を与えられへんのや。この分野では、答えが一つしかないからな。
でも、哲学の議論みたいなもんでは自己対戦できへんのや。正解がないからな。
よっしゃ、これで終わりや。みんな、付き合ってくれてありがとう。Emily、Long Ruson、Drunk Oba Young、Mark B、Josh Phillips、Oso、Ed、Khil Lam、Sarah、他にもR Dan、Rouson、SD、Pedro、Magetti、Yar VMI、Hussein、Olen、Louise、HUD、Christopher、Infinity、Dan M、They call me Ken、Explorer、Chicken Pea、bcloud、Sagely One、Temp、PR、Aries、みんなありがとう。
何か得るものがあったらええな。なかったとしても、楽しい週末を過ごしてな。来週また会おう。