見出し画像

元OpenAI・元Tesla AIインサイダーが全てを明かす...

17,724 文字

ほな、これはアンドレ・カーパシーさんやな。OpenAIの創設メンバーで、元テスラのオートパイロット責任者やったんや。
この人の話を聞くんが本当に楽しいんや。なんでかっちゅうと、まず第一に、めっちゃ物知りで頭ええし、AIの研究開発に深く関わっとるからや。
でもそれだけやのうて、こういう高度な概念をめっちゃ分かりやすく説明できるんや。
最近、No Priorっちゅう素晴らしい番組でインタビューを受けたんやけど、まだ登録してへんのやったら、ぜひ登録してみてや。
今回の動画では、このインタビューの中で特に印象に残った部分をちょっと見ていこか思うんや。
2017年、Googleが「Attention is all you need」っちゅう研究論文を発表したんや。
その論文の著者の何人かは、その後独立して自分らのAIスタートアップ企業を立ち上げたんやで。
この論文で発表されたTransformerっちゅうのは、ニューラルネットワークのアーキテクチャで、かなりの大事件やったんや。
次のクリップでは、アンドレに「AIの開発で、ロボットにせよAI全般にせよ、何か壁にぶち当たるんちゃうか」って聞いとるんやけど、彼の答えを聞いてみよか。
特に、Transformerについて言うてることに注目してな。
「個人的に、よう知っとる具体的な障害はないと思うんやけどな。
ただ、めっちゃ地道な作業が必要やと思うわ。
ツールは揃っとるんや。Transformerっちゅうのは、もう美しい組織の塊みたいなもんで、どんな任務でもこなせるんや。
ただ、データが必要やし、それを適切な形に整えなあかんし、トレーニングして、実験して、デプロイして、改良していく...とにかく地道な作業の繰り返しやな。
技術的に、これっちゅう特定のもんが足を引っ張っとるっちゅう感じはないんやけどな」
「大きな塊の研究の現状はどうなん?」
「大きな塊の研究?ああ、ええ状態やと思うで。
Transformerがめっちゃすごいっちゅうのが、まだ十分に認識されてへんのちゃうかなって思うんや。
ただの別のニューラルネットやのうて、めっちゃすごいニューラルネットなんや。めっちゃ汎用性が高いんや。
例えば、ニューラルネットワークのスケーリング則について話すとき、実はそのスケーリング則の大部分は...」
この部分、トランスクリプトに収録されてへんかったんやけど、二人がちょっと被って喋ってもうたんやろな。
アンドレは「めっちゃ重要やで」って言うとったと思うわ。
「スケーリング則がめっちゃ重要やと思うんやけど、これってどれくらい計算資源をぶち込むかっちゅう考え方やな。
計算資源を増やせば増やすほど、性能が上がるっちゅう考え方や。
OpenAIのSoraの技術論文が、これをめっちゃ分かりやすく示してくれたと思うんや。
左側のこの怪物みたいなやつ見てみ?これが彼らが使うたデフォルトの設定やねん。
これを4倍に増やしたら、急に犬が見えてきて、帽子被っとって、飼い主もおるって分かるようになってきたんや。
で、デフォルトの32倍の計算資源を使うたら、突然、めっちゃリアルな高画質の動画みたいになったんや。
同じモデル、同じデータ、同じプロンプトで、変わったのは計算資源だけやで。
これまでのところ、この法則は当てはまっとるし、これからも続くと期待されとるんや。
ニューラルネットワークのスケーリング則について話すとき、実はそのスケーリング則の大部分は、Transformerの特性なんやで。
Transformerが出る前は、LSTMを積み重ねたりしとったんやけど、実際にはちゃんとしたスケーリング則は得られへんかったし、うまく機能もせえへんかったんや。
Transformerが初めて、ちゃんとスケールして、スケーリング則が得られて、全てが理にかなうようになったんや。
この汎用的な訓練可能なコンピューター...まあ、コンピューターみたいなもんやけど、微分可能なコンピューターやな。
入力と出力を与えて、数十億回も繰り返すと、バックプロパゲーションで訓練できて、自動的にその任務をこなせるように自己組織化するんや。
実は、アルゴリズムの世界で偶然見つけた魔法のようなもんやと思うんや。
いくつかの個別の革新が組み合わさってできたもんなんや。
残差接続っちゅうのがあって、これは既にあったもんや。
レイヤー正規化もはめ込む必要があった。
アテンションブロックもあるし、タンジェントみたいな飽和する非線形性もないんや。
そういうのはTransformerにはないんや。だって勾配信号を殺してまうからな。
4、5個の革新が全部存在して、それらがTransformerに組み込まれたんや。
それがGoogleがあの論文でやったことやねん。
そしたら、これが実際にトレーニングできるようになって、突然スケーリング則が得られて、突然、この組織の塊がめっちゃ大規模にトレーニングできるようになったんや。
だから、これはめっちゃ大きなブレイクスルーやったんやで」
「そのブレイクスルーの限界にはまだ達してへんって感じ?だって、データの壁とか、次の世代のスケールアップがめっちゃ高くつくっちゅう話もあるやん。その辺どう思う?」
「そやな、もうニューラルネットワークのアーキテクチャが根本的な足かせになっとるとは思えへんのや。
もう底打ちの要因やないんや。
Transformer以前は底打ちの要因やったと思うんやけど、もうそうやないんや。
今はもっと、損失関数は何か、データセットはどうかっちゅう話になっとるんや。
そっちがボトルネックになってきとるんやな。
もう、何でも欲しいように再構成できる汎用的な組織の塊やないんや。
だから、そっちに活動の中心が移ってきとると思うんや。
だから、この技術を応用しとる企業なんかは、もうTransformerのアーキテクチャのことはあんまり考えてへんのや。
Llamaのリリースを見てみ?Transformerはそんなに変わってへんのや。
ROPEの相対位置エンコーディングを追加したくらいやな。
それが主な変更で、他はあんまり重要やないんや。小さなことで3%くらい改善したくらいや。
でも、ROPEだけが追加されて、それがこの5年くらいでTransformerが変化した唯一のことやねん。
そんなにイノベーションはなかったんや。
みんな当たり前のように受け入れて、ただトレーニングするだけになってきとるんや。
で、みんなデータセットとか損失関数の詳細でイノベーションを起こそうとしとるんや。
そっちに全ての活動が移ってきとるんやで」
次に、合成データの話になるんや。
質問は「本物の人間が書いたウェブのデータを使い切ってまうんやないか?
インターネットって、我々が利用できる最高品質のデータなんやろか?」っちゅうもんや。
去年、MicrosoftがOra 2っちゅう論文を発表したんや。
GPT-4の推論を抽出したんやで。
GPT-4に問題を与えて、例えば「これらの文を時系列順に並べ替えて、その理由を一つずつ説明してくれ」みたいな感じや。
そしたらGPT-4が正解を出力して、その理由も説明してくれるんや。
その合成データ、つまりGPT-4っちゅう大規模言語モデルが生成したデータを使って、Orca 2っちゅうもっとずっと小さなモデルをトレーニングしたんや。
そのモデルは、その特定のタスクにおいて、自分の10倍のサイズのモデルと同じくらい優秀になったんやで。
「でも、その分野では簡単やったっちゅう議論もあるよな。
インターネットのデータを使うとるときは簡単やったけど、もうインターネットのデータを使い切ってまって、合成データとか、もっとデータ収集にコストのかかるものに移行せなあかんようになってきとるんやないか」
「そやな、ええ指摘や。
今、LLMの世界ではそこに活動の中心が移ってきとるんや。
インターネットのデータはな、Transformerに与えたいデータちゃうねん。
近似値としては驚くほどうまくいくんやけどな。
でも、インターネットのデータって結局ウェブページの集まりやろ?
欲しいのは、問題解決するときの脳内のモノローグみたいなもんなんや。
そういうのが10億個あったら、まあ大体AGIができあがるんちゃうかな。
かなりの部分でな。
でも、そんなんないわけや。
だから今、活動の中心になっとるのは、インターネットのデータを、こういう内的なモノローグみたいな形式に再構成することなんや。
インターネットのデータを使うと、実際かなり近づけるんやで。
たまたまインターネットには推論の痕跡みたいなんがめっちゃあって、知識もたくさんあるし、Transformerがそれをうまく機能させるんや。
だから、今の活動の多くは、データセットを内的なモノローグみたいな形式に再構成することなんや。
そのために、合成データの生成がめっちゃ役立つと思うんや」
「それで面白いのは、現在のモデルが次世代のモデルの作成を手伝うようになってきとることやな。
これはどんどん増えてきとるんや。
最近、OpenAIが言うとったやん。新しいモデルを使って、もっと小さなモデルをトレーニングするって。
ストロベリーとオリオンのモデルやったっけな。
僕はこれを、映画『エイリアン』の女王バチみたいなもんやと思うとるんや。
女王バチは部屋に座って卵を産むだけで、その卵がドローンになって外に出て行って女王の命令を実行するやろ?
将来のAIモデルもそんな感じになると思うんや。
めっちゃでかくて賢いけど扱いにくいモデルが合成データを生成して、そのデータを使って実際にタスクをこなす小さなモデルをトレーニングするんや。
エンドユーザーとかとやり取りするのはそっちのモデルってな」
「じゃあ、この例えで言うと、合成データは王乳みたいなもんやな」
「ええたとえやな!合成データってどれくらい重要やと思う?
だって、各データ、各モデルが後続のモデルのトレーニングをより良くするのに役立つわけやろ?
少なくともデータラベリングのツールを作るのには役立つやん。
合成データはどれくらいの部分を占めると思う?」
「めっちゃ重要やと思うで」
トランスクリプトに収録されてへんかった部分があるんやけど、二人がちょっと被って喋ってもうたみたいやな。
アンドレは「進歩するには、合成データでうまくいくようにせなあかんと思う」って言うとったと思うわ。
「進歩するには、合成データでうまくいくようにせなあかんと思うんや。
でも気をつけなあかんのは、こういうモデルは気づかれんうちに崩壊してまうことやな。
これが主な問題の一つなんや。
例えば、ChatGPTに冗談を言うてって頼んでみ?
3つくらいしか冗談を知らんのに気づくやろ。
ほとんどの場合、一つの冗談しか言わへんし、たまに3つくらい言うくらいや。
これはモデルが崩壊してもうてるからなんや。
静かに崩壊してまうんやで。
一つの出力を見とる限りは、ただの一例に見えるんやけど、実際に分布を見てみると、全然多様性がないことに気づくんや。
静かに崩壊してもうとるんやな。
合成データを生成するときに、これが問題になるんや。
実際にはエントロピーが欲しいんや。データセットの多様性と豊かさが欲しいんや。
せやけど、崩壊したデータセットになってもうて、個々の例を見とるだけじゃ気づかへんのや。
でも、分布を見ると、豊かさをめっちゃ失うてもうとるんや。
だから、静かに悪化してまうんやな。
そやから、めっちゃ気をつけなあかんし、データセットのエントロピーを維持せなあかんのや。
そのためのテクニックはめっちゃたくさんあるんやで。
例えば、最近誰かがPersonaデータセットってのをリリースしたんや。
これは10億の人格...つまり人間のバックグラウンドのデータセットなんや。
「私は教師です」とか「私はアーティストです」とか「ここに住んでます」とか「これをしてます」とかいう感じやな。
これはアンドレが言うとるもんやと思うわ。
Persona Hub: 10億の独自の視点による合成データ生成の再定義
シアトルのTencent AIラボから出てきたみたいやな。
人工知能のデータの多様性に対する重要なニーズに応えようとしとるんや。
10億の独自のペルソナの巨大なリポジトリやねん。
これがどんなもんか視覚化した投稿があるんや。
例えば、Persona Hubからのペルソナとして、引っ越し会社の運転手とか、化学動力学の研究者とかがあるわけや。
で、数学の問題が必要な場合、この10億のペルソナの一つを考慮に入れることで、もっと多様性とか豊かさを持たせることができるんや。
論理的な推論の問題とか、LLMへのユーザープロンプトでも同じことができるんやで。
Personaデータセットは10億のパーソナリティ...つまり人間のバックグラウンドのデータセットなんや。
ちょっとした架空の人間のバックグラウンドを書いた段落みたいなもんやな。
合成データを生成するとき、ただ「このタスクを完了して、こんな風にやって」って言うだけやのうて、「この人に説明するつもりで」っちゅうのも入れるんや。
この情報を入れることで、もっと広い範囲を探索させて、エントロピーを得られるんや。
だから、エントロピーを注入して、分布を維持するのにめっちゃ気をつけなあかんのや。
これが難しい部分で、一般的にはあんまり十分に理解されてへんのちゃうかなって思うんや。
だから、合成データは絶対に未来やと思うで。
データが足りなくなるっちゅうことはないと思うんやけど、ただ気をつけなあかんってことやな」
ニューラルネットの面白いところの一つは、この分野での進歩の多くが、自然とか人間の脳を真似してるってことやな。
だから、「コンピューターのニューラルネットが、つながりの数とかの面で人間の脳と同じレベルに達するのはいつやろう」みたいな話になるわけや。
この研究から、人間の認知についてどんなことを学んどると思う?
「推論の痕跡の形を理解することが、実際に脳の働きを理解するのに役立つっちゅう議論もできるかもしれんな。
でも、そういう類推には気をつけた方がええと思うで。
一般的に言うて、めっちゃ異なる種類のもんやと思うんやけど、でもいくつかの類推は引けると思うんや。
例えば、Transformerは実際、いくつかの面で人間の脳よりも優れとると思うんや。
実際にはもっと効率的なシステムやと思うんや。
人間の脳ほどうまく機能してへんのは、主にデータの問題やと思うんや。大まかに言うてな。
例えば、Transformerが配列を記憶するのは、人間よりもずっと優れとるんや。
配列を与えて、一回だけ順方向と逆方向に計算させたら、最初の数個の要素を与えるだけで、残りの配列を完成させられるんや。
その配列を記憶したってことやな。
めっちゃ得意なんや。
人間に配列を一回だけ見せても、絶対に覚えられへんやろ?
だからTransformerは実際、勾配ベースの最適化、つまり訓練のためにいつもやっとる順方向と逆方向の更新が、いくつかの面で脳よりも効率的である可能性が高いと思うんや。
これらのモデルは優れとるんや。
ただ、まだ輝く準備ができてへんだけなんや。
でも、認知的な側面の多くで、適切な入力があれば、人間を上回る可能性があると思うんや」
「それって一般的に、全ての種類のアプリケーションについて言えることやな。コンピューターの方が優れとるってな」
「せやな、まさにそのとおりや。
人間の脳にはたくさんの制約があると思うんや。
ワーキングメモリがめっちゃ小さいやろ?
Transformerのワーキングメモリはもっとずっと大きいし、これからもそうやと思うんや。
学習効率もめっちゃ高いんや。
人間の脳はいろんな制約の下で機能してるんや。
人間の脳でバックプロパゲーションが行われとるかどうかも明らかやないんや。
それがどう機能するかもよう分からんのや。
めっちゃ確率的で動的なシステムで、いろんな制約の下で機能してるんや。
周囲の環境とかな。
だから、我々が持っとるもんは実際、脳よりも優れとる可能性があると思うんや。
ただ、まだそこまで行ってへんだけなんやで」
人間の脳よりも優れたもの、より効率的なものを作り出したけど、ただそれを本当に活用するための適切な入力をまだ見つけ出せてへんだけやっちゅう考え方は面白いな。
昔、蒸気機関とか、筋肉によるATPと筋収縮よりもはるかに優れた他の推進方法を見つけ出したのと似とるんちゃうかな。
今では、機械の馬力が2万馬力とか言うたりするやろ?
ほとんど馬鹿げた比較に聞こえるけど、10年後、20年後、30年後には、2万人分の人間の脳に相当するようなニューラルネットとかソフトウェアとかコンピューターがあるかもしれんのや。
基本的なインフラは既に存在してるんや。
ただ、それをどう機能させるかを見つけ出すだけなんや。
もちろん、もし君の脳の2万倍も賢くて、いろんな認知タスクをこなせるチップがあったら、それを使って脳を強化したいと思うやろ?
時間の経過とともに、人間がいろんなAIシステムで強化されていくっちゅうのをどう考える?
それはありそうな方向性やと思う?それともありえへんと思う?
「人間の強化?AIモデルで人間を強化するっちゅうこと?」
「もちろんやで。でも、どういう意味でやろな」
「一般的に言うて、絶対にそうなると思うで。
だって、抽象的なバージョンとしては、ツールとして使うっちゅうのがあるやろ?
これが外部バージョンやな。
それから、融合シナリオっちゅうのもあるな。
多くの人がそれについて話すことになると思うで」
「せやな。我々は既にある程度融合しとるんやで。
要は、I/Oのボトルネックがあるってことやな。
でも、基本的には、指先一つでこういったモデルにアクセスできるわけやろ?
これはちょっと違うかもしれんけど、人々は40年か50年くらい前から、技術ツールは人間の能力の拡張やって主張してきたんやで」
「せやな。『コンピューターは人間の心の自転車や』みたいなな」
「でも、AI界隈の一部には、例えば将来のAIとの潜在的な対立を回避する方法として、ある形の...」
「せやな、Neuralinkのセールスポイントみたいなもんやな」
「まさにそうや。その界隈っちゅうのは、この時点でイーロン・マスクのことやと思うで。
彼はそれを何度も言うてきたから、それが彼のスタンスやと思うんや。
こういうのがAIの安全性の大きな推進力になる可能性があるってな。
もし、めっちゃ賢いAIを想像してみ?
もしそれが我々から分離したものやったら、我々にとって良くないかもしれんやろ?
でも、もし我々がその一部で、共存してるもんやったら...例えば、我々が腸内細菌と一緒に生きとるみたいな感じやな。
お互いに必要としあう共生関係みたいなもんや。
そしたら、人間はもっと安全になるかもしれんのや」
「まさにそうや。AIの安全性に向けての大きな一歩になるやろな」
「せやな。まだこの融合がどんなもんになるか分からんけど、確実にツールの使用に対するI/Oを減らしたいっちゅうのは分かるな。
これを、我々の大脳皮質の上に構築される外皮質みたいなもんやと見ることもできるんやないかな。
次の層ってわけや。
ただ、たまたまクラウドにあるってだけやけどな」
イーロン・マスクが、たしかFX Freedmanとのインタビューで、めっちゃ面白い見方を示してくれたんや。
我々の脳がどう機能してるか考えてみ?
我々にも異なる層があるやろ?
古い基本的な層があって、「繁殖せえ」「食べろ」「生き延びろ」みたいなもんやな。
それから、より新しくてより賢い部分があって、数学ができたり宇宙船を設計できたりする部分や。
先のことを計画できる部分やな。
AIが十分に進歩したら、それを次の層みたいに考えられへんやろか?
人間は多くの面で、より原始的な欲求の奴隷みたいなもんやろ?
食べて生き延びたいから、学位を取って仕事を見つけて、毎日働いて、食べるためのお金を稼ごうとするんや。
子供を作るためにな。
人々は自分を飢えさせたり、重量挙げしたり、トレッドミルで走ったりして、繁殖のチャンス...まあ、少なくともその行為に関わるチャンスを得ようとするんや。
めっちゃ高度なAIを、そんな感じの次のレベルみたいに見ることができへんやろか?
我々人間はまだ、ただ何かを欲しがる深層の部分やねんな。
「退屈や、楽しませてくれ」「お腹すいた、食べ物くれ」みたいな感じや。
でも、アンドレはどう言うたっけ?外皮質?
これが次の層みたいなもんで、我々にこの信じられへんほどの知能を与えてくれて、そういう基本的な欲求を達成できるようにしてくれるんやないかな。
だってもし、その超知能が自分自身の欲求を持っとったら、ちょっと怪しくなるやろ?
ちょっと怖くなるかもしれんな。
でも、もしそれが目標を達成する方法を見つけるのはめっちゃ上手いけど、我々人間が目標を設定するもんやったら、確かにちょっとは怖くなくなるよな。
「2000年代初頭のAccelerandoっちゅう本には、基本的にゴーグルみたいなもんを通じてすべてが具現化されるバージョンがあるんや。そのゴーグルは計算的に脳につながっとって、それを失うたら自分の一部を失ったみたいな感じになるんやな。
「そうなる可能性は高いと思うで」
「今でも、スマホがほぼそうなっとるよな。テクノロジーを手放したら、すぐに人間の本来の状態に戻ってしまうっちゅうか、知能の一部を失うみたいな感じになるんや」
「そうやな。簡単な例で言うたら、地図とかやな。最近、多くの人が自分の街をちゃんとナビゲートできへんようになってきとるんに気づいたんや。いつも曲がり角ごとの案内を使うとるからな」
「例えば、ユニバーサル翻訳機みたいなんができたら...そんなに遠くない未来やと思うんやけど...英語以外の言葉を話す人と話せへんようになってまうかもしれんな。テクノロジーを手放したらな」
「脳のその部分を、さらなる研究のために再利用するのは全然構わへんと思うで」
「雑誌をスワイプしようとしとる子供の動画見たことある?面白いのは、その子供にとって、何が自然で何がテクノロジーなのか区別がつかへんってことなんや。テクノロジーがめっちゃ透明になってるからな」
「これも似たようなもんになるかもしれんな。人々はただツールを当たり前のように使うようになって、それを取り上げられたときに初めて、『あれ、これってテクノロジーやったんか』って気づくんやないかな」
「このデバイスをずっと着けとって、みんなの言葉を翻訳したり、いろんなことをしてくれたりしたら、人々は...基本的な認知能力が自然にはないもんやって気づかへんようになるかもしれんな」
次に、オープンソースと、いわゆるクローズドソース、つまり少数のテクノロジー企業がAIへのアクセスを管理するような寡占状態について話すんや。
どっちがええんやろ?「お前のウェイトやないなら、お前の脳やない」みたいな考え方か、それとも鍵をかけて、悪い奴らの手に渡らんようにする方がええんやろか?
正しいアプローチってどっちやと思う?今のLLM研究の市場構造をどう思う?次世代の進歩、トレーニングをする可能性のある大規模な研究所が少数あるけど、これが将来的に人々がアクセスできるものにどう影響すると思う?
「君が言うとったのは、今のエコシステムの状態のことやな。少数のクローズドなプラットフォームがあって、それとは別にオープンなプラットフォームがあって、ちょっと遅れとるっちゅう感じやな。メタのLlamaとかな。これはオープンソースのエコシステムを反映しとるんやな」
「これが外皮質みたいなもんになり始めたら...暗号通貨の世界に『あなたの鍵でないなら、あなたのコインでない』っちゅう言葉があるやろ。『あなたのウェイトでないなら、あなたの脳でない』っちゅうのと似とるんちゃうか」
「面白いな。会社が実質的にあなたの外皮質を管理しとるってことになるわけやからな。だからめっちゃ侵襲的に感じるんやな。これが私の外皮質やったら、人々はもっと所有権を気にするようになると思うで」
「そうやな。脳を借りとるってことに気づくわけやな。脳を借りるのはちょっと変な感じがするな」
「思考実験やけど、より優れた脳を借りるために所有権と管理権を手放す気はある?私はあるで」
「そうやな、それがトレードオフやと思うで。どうなるか見てみなあかんけど、たぶんデフォルトではクローズドバージョンを使うことになると思うわ。だってめっちゃすごいからな。でも、いろんな状況でフォールバックできるようにしとくんやないかな」
「今でもそんな感じになりつつあるよな。クローズドソースのプロバイダーのAPIがダウンしたら、人々はオープンエコシステムにフォールバックし始めるやろ。自分でコントロールできるからな。それで力を感じるんや」
「たぶん、脳についても同じような感じになるんちゃうかな。何か問題が起こったらオープンソースにフォールバックするけど、ほとんどの場合は...」
「せやから、オープンソースが進歩し続けるのはめっちゃ重要やと思うで。100%そう思う」
「これは明らかなことでも、今のところみんなが同意してることでもないかもしれんけど、100%そう思うで」
「一つ気になっとることがあるんやけど、パラメーターのサイズとか、どう考えるにしても、最小の実用的なモデルってどれくらいの大きさなんやろか」
「君の意見を聞きたいんやけど。だって、ディスティレーションとか小さなモデルについてめっちゃ考えたことあるやろ?」
「小さなモデルは驚くほど小さくできると思うで。今のモデルは、重要やないことを覚えるのにめっちゃ容量を無駄にしとると思うんや。SHAハッシュとか古代のことを覚えとるけど、データセットがきちんと選別されてへんからな」
「そうやな、まさにそれや」
「これはなくなっていくと思うで。認知の核心部分だけになっていくと思うんや。認知の核心部分はめっちゃ小さくできると思うで。考えるだけの部分やな。情報を調べる必要があれば、いろんなツールの使い方を知っとるっちゅう感じや」
「30億パラメーターくらい?200億パラメーター?それとも10億パラメーターくらい?」
「それはめっちゃ興味深いな。小さなモデル、10億パラメーターのモデルで、ただ考えるだけ...認知の核心部分だけで、必要な情報は調べるっちゅう感じか。だって、その情報は簡単に手に入るからな。覚えとく必要はないんや」
「そうやな、それが彼らの言うとったことやな。地図のせいで自分の街をナビゲートできへんようになったっちゅうことや。もう電話番号も覚えへんよな。全部スマホに入っとるからな」
「必要な情報をすぐに保存して呼び出せるなら、覚える必要はないんや。だから、大規模言語モデルがこういう情報を全部覚えとく必要はないんやないかな。インターネットや全てのデータベースに超高速でアクセスできるんやから」
「たぶんそうなると思うで。モデルはめっちゃ小さくなれると思うんや」
「小さくできる理由は、基本的にはディスティレーションがうまくいくからやと思うんや。めっちゃでかいモデルとか、大量の計算パワーを使って、めっちゃ小さなモデルを監督するんや。そしたら、めっちゃ多くの能力を小さなモデルに詰め込めるんや」
「それの数学的な表現とか、情報理論的な定式化みたいなんはあるんかな?今ではそれを計算できるはずやと思うんやけど。モデルサイズに対する認知能力の...」
「考え方としては、我々が使うとるインターネットのデータセットに戻ってみるのはどうやろか。インターネットは0.1%が認知で、99.99%が情報やねんな。そのほとんどは思考の部分には役立たへんのやで」
「そうやな、もしかしたら質問をこう言い換えられるかもしれんな。認知能力をモデルサイズに対して数学的に表現する方法はあるんやろか?あるいは、やろうとしとることに対して最小値や最大値をどう捉えるんやろか。たぶんそれをうまく表現する方法はないんやろうけどな」
「たぶん10億パラメーターくらいで、まあまあええ認知の核心部分...考える部分ができると思うで。たぶんな」
「10億でも多すぎると思うけど、まあ見てみなあかんな」
「エッジデバイスかクラウドかっちゅう問題もあるしな。あと、モデルを使うコストの問題もあるし」
「そうやな、それは面白いな。認知の部分がめっちゃ優秀で、めっちゃ速くて、めっちゃ小さくて、使うのがめっちゃ安いっちゅうのはどうやろか。基本的にどんなデバイスにも天才が入っとるみたいな感じやな」
「サーモスタットとか、ガレージのドアとか、スピーカーとか、車のステレオとか、家の中の照明とかな」
「めっちゃ強力な脳が、最も基本的な日常のものを最適化するためだけに使われるっちゅうのは面白い考えやな。家の照明とかな。最高の美学と最高の電力効率を両立させて、どんな指標を使うにしても、想像できる最高の照明環境を作り出すんや」
「そして、全てのものがそうなるんや。本当に基本的なものから、世界中の輸送システムとか、病院の手順のサプライチェーンとかまでな」
「めっちゃ違う世界になるやろうな。めっちゃワクワクするな」
「でも、10億パラメーター以下で、ローカルデバイスに外皮質を持てるっちゅうわけやな」
「せやな。たぶん単一のモデルやないと思うんや。これがどう展開されるか考えるのは面白いな。並列化の恩恵を受けたいと思うんや。順番に処理するんやのうて、並列処理したいんや」
「会社も、ある意味では仕事の並列化やと思うんやけど、会社には階層があるよな。情報処理と、組織的な情報の縮約が必要やからな」
「たぶん、LLMの会社みたいなんができると思うんや。ありそうな気がするわ。能力の異なるモデルがあって、いろんなユニークな分野に特化しとるんや。プログラマーとかな」
「実際に会社にめっちゃ似てくると思うんや。プログラマーとプログラムマネージャーがいて、似たような役割のLLMが並列で動いて、一緒になって、あなたの代わりに計算を調整するんや」
「たぶん単一のものとして考えるんは正しくないんやろな。もっと群れのエコシステムみたいな感じやな。生物のエコシステムみたいに、専門化した役割やニッチがあるんや」
「問題の難しさや特殊性に応じて、自動的に群れの他の部分にエスカレーションするんやな」
「そう言われると、『ブラックミラー』のエピソードを思い出すわ。ネタバレはせえへんけど、めっちゃ優れたクラウドモデルやったけど、実際の作業をするのはもっと安いモデル...たぶんオープンソースモデルとかやな」
「私のコスト関数は君のコスト関数とは違うからな。彼女は自分のヘッジファンドを運営しとるんやないかな」
「『私のAIコスト関数は君のAIコスト関数とは違う』っちゅうのは自慢なんやろか?」
次に、もちろんアンドレ・カーパシーの新しいプロジェクトについて話すんや。教育の分野に参入しとるんやで。人々に自分のニューラルネットワークや大規模言語モデルの作り方を教えようとしとるんや。
でも、彼を自分のチームに引き込もうとしとる人もおるんやで。イーリヤがアンドレ・カーパシーに、彼のSSI(安全な超知能)ミッションに参加してほしいってツイートしとったんやけど、今は見つからへんわ。
でも、アンドレ・カーパシーみたいな人には、たくさんのチャンスがあるっちゅうのは面白いな。GoogleやFacebook、イーロン・マスクのxAI、イーリヤのSSI、他どこでも簡単に仕事見つかるやろうに、自分のやりたいことをやることを選んどるんや。世界中の人々に、今登場してきとるこの新しい技術について教育することを選んどるんやで。
「OpenAIを辞めて、今は教育に取り組んどるんやな。ずっと教育者やったよな。なんでそれを選んだん?」
「まず、ずっと教育者やったっちゅうところから始めたいな。学ぶのもめっちゃ好きやし、教えるのもめっちゃ好きなんや。だから、ずっとこの分野に情熱を持っとったんやで」
「もう一つは、僕を動かしとるマクロな視点があるんやけど、AIの分野でめっちゃ活動があるけど、その多くは人間を置き換えたり、追い出したりするようなもんやと思うんや。人間をどかすみたいな感じやな」
「でも僕は、人間に力を与えるものにもっと興味があるんや。大きく見たら、僕は人間チームの一員やと思っとるし、AIが人間に力を与えるためにできることに興味があるんや」
「自動化の片隅に追いやられるような未来は望んでへんのや。人間がもっと力を持った状態になってほしいんや。今よりもっとすごくなってほしいんや」
「それから、もう一つ僕が面白いと思うのは、全ての科目で完璧な家庭教師がいたら、人間はどこまで行けるんやろか?っちゅうことや」
「完璧なカリキュラムがあれば、人々はめっちゃ遠くまで行けると思うんや。お金持ちの人が家庭教師をつけると、実際めっちゃ遠くまで行けるっちゅうのを見るやろ」
「AIを使えば、それに近づけると思うし、あるいはそれを超えられるかもしれんな」
「あるいはそれを超えられるかもしれんな、っちゅうのが彼の言葉やな」
「80年代に、一対一の家庭教師が1標準偏差分、生徒の成績を上げるって言われとったよな。『ブルーム』の研究やったっけ?」
「そうや、まさにそれや。マスタリー学習で1標準偏差、一対一の家庭教師でもう1標準偏差、合わせて全生徒の成績が2標準偏差上がるんや」
これがどんな感じかっちゅうと、こんな感じやな。
これが標準的な正規分布や。成績の分布やな。
ここにA+の生徒がおって、ここら辺に平均的な生徒がおる。多くの生徒はこの平均のあたりにおるんや。
こっちにD、Fの生徒がおるわけや。
もし、学期制やのうてマスタリー学習をしたら、1標準偏差分上がるんや。
突然、平均的な生徒の成績がめっちゃ上がるんや。
それに個別指導を加えたら、ほとんどの生徒がここ、トップクラスの成績のあたりに来るんや。
「それについて、AIの観点からどう思う?どんな製品が最初にそれを実現すると思う?」
「確かにそういう面に影響を受けとるな。実際に今やっとるのは、一つのコースを作ろうとしとるんや。AIを学びたい人が行くべき唯一のコースにしたいんや」
「基本的に、既にコースを教えた経験があるんや。スタンフォードで231nっちゅう最初のディープラーニングのクラスを教えて、かなり成功したんやけどな」
「でも問題は、こういうクラスをどうやってめっちゃスケールアップするかっちゅうことなんや。対象者を地球上の80億人全員にして、みんな違う言語を話してて、みんな違う能力レベルやっちゅう状況で、どうやってスケールアップするんやろか」
「一人の教師じゃそんな対象者に対応でけへんやろ。だから、めっちゃええ教師をスケールアップするのにAIをどう使うかっちゅう問題なんや」
「僕が考えとるのは、教師がコースの作成とカリキュラムの多くを担当するっちゅう感じや。今のAIの能力では、ええコースを作るのは難しいと思うんや」
「でも、生徒とのインターフェースになって、コースを生徒に解釈するのはできると思うんや」
もし彼がこういうプロトタイプを作ったら、他の大学の先生全員が使えるようになるんやないかな?
先生がカリキュラムの上位レベルを作って、AIを使って生徒に一対一で教える。生徒のペースで、生徒の能力に合わせて、カスタマイズしてな。
こんなんが実現するまでどれくらいかかると思う?
「この10年のうちに始まると期待しとるんや。基本的に、教師が人々のところに行くんやのうて、もう前面に出えへんようになるんや」
「教師はバックエンドにいて、教材やコースをデザインする。AIが前面に出て、いろんな言語を話せて、コースを案内してくれるっちゅう感じやな」
「それをTAみたいな経験やと考えたらええんかな?それとも違うんかな」
「そうやな、一つの考え方としては、それはTAやな。僕が主に考えとるのは、生徒とのインターフェースになるもんや。実際に生徒とやり取りして、コースを案内するもんや」
「今日でもそれは実現可能やと思うんやけど、まだ存在してへんのや。めっちゃええもんができると思うで」
「それから、能力が上がるにつれて、セットアップをいろんな形で再構成していくことになると思うんや」
「今日のAIの能力がどこまでかをよく理解して、それをうまく活用できるものを見つけたいんや。多くの企業が、今日のAIの能力をあんまりよく理解してへんと思うんや」
「だから、利用可能なものより先を行きすぎたり、あるいは十分に活用できてへんかったりするもんを作ってまうんやないかな」
「でも、これは可能なことと、本当に面白くてワクワクすることの甘い場所やと思うんや」
「さっき言うたことに戻りたいんやけど、めっちゃインスピレーションを受けたわ。特に、君のバックグラウンドと、研究の現状についての理解を考えると」
「つまり、基本的に、もっとええツールがあれば人間の能力の限界がどこにあるのか、学習の観点から見てまだ分かってへんっちゅうことやな」
「めっちゃ簡単な例えで言うたら、つい1ヶ月前にオリンピックがあったやろ?例えば、今日のマイルのベストタイムとか、どんなスポーツでもいいけど、10年前よりめっちゃ良くなってるんや」
「パフォーマンス向上薬は別として、もっと早くから訓練を始めたり、プログラムがめっちゃ違うたり、科学的な理解がめっちゃ進んだり、テクニックが違うたりするからな」
「君が、もっとええツールとカリキュラムから始めたら、人間はもっと遠くまで行けると信じとるっちゅうのは、めっちゃすごいことやと思うで」
「そうやな、まだ可能性のほんの表面しか掻いてへんと思うんや。二つの側面があると思うんや」
「一つは、グローバル化の側面や。みんながめっちゃええ教育を受けられるようにしたいんや」
「もう一つは、一人の人間がどこまで行けるかっちゅうことや。この二つはどっちもめっちゃ面白くてワクワクするな」
「普通、一対一の学習について話すとき、その人のレベルに合わせて挑戦するっちゅう適応的な面を言うよな。今日のAIでそれができると思う?それとも、それは将来のことで、今はまだ到達範囲と複数の言語の問題が主なんかな?」
「今すぐできる簡単なのは、例えば違う言語やな。今のモデルは翻訳がめっちゃ得意やと思うんや。その場で教材をターゲットにして翻訳できるんや」
「だから、たくさんのことがすぐにできると思うんや。人のバックグラウンドに適応するのは、まだすぐにはできへんけど、そんなに遠くもないと思うで」
「でも、これは絶対に欲しい機能やな。みんながみんな同じバックグラウンドを持っとるわけやあらへんからな」
「それに、他の分野の知識があると、知ってることに例えるのがめっちゃ役立つんや。教育ではこれがめっちゃ強力やねん」
「だから、これは絶対に活用したい側面やけど、ここまで来ると、もう明らかやないし、どこかが必要になってくるんや」
「簡単なバージョンはそんなに遠くないと思うで。モデルに『ああ、物理学知ってるで』とか『これ知ってるで』ってプロンプトを与えるだけで、なんか出てくると思うんや」
「でも、僕が言うとるのは、実際に機能するものやな。デモで時々機能するようなもんやのうて」
「実際に機能して、人間がやるようにできるもんってことやな」
「そうや、だから適応性のこと聞いたんや。人によって学習速度が違うし、ある人には難しくて他の人には簡単なこともあるし、その逆もあるからな」
「その文脈に合わせてどう調整するかっちゅう問題やな。時間とともに、その人が得意なことや苦手なことをモデルに再導入できるんやないかな」
「AIの場合、こういう能力の多くは、ただプロンプトを変えるだけで得られる気がするんや。だからいつもデモはできるんやけど、実際に製品になるんかっちゅう話やな」
「そういう意味では、デモは近いけど、製品は遠いって言えるかもしれんな」
「さっき話してた研究コミュニティの系統のことやけど、面白いよな。特定の研究室から来た人とか、みんながみんなの研究室の噂をしとるとか」
「ノーベル賞受賞者の多くが、以前にノーベル賞受賞者の研究室で働いとったっちゅうのは、めっちゃ高い割合やと思うで」
「文化か、知識か、ブランディングか、何かが伝播しとるんやな」
「AI教育中心の世界では、この系統をどう維持するん?それとも重要やないん?知識やネットワークの伝播についてどう思う?」
「実際、系統があんまり重要やない世界に住みたいんや。AIがその構造をちょっと壊すのを手伝ってくれたらええなと思うんや」
「なんか、有限で希少なリソースによるゲートキーピングみたいな感じがするんや。『この系統を持つ人は限られとる』みたいなな」
「だから、それを壊せたらええなと思うんや」
「このおっさん、ええ奴やな。実際に学ぶのが一つの側面で、系統が一つの側面やな」
「そうやな。でも、それは集積効果でもあるんやで。なんでAIコミュニティの多くがベイエリアにあるんやろか?なんでFTCH(おそらくフィンテック)コミュニティの多くがニューヨークにあるんやろか?」
「そうやな、その多くは賢い人たちが集まる効果やと思うんや。共通の興味や信念を持った人たちがな。そこから広がっていくんや」
「共通の核から広がって、面白い方法で知識を共有するんやな」
「そうやな、その行動の多くが、特に若い人らの間では、ある程度オンラインに移ってきとるんちゃうかな」
「一つの側面としては、教育的な面があると思うんや。今日、あるコミュニティの一員になると、めっちゃ多くの教育や見習い的なことが得られるんや。これがその分野で力をつけるのにめっちゃ役立つんやで」
「もう一つの側面は、文化的な面やな。何に動機づけられて、何に取り組みたいと思うか。その文化が何を大事にして、何を称賛するか。基本的に何を崇拝するかってことやな」
「例えば、学術界では、H指数をみんなめっちゃ気にするんや。何本の論文を出したかとかな。僕もそのコミュニティの一員やったから、それを見てきたんや」
「でも、今は違う場所に来て、違うコミュニティにはそれぞれ違う偶像があるのを見てきたんや。これが人々の動機づけに大きな影響を与えるんやで。社会的な地位をどこから得るか、何が本当に大事なのかってことにな」
ここで一旦止めとこか。ほぼ全部、もしかしたら全部カバーできたと思うで。最初に話してた、めっちゃ面白いロボットと自動運転車の話は取り上げへんかったけど。
このチャンネルではそんなに取り上げへん話題やから、ここでは触れへんかったんや。本当に、ニューラルネットとAIのこと、彼がこの進歩がどこに向かうと思うてるかについて深掘りしたかってんや。
これで僕からは以上や。この太陽がちょっとうっとおしいな。目に直接当たらんように前に傾くか後ろに傾くかせなあかんのやけど。
コメント欄で教えてくれへんか?もっとパワフルな脳を借りるために、自分の脳を貸し出す気はある?認知能力をアップグレードするために、ちょっとだけ大手テック企業に頼らなあかんかもしれんけど、追加料金払う気はある?
それについてどう思う?実際「お前のウェイトやないなら、お前の脳やない」なんかな?それとも、もし同僚より認知的な優位性を得られるなら、そのリスクを取ってでも挑戦する気はある?
ここまで見てくれてありがとう。私の名前はウェス・ロスや。また会おな。


この記事が気に入ったらサポートをしてみませんか?