見出し画像

イリヤ・サツケバー | 2024年 ニューラルネットワークの最新ブレークスルー | AGI 2025年に到来

7,951 文字

主催者の皆様、この論文を受賞対象に選んでいただき、ありがとうございます。また、素晴らしい共著者であり協力者でもあるオリアル・ヴィニールとクールにも感謝します。彼らは先ほどここに立っていました。そして、ここにあるのは10年前の2014年、モントリオールでのNeurIPSで行った同様の講演のスクリーンショットです。あの頃はもっと純真な時代でした。写真に写っているのが私たちです。これがビフォー、そしてこれがアフターですね。今では経験も積み、おそらくより賢明になりました。
ここでは、この研究自体について、そして10年間を振り返って少しお話ししたいと思います。この研究には正しかった点もありますが、そうでない点もありました。それらを振り返り、何が起こり、今日に至るまでどのように穏やかに流れてきたのかを見てみましょう。
まず、私たちが行ったことについて説明しましょう。10年前の同じ講演のスライドを見せながら進めていきますが、私たちが行ったことは以下の3つのポイントにまとめられます。テキストで学習する自己回帰モデル、大規模なニューラルネットワーク、そして大規模なデータセットです。これだけです。
もう少し詳しく掘り下げてみましょう。これは10年前のスライドですが、悪くありません。ディープラーニングの仮説です。ここで私たちが述べたのは、10層の大規模なニューラルネットワークがあれば、人間が一瞬でできることは何でもできるということです。なぜ人間が一瞬でできることに、このように特に重点を置いたのでしょうか?
もしディープラーニングの教義、つまり人工ニューロンと生物学的ニューロンが似ているか、少なくともそれほど違わないと信じ、実際のニューロンは遅いと信じるならば、人間が一瞬でできることなら何でも、10層のニューラルネットワークでもできるはずです。私が人間と言うとき、世界中のたった一人の人間でも構いません。世界中のたった一人の人間が一瞬で何かのタスクができるなら、10層のニューラルネットワークでもできるはずです。理屈は通じますよね。その人のニューロン接続を人工ニューラルネットに埋め込めばいいのです。
これが動機でした。人間が一瞬でできることなら、10層の大規模なニューラルネットワークでもできるはずだと。当時、私たちが学習させることのできるニューラルネットワークは10層だったため、10層に焦点を当てていました。もし何らかの方法でもっと層を増やせれば、より多くのことができたはずですが、当時は10層が限界だったため、人間が一瞬でできることを強調したのです。
講演からの別のスライドで、私たちのメインアイデアが書かれています。ここで少なくとも1つか2つのことに気付くかもしれません。自己回帰的な何かが起きていることが分かるでしょう。このスライドは実際に何を言っているのでしょうか?このスライドが言っているのは、自己回帰モデルがあり、次のトークンを十分によく予測できれば、次に来る配列の正しい分布を実際に把握し、捕捉し、理解するだろうということです。これは比較的新しいことでした。
文字通り初めての自己回帰ニューラルネットワークというわけではありませんでしたが、十分に学習させれば望むものが得られると本当に信じた最初の自己回帰ニューラルネットワークだったと私は主張します。当時の私たちの場合、今では控えめな、しかし当時は信じられないほど大胆だった翻訳というタスクでした。
ここで、多くの人が見たことのない古い歴史をお見せしましょう。LSTMと呼ばれるものです。LSTMを知らない人のために説明すると、これはTransformerが登場する前の貧しいディープラーニング研究者たちが使っていたものです。基本的にはResNetを90度回転させたものです。これがLSTMです。これは前に来ました。少し複雑なResNetのようなものですね。今は残差ストリームと呼ばれている積分器があり、掛け算も行われています。少し複雑ですが、これが私たちのやったことです。90度回転させたResNetでした。
その古い講演からもう一つ強調したい cool な特徴は、並列化を使用したことです。しかも、単なる並列化ではなく、この1レイヤーあたり1GPUという証拠が示すようにパイプライニングを使用しました。パイプライニングは賢明だったでしょうか?今では分かっていますが、パイプライニングは賢明ではありませんでした。しかし、当時は賢明ではありませんでした。そこで私たちはそれを使い、8台のGPUで3.5倍の高速化を達成しました。
ある意味で、当時の講演での結論のスライドが最も重要なスライドです。なぜなら、スケーリング仮説の始まりと言えるものを示していたからです。非常に大きなデータセットを持ち、非常に大きなニューラルネットワークを学習させれば、成功は保証されるというものです。寛容に考えれば、これが実際に起きていることだと主張できます。
もう一つのアイデアについて触れたいと思います。これは私が主張する、時の試練に本当に耐えたアイデアです。ディープラーニング自体の核心的なアイデア、コネクショニズムのアイデアです。人工ニューロンが生物学的ニューロンとある程度似ているという考えを受け入れれば、一方がもう一方とある程度似ているという信念は、非常に大規模なニューラルネットワークが、人間の脳の規模である必要はなく、少し小さくてもよいかもしれませんが、私たち人間がやるほとんどすべてのことをできるように設定できるという確信を与えてくれます。
まだ違いはあります。人間の脳は自己再構成の方法も見出しますが、私たちは持っている最高の学習アルゴリズムを使用しており、それにはパラメータと同じ数のデータポイントが必要です。人間はこの点ではまだ優れています。しかし、これは事前学習の時代につながったと主張できます。事前学習の時代とは、GPT-2モデル、GPT-3モデル、スケーリング法則と呼べるものです。
特に、私の元同僚であるアレック・ラドフォード、そしてジャレッド・カプラン、ダリオ・モードが、これを実現させたことを強調したいと思います。これが事前学習の時代につながり、これが今日私たちが目にするすべての進歩の原動力となっています。巨大なデータセットで学習された超大規模なニューラルネットワーク、異常に大規模なニューラルネットワークです。
しかし、私たちが知っているような事前学習は間違いなく終わりを迎えます。事前学習は終わるでしょう。なぜでしょうか?コンピュータはより良いハードウェア、より良いアルゴリズム、より大きなクラスターなど、すべてのものを通じて成長し続け、計算能力を増加させ続けていますが、データは成長していません。なぜなら、私たちにはたった一つのインターネットしかないからです。
データはAIの化石燃料のようなものだと言えるかもしれません。何らかの形で作られ、今私たちはそれを使用していますが、データのピークに達し、これ以上増えることはないでしょう。今あるデータで対処していかなければなりません。まだかなり先まで進むことはできますが、インターネットはたった一つしかないのです。
ここで、次に何が来るのか少し推測する自由を取らせていただきます。実際には推測する必要はありません。多くの人々が推測していますので、その推測について触れたいと思います。「エージェント」という言葉を聞いたことがあるかもしれません。それは一般的なものであり、最終的には何かが起こるだろうと確信しています。人々はエージェントが未来だと感じています。より具体的ですが、同時にやや漠然としているのが合成データです。
しかし、合成データとは何を意味するのでしょうか?これを解明することは大きな課題であり、様々な人々が興味深い進展を遂げていることは確かです。そして、推論時の計算、あるいは最近最も鮮明に見られたのはo1モデルですが、これらはすべて事前学習の後に何をすべきかを人々が模索している例です。これらはすべて非常に良いことです。
生物学からもう一つの例を挙げたいと思います。とても面白いと思う例です。何年も前、この会議でも誰かがこのグラフを発表する講演を見ました。そのグラフは哺乳類の体の大きさと脳の大きさの関係を示していました。この場合は質量での関係です。その講演を鮮明に覚えていますが、彼らは「生物学ではすべてが非常に乱雑ですが、ここには動物の体の大きさと脳の間の非常に強い関係がある珍しい例があります」と言っていました。
全く偶然に、私はこのグラフに興味を持ちました。Googleで研究をするためにこのグラフを探していたところ、Google画像検索の初期の結果の一つがこれでした。この画像で興味深いのは、哺乳類がいて、非ヒト霊長類がいて、基本的に同じようなものですが、そこにホミニドがいることです。私の知る限り、ホミニドは人類の進化における近縁種です。ネアンデルタール人やホモ・ハビリスなど、たくさんいます。
彼らはすべてここにいて、興味深いのは、彼らの脳と体の大きさのスケーリング指数が異なる傾斜を持っていることです。これはとてもクールです。つまり、生物学が何か異なるスケーリングを見出した先例があるということです。明らかに何か違うものがあります。ちなみに、このx軸が対数スケールであることを強調したいと思います。これは100、1000、10000、100000を示しており、同様にグラムでは1g、10g、100g、1000gです。
つまり、物事が異なることは可能なのです。私たちが行ってきたこと、これまでスケールアップしてきたことは、実際には私たちが最初にスケールアップする方法を見出したものです。疑いなく、この分野で働く全ての人々が何をすべきか見出すでしょう。
しかし、ここでは長期的な展望について、数分間推測してみたいと思います。長期的に私たちはどこに向かっているのでしょうか?私たちは全てこの進歩を遂げています。それは驚くべき進歩です。本当に、10年前にこの分野にいた人々は、すべてがいかに無能だったかを覚えているでしょう。はい、ディープラーニングについて「もちろん」と言うことはできますが、それを目の当たりにするのは信じられないことです。
その感覚を皆さんに伝えることはできません。過去2年間にこの分野に参加した人々にとっては、もちろんコンピュータと会話し、コンピュータが応答し、意見を述べることは当たり前のことです。しかし、それは常にそうだったわけではありません。
しかし、超知能について少し話したいと思います。なぜなら、それは明らかにこの分野が向かっている先であり、ここで構築されているものだからです。超知能について重要なのは、それが私たちが持っているものとは質的に異なるということです。次の1分間で、それがどのように異なるのかについて、具体的な直感を皆さんに提供し、自分自身で推論できるようにすることが私の目標です。
現在、私たちには信じられないような言語モデルがあり、驚くべきチャットボットがあり、さらにはタスクもこなすことができます。しかし、彼らは奇妙なほど信頼性が低く、評価で劇的に人間を超える性能を示しながらも混乱することがあります。これをどう reconcile すべきか本当に不明確ですが、遅かれ早かれ、以下のことが達成されるでしょう。
これらのシステムは実際に意味のある方法で主体的になるでしょう。現在のシステムは意味のある意味での主体性はなく、あるいはそれは強すぎる表現かもしれません。非常に、非常にわずかな主体性が始まったばかりです。
実際に推論するようになり、ちなみに推論について言及したいことがありますが、推論するシステムは、より多く推論すればするほど、より予測不可能になります。より多く推論すれば推論するほど、より予測不可能になるのです。私たちがこれまで慣れ親しんできたディープラーニングは非常に予測可能でした。なぜなら、基本的に人間の直感を再現することに取り組んできたからです。
0.1秒の反応時間に戻ると、私たちの脳内でどのような処理を行っているのでしょうか?それは私たちの直感です。私たちはAIにその直感の一部を与えてきましたが、推論は予測不可能です。その初期の兆候が見られています。チェスAIは、最高の人間のチェスプレイヤーにとって予測不可能なほど優れています。
そのため、私たちは信じられないほど予測不可能なAIシステムに対処しなければならないでしょう。限られたデータから物事を理解し、混乱することもありません。これらは現在の大きな制限です。ちなみに、私はどのようにしてそれが実現されるのかは言っていませんし、いつ実現されるのかも言っていません。自己認識とともにこれらのことが起こると言っているのです。なぜなら、自己認識は有用だからです。それは私たち自身の世界モデルの一部です。
これらすべてのことが一緒に起こるとき、今日存在するものとは根本的に異なる性質と特性を持つシステムが生まれるでしょう。もちろん、それらは信じられないほど素晴らしい能力を持つでしょう。しかし、このようなシステムで浮上する問題の種類は、私たちが慣れているものとは異なります。それを想像する練習として残しておきましょう。
将来を予測することは確かに不可能です。あらゆる種類のことが可能です。しかし、この前向きな注意点で結論としたいと思います。ありがとうございました。
(拍手)
質問者:2024年現在、人間の認知の一部である他の生物学的構造で、同様の方法で探求する価値があると思われるもの、あるいは興味を持っているものはありますか?
イリヤ:この質問への答え方としては、もし誰かが「私たちは皆とても愚かだ。なぜなら明らかに脳は何かをしていて、私たちはそれをしていない。そしてそれは実行可能なことだ」という具体的な洞察を持っているなら、その人はそれを追求すべきです。
私個人としては、抽象化のレベルによって異なりますが、こう答えましょう。生物学的に着想を得たAIを作ろうとする強い願望がありました。ある意味で、生物学的に着想を得たAIは信じられないほど成功していると言えます。ディープラーニング全体が生物学的に着想を得たAIなのです。
しかし一方で、生物学的着想は非常に、非常に、非常に控えめでした。「ニューロンを使おう」というのが生物学的着想の全容です。より詳細な生物学的着想は得るのが非常に難しかったのですが、それを排除はしません。誰かが特別な洞察を持っていれば、何かを見出し、それが有用である可能性はあると思います。
質問者:推論についての質問があります。将来のモデリングの中核的な側面の一つとして、そして差別化要因として推論について言及されましたが、今日のモデルでの幻覚について、ポスターセッションで見たものは - 申し訳ありません、あなたが専門家なので訂正してください - モデルが幻覚を起こしているかどうかを分析する方法として、推論能力の危険性を知っているため、平均からの標準偏差などの統計的分析を使用しています。
将来的には、推論能力を持つモデルは自己修正が可能になり、それが将来のモデルの中核的な特徴となって、幻覚が減少すると思われますか?モデルが推論し、幻覚が起きていることを認識できるようになるからです。質問が抽象的すぎるかもしれませんが、理解できましたか?
イリヤ:はい、理解できました。そして答えもはいです。あなたが説明したことは非常に可能性が高いと思います。今日の初期の推論モデルでもすでに起きている可能性があります。私にはわかりませんが、長期的にはなぜできないでしょうか。Microsoft Wordの自動修正のような、それは中核的な機能の一つですよね。
ただし、それを自動修正と呼ぶのは適切ではないと思います。自動修正という言葉を使うと、それよりもはるかに壮大なものなのですが、その点を除けば、答えはイエスです。
質問者:イリヤさん、最後の部分が神秘的で素晴らしかったです。彼らは私たちを置き換えるのか、あるいは優れているのか、権利が必要なのか、ホモ・サピエンスから生まれた新しい種の知能なので、権利が必要なのかということを言及せずに終わりましたね。強化学習の専門家は、これらのものに権利が必要だと考えているようですが。
それとは無関係の質問があります。人類が実際にホモ・サピエンスとして持っている自由を与えるような方法でAIを作るための、適切なインセンティブメカニズムをどのように作り出すのでしょうか?
イリヤ:ある意味で、それらは人々がもっと考えるべき種類の質問だと思います。しかし、どのようなインセンティブ構造を作るべきかという質問については、私にはわかりません。このような質問に自信を持って答えることはできません。なぜなら、あなたはトップダウンの構造や政府のようなものを作ることについて話していますが、私にはわかりません。
質問者:暗号通貨かもしれませんね。BitTensorなどがありますし。
イリヤ:暗号通貨についてコメントする適切な人物とは思えません。しかし、あなたが説明していることが起こる可能性はありますね。確かに、ある意味では悪くない結果かもしれません。AIがいて、彼らが望むのは私たちと共存し、権利を持つことだけだとしたら、それは良いかもしれません。しかし、私にはわかりません。物事は信じられないほど予測不可能だと思うので、コメントを控えめにしたいと思います。しかし、推測することは奨励します。
質問者:素晴らしい講演をありがとうございます。私はトロント大学のシャレブ・リートで、シーラと一緒に研究しています。あなたの仕事に感謝します。LLMは分布外の多段階推論を一般化できると思いますか?
イリヤ:はい、いいえで答えられる質問だと仮定していますが、そうではありません。分布外一般化とは何を意味するのでしょうか?分布内と分布外の意味は何でしょうか?
これは時を経た講演なので、こう言いましょう。はるか昔、人々がディープラーニングを使用する前は、機械翻訳に文字列マッチングやn-gramを使用していました。統計的なフレーズテーブルを使用していたのです。想像できますか?数万行のコードの複雑さがあり、本当に理解しがたいものでした。
当時、一般化とは、文字通りそのフレーズがデータセットに含まれていないということを意味していました。今では、私のモデルが数学のコンテストで高得点を達成したとしても、インターネット上のあるフォーラムで同じアイデアについての議論があり、それを記憶しているのかもしれないと言うかもしれません。
まあ、分布内かもしれないし、記憶化かもしれません。しかし、一般化とみなされるものの基準は、追跡してみると、かなり実質的に、劇的に、想像もできないほど上がっていると思います。
だから、答えとしては、おそらく人間ほど上手くはできていないと思います。人間の方がはるかに良く一般化できるのは事実だと思います。しかし同時に、彼らは確実にある程度は分布外に一般化しています。これが有用な同義反復的な答えになることを願っています。
司会者:残念ながら、このセッションの時間が来てしまいました。あと6時間は続けられそうな気がしますが。イリヤさん、素晴らしい講演をありがとうございました。

いいなと思ったら応援しよう!