イリヤ・サツケバー: NeurIPS 2024におけるニューラルネットワークを用いたシーケンス間学習について
7,210 文字
主催者の皆様、この賞に私たちの論文を選んでいただき、ありがとうございます。また、素晴らしい共同著者であり協力者でもあるオラル・ヴィニールとキューレにも感謝申し上げます。彼らは先ほどまでここに立っていました。ここにあるのは、2014年のモントリオールでのニューリプスで行った同様の講演のスクリーンショットです。あの頃はもっと純真な時代でした。写真に写っているのが当時の私たちで、これがビフォー、そしてこれがアフターです。今では経験も積み、おそらくより賢明になりましたが、今日は研究そのものについて、そして10年を振り返って少しお話ししたいと思います。
この研究には正しかった点もありますが、そうでない点もありました。それらを振り返り、今日までどのように発展してきたのかを見ていきましょう。まず、私たちが行ったことについて説明します。10年前の同じ講演のスライドを使って説明しますが、要点は次の3つです。テキストで訓練された自己回帰モデル、大規模なニューラルネットワーク、そして大規模なデータセット、これだけです。
もう少し詳しく見ていきましょう。これは10年前のスライドですが、悪くありません。深層学習仮説について、私たちはこう述べました。10層の大規模なニューラルネットワークがあれば、人間が一瞬でできることは何でもできる、と。なぜ人間が一瞬でできることに着目したのでしょうか?それは、人工ニューロンと生物学的ニューロンが似ているという深層学習の教義を信じ、実際のニューロンは遅いと考えたからです。
世界中で一人でもある人間が一瞬でできるタスクがあれば、10層のニューラルネットワークもそれができるはずです。その人の結合をニューラルネットに組み込めばいいのです。これが動機でした。人間が一瞬でできることなら、10層の大規模なニューラルネットワークでもできる、というわけです。当時は10層のニューラルネットワークしか訓練できなかったため、それに焦点を当てていました。
講演からの別のスライドで、私たちのメインアイデアが示されています。自己回帰的な要素が含まれていることがわかるでしょう。このスライドが本当に言っているのは、次のトークンを十分に予測できる自己回帰モデルがあれば、次に来るシーケンスの正しい分布を捉え、理解できるということです。これは比較的新しい考えでした。
文字通り最初の自己回帰ニューラルネットワークではありませんでしたが、十分に訓練すれば望むものが得られると本当に信じた最初の自己回帰ニューラルネットワークだったと言えるでしょう。当時の私たちの目標は、今では控えめに見えますが、当時は非常に大胆だった機械翻訳でした。
ここで、多くの方が見たことのない古代の歴史をお見せします。LSTMと呼ばれるものです。LSTMは、トランスフォーマー以前の貧しい深層学習研究者たちが使っていたもので、基本的には90度回転させたResNetです。これがLSTMで、これはResNetの少し複雑なバージョンです。インテグレーターがあり、これは今では残差ストリームと呼ばれています。乗算も行われており、少し複雑ですが、これが私たちがやっていたことです。90度回転させたResNetだったのです。
当時の講演からもう一つ興味深い特徴は、並列化を使用していたことです。しかも、単なる並列化ではなく、1GPUあたり1層というパイプライニングを使用していました。今となっては、パイプライニングは賢明ではなかったことがわかっています。しかし、当時はそれほど賢明ではありませんでした。8個のGPUを使用して3.5倍の速度向上を達成しました。
ある意味で、当時の講演の結論のスライドが最も重要です。なぜなら、スケーリング仮説の始まりと言えるものを示していたからです。非常に大きなデータセットで非常に大きなニューラルネットワークを訓練すれば、成功は保証されるという考えです。寛容に見れば、これが実際に起こってきたことだと言えるでしょう。
もう一つ、時の試練に本当に耐えた考えについて触れたいと思います。それはコネクショニズムの中核的なアイデアです。人工ニューロンが生物学的ニューロンと多少なりとも似ているということを信じることができれば、それは大規模なニューラルネットワークが人間の脳の規模である必要はなく、少し小さくても、私たち人間ができることのほとんどを行うように設定できるという確信を与えてくれます。
まだ違いはあります。人間の脳は自身を再構成する方法も見つけ出しますが、私たちは最高の学習アルゴリズムを使用しており、それにはパラメータと同じ数のデータポイントが必要です。人間はこの点ではまだ優れています。しかし、これが事前学習の時代につながったと言えます。GPT-2モデル、GPT-3モデル、スケーリング法則などがその例です。
特に、元の協力者であるアレック・ラドフォード、そしてジャレッド・カプラン、ダリオ・モードの功績を挙げたいと思います。彼らが本当にこれを実現させました。事前学習の時代は、今日私たちが目にする進歩の原動力となっています。巨大なデータセットで訓練された超大規模なニューラルネットワークです。
しかし、私たちが知っている事前学習は間違いなく終わりを迎えます。なぜでしょうか?コンピュータはより良いハードウェア、より良いアルゴリズム、より大きなクラスタを通じて成長し続け、計算能力は増加し続けていますが、データは成長していません。なぜなら、インターネットは一つしかないからです。
データはAIの化石燃料のようなものだと言えます。何らかの形で作られ、今私たちはそれを使用していますが、データのピークに達しており、これ以上増えることはありません。今あるデータで対処していかなければなりません。まだかなり先まで進めますが、インターネットは一つしかないのです。
ここで、次に何が来るかについて少し推測させていただきます。実際には推測する必要はありません。多くの人々が推測していますので、その推測について触れたいと思います。「エージェント」という言葉を聞いたことがあるかもしれません。一般的になっており、最終的には何かが起こるでしょうが、人々はエージェントが未来だと感じています。
より具体的に、しかし少し曖昧ですが、合成データがあります。しかし、合成データとは何を意味するのでしょうか?これを理解することは大きな課題です。様々な人々が興味深い進展を遂げていることは確かです。そして、推論時の計算、あるいは最近最も鮮明に見られたo1モデルでの例など、これらはすべて事前学習後に何をすべきかを人々が考え出そうとしている例です。これらはすべて非常に良い取り組みです。
生物学からもう一つの例を挙げたいと思います。とても興味深い例です。何年も前に、この会議でも誰かが発表したグラフを見ました。そのグラフは、哺乳類の体の大きさと脳の大きさの関係を示していました。この場合は質量で示されています。その講演を鮮明に覚えているのですが、彼らは言っていました。生物学ではすべてが非常に乱雑だが、ここには動物の体の大きさと脳の大きさの間に非常に密接な関係がある珍しい例があると。
全く偶然に、私はこのグラフに興味を持ち、Googleで検索してこのグラフを探しました。Google画像検索で見つかった画像の一つがこれです。この画像で興味深いのは、様々な哺乳類があり、次に非人類霊長類があり、基本的に同じものですが、その後にホミニドがあることです。
私の知る限り、ホミニドは人類の進化における近縁種です。ネアンデルタール人やホモ・ハビリスなど、たくさんいます。彼らはすべてここにいて、興味深いのは、脳と体のスケーリング指数の傾きが異なることです。これはとてもクールです。
つまり、生物学が何か異なるスケーリングを見出した前例があるということです。何かが明らかに異なっています。ちなみに、このx軸が対数スケールであることを強調したいと思います。100、1000、10000、100000となっており、同様にグラムでは1g、10g、100g、1000gとなっています。
物事が異なることは可能なのです。私たちがこれまでスケーリングしてきたものは、実際にはスケーリングする方法を見出した最初のものに過ぎません。疑いもなく、この分野で働く全ての人々が次に何をすべきかを理解するでしょう。
ここで、より長期的な視点について少し推測したいと思います。私たちはどこに向かっているのでしょうか?驚くべき進歩を遂げています。10年前にこの分野にいた人々は、すべてがいかに無能だったかを覚えているでしょう。もちろん、学習はまだ続いていると言えますが、それを見るのは本当に信じられないことです。
過去2年間でこの分野に参加した方々にとっては、コンピュータと会話し、コンピュータが返答し、意見を述べることは当たり前のことです。しかし、それは常にそうだったわけではありません。
しかし、超知能について少しお話ししたいと思います。なぜなら、それがこの分野が向かっている先であり、ここで構築されているものだからです。超知能について重要なのは、それが現在私たちが持っているものとは質的に異なるということです。
次の1分間で、それがどのように異なるのかについて具体的な直感を与えることが私の目標です。そうすれば、皆さん自身がそれについて考えることができます。現在、私たちには素晴らしい言語モデルと信じられないようなチャットボットがあり、それらは物事を行うこともできますが、同時に奇妙なほど信頼性がなく、評価では人間をはるかに超える性能を示しながらも混乱することがあります。
これをどう調和させるかは本当に不明確ですが、いずれ遅かれ早かれ、以下のことが達成されるでしょう。これらのシステムは実際に真の意味でエージェント的になります。現在のシステムは、意味のある意味でのエージェントではありません。これは強すぎる表現かもしれませんが、非常に非常にわずかにエージェント的で、始まったばかりです。
実際に推論を行うようになります。推論について一つ言及したいのは、推論するシステムは、推論すればするほど予測不可能になるということです。私たちがこれまで慣れ親しんできた深層学習は非常に予測可能でした。なぜなら、基本的に人間の直感を複製することに取り組んできたからです。0.1秒の反応時間に戻ると、私たちの脳でどのような処理を行っているかというと、それは直感です。
私たちは自分たちのシステムにその直感の一部を与えてきました。しかし、推論は予測不可能です。その初期の兆候が見られています。チェスAIは、最高の人間のチェスプレイヤーにとっても予測不可能です。私たちは、信じられないほど予測不可能なAIシステムに対処しなければならなくなります。
これらは限られたデータから物事を理解し、混乱することはありません。これらは現在の大きな限界です。ちなみに、私はどのようにしてそれが実現されるのかや、いつ実現されるのかは言及していません。それが実現されるということと、自己認識とともに実現されるということを言っているのです。なぜなら、自己認識は有用だからです。それは私たち自身の世界モデルの一部です。
これらすべてのことが一緒になると、今日存在するものとは根本的に異なる性質と特性を持つシステムを持つことになります。もちろん、それらは信じられないほど素晴らしい能力を持つことになりますが、このようなシステムで生じる問題の種類は、考えてみることを皆さんの課題として残しておきます。私たちが慣れているものとは非常に異なります。将来を予測することは本当に不可能だと言えるでしょう。あらゆる種類の可能性がありますが、この前向きなメモで締めくくらせていただきます。ありがとうございました。
【質疑応答】
質問者: 2024年現在、人間の認知の一部である他の生物学的構造で、同様の方法で探求する価値があると思われるものや、あなたが興味を持っているものはありますか?
イリヤ: この質問には次のように答えたいと思います。もし誰かが、「私たちは皆とても愚かなことをしている。明らかに脳は何かをしているのに、私たちはそれをしていない。そしてそれは実現可能なことだ」という具体的な洞察を持っているなら、その人はそれを追求すべきです。
私個人としては...抽象化のレベルによりますが、こう答えましょうか。生物学的にインスパイアされたAIを作ろうという願望が多くありました。ある意味で、生物学的にインスパイアされたAIは信じられないほど成功していると言えます。それは学習全般についてです。しかし一方で、生物学的なインスピレーションは非常に控えめなものでした。「ニューロンを使おう」というだけです。これが生物学的インスピレーションの全容でした。
より詳細な生物学的インスピレーションを得ることは非常に困難でしたが、それを排除するものではありません。誰かが特別な洞察を持っていれば、何かを見出し、それが有用になる可能性があると思います。
質問者: 自己修正について質問があります。あなたは将来のモデリングの中核的な側面として、そして差別化要因として推論に言及されましたが、今日のモデルでの幻覚について、私たちが分析している方法は...私の理解が正しければ、モデルが幻覚を起こしているかどうかを分析するために統計的分析を使用しています。将来的には、推論能力を持つモデルは自己修正できるようになり、それが将来のモデルの中核的な機能になると思われますか?つまり、モデルが推論し、幻覚が発生していることを理解できるようになれば、幻覚は少なくなるのではないでしょうか?
イリヤ: はい、その通りです。あなたが描写したことは非常に可能性が高いと思います。今日の初期の推論モデルでも既に起こっているかもしれません。私にはわかりませんが、長期的には、なぜそうならないのでしょうか?それはMicrosoft Wordの自動修正のような...それは中核的な機能です。
ただし、これを自動修正と呼ぶのは本当に不適切だと思います。あなたが自動修正と言うとき、それは自動修正よりもはるかに壮大なものを想起させますが、この点を除けば、答えはイエスです。
質問者: イリヤ、最後の部分が神秘的で素晴らしかったです。彼らは私たちに取って代わるのか、彼らは優れているのか、彼らには権利が必要なのか...新しい種のホモ・サピエンスが生み出した知能なので...強化学習の専門家は、これらのものに権利が必要だと考えているようですね。私の質問は、人類がホモ・サピエンスとして持っている自由を与えるような方法でそれを作り出すための適切なインセンティブメカニズムをどのように作り出すのかということです。
イリヤ: ある意味で、それらは人々がもっと考えるべき種類の質問だと思います。しかし、どのようなインセンティブ構造を作るべきかという質問については、私にはわかりません。このような質問に確信を持って答えることができません。なぜなら、あなたは何かトップダウンの構造や政府のようなものを作ることについて話していますが、私にはわかりません。
質問者: 暗号通貨かもしれませんね。ビットテンソルなどがありますよね。
イリヤ: 暗号通貨についてコメントする適任者とは思えませんが、あなたが描写していることが起こる可能性はあります。実際、私たちと共存し、権利を持ちたいだけのAIがいるという結果は、悪くない結末かもしれません。それでうまくいくかもしれません。しかし、私にはわかりません。物事は信じられないほど予測不可能だと思います。コメントするのを躊躇しますが、そのような推測は奨励します。
質問者: こんにちは、素晴らしい講演をありがとうございます。私はトロント大学でシェイラと働いているシャレブ・リートです。あなたの仕事に感謝します。質問ですが、LLMは多段階推論を分布外に一般化できると思いますか?
イリヤ: その質問はYesかNoで答えられることを前提としていますが、そうではありません。分布外一般化とは何を意味するのでしょうか?分布内と分布外の意味は何でしょうか?
これは10年を振り返る講演なので、こう言わせていただきます。ずっと昔、人々が深層学習を使用する前は、機械翻訳に文字列マッチングやn-gramを使用していました。統計的フレーズテーブルを使用していたのです。数万行のコードの複雑さを想像できますか?本当に理解しがたいものでした。
当時、一般化とは、文字通りデータセット内と同じフレーズではないということを意味していました。今では、「私のモデルは数学のコンペティションで高いスコアを達成しました」と言うかもしれません。しかし、おそらくインターネット上のフォーラムで同じアイデアについての議論があり、それを記憶していたのかもしれません。
それは分布内かもしれませんし、記憶化かもしれません。しかし、一般化とみなされるものの基準は、本当に大幅に、劇的に、想像もできないほど上がってきたと思います。
したがって、答えは、人間ほど上手くはないということです。人間の方がはるかに良く一般化できることは事実です。しかし同時に、彼らは確実にある程度は分布外に一般化しています。これが有用な位相的な答えになることを願っています。
司会者: 残念ながら、このセッションの時間が来てしまいました。まだ6時間は続けられそうな気がしますが...イリヤ、素晴らしい講演をありがとうございました。