イリヤ・サツケバーが配列学習に関する講義中に自己認識について指摘
5,158 文字
主催者の皆様には、この論文を賞に選んでいただき感謝申し上げます。また、素晴らしい共著者であり協力者でもあるオリアル・ヴィニールとクールにも感謝します。彼らは先ほどまでここに立っていました。ここにあるのは、10年前の2014年にモントリオールで開催されたニューピーズでの同様の講演からのスクリーンショットです。あの頃はもっと純粋な時代でした。写真に写っているのが「ビフォー」で、こちらが「アフター」です。経験を積んで、より賢明になっていることを願っています。
この研究自体について、そして10年間を振り返って少しお話ししたいと思います。この研究には正しかった点が多くありましたが、そうでない点もありました。それらを振り返り、今日に至るまでの経緯を見ていきましょう。
まず、私たちが行ったことについて説明します。10年前の同じ講演のスライドを見せながら進めていきますが、要約すると以下の3つのポイントになります。テキストで訓練された自己回帰モデル、大規模なニューラルネットワーク、そして大規模なデータセット、これだけです。
もう少し詳しく掘り下げてみましょう。これは10年前のスライドですが、悪くありません。深層学習の仮説について、こう述べています。10層の大規模なニューラルネットワークがあれば、人間が一瞬でできることは何でもできる、と。なぜ人間が一瞬でできることに特にこだわったのでしょうか?
深層学習の教義を信じるなら、人工ニューロンと生物学的ニューロンは似ているか、少なくともそれほど違わないと考え、実際のニューロンは遅いと信じるならば、私たち、つまり人間が素早くできることは何でも、世界中のたった一人の人間でもできることなら、10層のニューラルネットワークでもできるはずです。接続を取り出して人工のニューラルネットに組み込めばいいのです。
これが動機でした。人間が一瞬でできることなら、大きな10層のネットワークでもできる、と。当時、訓練できるのは10層のニューラルネットワークだけだったので、それに焦点を当てました。もし10層以上できれば、もっと多くのことができたでしょうが、当時は10層が限界だったため、人間が一瞬でできることを強調しました。
講演から別のスライドを見てみましょう。「我々の主なアイデア」というスライドです。ここでは少なくとも一つ、自己回帰的な何かが起きているのがわかるでしょう。このスライドが本当に言っているのは何でしょうか?自己回帰モデルがあり、次のトークンを十分うまく予測できれば、次に来る配列の正しい分布を捉え、把握できるということです。
これは比較的新しいことでした。文字通り初めての自己回帰ニューラルネットワークというわけではありませんが、十分に訓練すれば望むものが得られると本当に信じた最初の自己回帰ニューラルネットワークだったと言えるでしょう。当時は翻訳という、今では控えめな、しかし当時は途方もなく野心的なタスクでした。
多くの方々が見たことがないかもしれない古代の歴史をお見せしましょう。LSTMと呼ばれるものです。LSTMは、トランスフォーマー以前の貧しい深層学習研究者たちが使っていたもので、基本的には90度回転させたResNetです。これがLSTMで、これは以前のものです。少し複雑なResNetのようなものですね。積分器があり、今では残差ストリームと呼ばれていますが、いくつかの乗算が行われています。少し複雑ですが、これが私たちがやったことです。90度回転させたResNetでした。
その古い講演からもう一つ強調したい特徴は、並列化を使用したことです。しかも、単なる並列化ではなく、このGPU1枚あたり1層というパイプライニングを使用しました。パイプライニングは賢明だったでしょうか?今では、パイプライニングは賢明ではないことがわかっています。しかし、当時はそれほど賢明ではありませんでした。そこで使用し、8個のGPUで3.5倍の速度向上を達成しました。
ある意味で、当時の講演の結論スライドが最も重要なスライドです。なぜなら、スケーリング仮説の始まりと言えるものを示していたからです。非常に大きなデータセットと非常に大きなニューラルネットワークを訓練すれば、成功は保証されるというものです。寛容に解釈すれば、これが実際に起こってきたことだと主張できます。
もう一つのアイデアについて言及したいと思います。これは時の試練に本当に耐えてきたアイデアだと主張します。深層学習自体の核心的なアイデア、結合主義のアイデアです。人工ニューロンが生物学的ニューロンと多少なりとも似ているという信念を持つことができれば、それは非常に大規模なニューラルネットワークが、必ずしも人間の脳の規模である必要はなく、少し小さくても構いませんが、私たち人間がやっているほとんどすべてのことを行うように設定できるという確信を与えてくれます。
まだ違いはあります。人間の脳は自身を再構成する方法も見つけ出すのに対し、私たちは、パラメータと同じ数のデータポイントを必要とする既存の学習アルゴリズムを使用しています。この点で人間の方がまだ優れています。しかし、これは事前学習の時代へとつながりました。事前学習の時代とは、GPT-2モデル、GPT-3モデル、スケーリング法則と呼べるものです。
特に、私の元共同研究者であるアレック・ラドフォード、そしてジャレッド・カプラン、ダリオ・モーデがこれを実現させたことを強調したいと思います。これが事前学習の時代につながり、今日見られるすべての進歩の原動力となっています。巨大なデータセットで訓練された超大規模なニューラルネットワーク、非常に大規模なニューラルネットワークです。
しかし、私たちが知っている事前学習は間違いなく終わります。訓練は終わります。なぜ終わるのでしょうか?より良いハードウェア、より良いアルゴリズム、大規模クラスターを通じてコンピュータは成長し続け、計算能力を増加させ続けていますが、データは増加していません。なぜなら、私たちにはたった一つのインターネットしかないからです。
データはAIの化石燃料のようなものだと言えるでしょう。何らかの形で作られ、今それを使用していますが、データのピークに達し、これ以上増えることはありません。今あるデータで対処していかなければなりません。まだかなり先まで進むことはできますが、インターネットはたった一つしかないのです。
ここで次に何が来るか少し推測させていただきます。実際、推測する必要もありません。多くの人々が推測していて、私はそれらの推測について言及します。「エージェント」という言葉を聞いたことがあるかもしれません。それは一般的で、最終的には何かが起こるでしょう。人々はエージェントが未来だと感じています。
より具体的ですが、やや漠然としているのが合成データです。しかし、合成データとは何を意味するのでしょうか?これを解明することは大きな課題で、さまざまな人々が興味深い進展を遂げているはずです。推論時の計算、あるいは最近最も鮮明に見られたo1モデルでの例など、これらはすべて事前学習後に何をすべきかを人々が模索している例です。
生物学からもう一つ面白い例を挙げたいと思います。多年前、この会議でも、ある講演を見ました。そこで示されたグラフは、哺乳類の体の大きさと脳の大きさの関係を示すものでした。この場合は質量で表されています。その講演で鮮明に覚えているのは、生物学ではすべてが非常に複雑だが、動物の体の大きさと脳の大きさの間にはとても密接な関係があるという珍しい例だと言っていたことです。
全く偶然にこのグラフに興味を持ち、Googleで研究をしてこのグラフを探していたところ、Google画像検索で見つかった画像の一つがこれでした。この画像で興味深いのは、マウスは動いていますね、素晴らしい。ここに哺乳類があり、すべての異なる哺乳類、そして非人類霊長類がいて、基本的に同じですが、そしてホミニドがいます。
私の知る限り、ホミニドは人類の進化における近縁種です。ネアンデルタール人や、ホモ・ハビリスなど、たくさんいます。彼らはすべてここにいて、興味深いのは、彼らの脳と体のスケーリング指数の傾きが異なることです。これはとても興味深いことです。生物学が何か異なるスケーリングを見出した前例があるということです。明らかに何かが異なっています。
ちなみに、このX軸は対数スケールであることを強調したいと思います。100、1,000、10,000、100,000、同様にグラムで1g、10g、100g、1,000gとなっています。つまり、物事が異なることは可能なのです。私たちがやってきたこと、これまでスケールしてきたことは、実際には私たちがスケールする方法を見出した最初のものに過ぎません。
疑いの余地なく、この分野で働く全ての人々が何をすべきかを見出すでしょう。ここで数分時間を取って、より長期的な展望について推測してみたいと思います。私たちはどこに向かっているのでしょうか?すべてが進歩しており、それは驚くべき進歩です。
10年前からこの分野にいる人々は、すべてがいかに無能だったかを覚えているでしょう。深層学習について「もちろん」と言えるとしても、それを実際に見るのは信じられないほどです。完全に言葉では表現できない感覚です。もし過去2年の間にこの分野に参入したのなら、もちろんコンピュータと会話し、コンピュータは返答し、意見を述べ、それがコンピュータなのです。しかし、それは常にそうだったわけではありません。
しかし、超知能について少し話したいと思います。なぜなら、それがこの分野が向かっている先であり、ここで構築されているものは明らかにそれだからです。超知能について重要なのは、それが現在のものとは質的に異なるということです。次の1分で、それがどのように異なるのかについて、具体的な直感を皆さんに提供し、自分自身で考えられるようにすることが私の目標です。
現在、私たちには素晴らしい言語モデルがあり、信じられないようなチャットボットがあり、いろいろなことができます。しかし、奇妙なことに信頼性に欠け、評価では劇的に超人的な性能を示す一方で、混乱することもあります。これをどう調和させるかは本当に不明確です。
しかし、早かれ遅かれ、以下のことが実現されるでしょう。これらのシステムは実際に意味のある方法でエージェント的になります。現在のシステムは意味のある意味でエージェントではありません。これは言い過ぎかもしれません。非常に、非常にわずかにエージェント的で、始まったばかりです。
実際に推論を行うようになり、ちなみに推論について言及したいのは、推論するシステムは、推論すればするほど予測不可能になるということです。より多く推論すればするほど、より予測不可能になります。私たちが慣れ親しんできた深層学習はすべて非常に予測可能でした。なぜなら、基本的に人間の直感を複製することに取り組んできたからです。
0.1秒の反応時間に立ち返ると、私たちの脳内でどのような処理を行っているのでしょうか?それは私たちの直感です。私たちはAIにその直感の一部を与えてきました。しかし、推論は、その初期の兆候が見られますが、予測不可能です。それを見る一つの理由は、チェスのAIが最高の人間のチェスプレイヤーにとって予測不可能だからです。つまり、私たちは信じられないほど予測不可能なAIシステムに対処しなければならなくなります。
彼らは限られたデータから物事を理解し、混乱することはありません。これらはすべて本当に大きな制限です。ちなみに、私は「どのように」とも「いつ」とも言っていません。それが起こるだろうと言っているのです。
そして、自己認識とともに、これらすべてのことが起こります。なぜなら、自己認識は有用だからです。私たち自身は自分たちの世界モデルの一部なのです。これらすべてのことが一緒になったとき、私たちは今日存在するものとは根本的に異なる性質と特性を持つシステムを手にすることになります。
もちろん、彼らは信じられないほど素晴らしい能力を持つことでしょう。しかし、このようなシステムで生じる問題の種類は、それを想像することは練習として残しておきますが、私たちが慣れ親しんできたものとは全く異なります。
将来を予測することは確実に不可能だと言えます。本当にあらゆる種類のことが可能です。しかし、この明るい展望でまとめたいと思います。
ありがとうございました。