見出し画像

イリヤ・サツケバー「超知能は自己認識があり、予測不可能で、高度にエージェント性を持つ」| NeurIPS 2024

8,521 文字

ご存知の通り、イリヤ・サツケバーはOpenAIを去り、現在は彼の新しい会社セーフ・スーパーインテリジェンス(SSI)を立ち上げています。彼が言うところの初の直接的なSSIラボです。多くの投資家が非常に興奮しており、この使命を追求するために10億ドル以上を調達しました。
2014年、イリヤとGoogleの他の2人のAI研究者は「Sequence to Sequence Learning with Neural Networks」という論文を書きました。かなり前のことですが、この論文は時の試練に耐えました。それは非常に優れていたため、ニューラル情報処理システム会議で賞を受賞しました。ニューラルズと発音する人もいれば、NIPSと言う人もいますが、いずれにせよニューラルズ2024テスト・オブ・タイム論文賞です。これが彼の論文で、論文が発表されてからちょうど10年後の2024年12月に、現在の状況をどのように見ているかについて少し話すよう招待されました。
彼はAIの進歩を潜在的に遅らせる可能性のある気がかりな点をいくつか挙げ、また来たるべき超知能について興味深い発言をしています。その中には、超知能は自己認識を持つことになるという言及も含まれています。
彼のスピーチの映像はなく、スライドショーと彼の講演音声だけです。私はこれを聴きながらPath of Exileをプレイしていました。気にしないでください。
主催者の皆様、この論文を賞に選んでいただき、ありがとうございます。とても光栄です。また、素晴らしい共著者であり協力者であるオレル・ヴィニール、クーレにも感謝します。彼らは先ほどここに立っていました。
ここにあるのは、2014年にモントリオールで開催されたNeurIPSでの同様の講演からのスクリーンショットです。それはもっと純真な時代でした。写真に写っているのが私たちです。これがビフォーで、こちらがアフターです。今では経験を積み、hopefully賢くなりましたが、ここでは研究そのものについて、そして10年を振り返って少しお話ししたいと思います。この研究で正しかったことは多くありましたが、そうでないこともありました。それらを振り返り、今日に至るまでの穏やかな流れを見ていきましょう。
まず、私たちが行ったことについて説明しましょう。10年前の同じ講演のスライドを見せながら説明します。私たちが行ったことは、以下の3点に要約できます。テキストで学習した自己回帰モデル、大規模なニューラルネットワーク、そして大規模なデータセット、それだけです。
では、もう少し詳しく見ていきましょう。これは10年前のスライドです。悪くありません。ディープラーニングの仮説です。ここで私たちが述べたのは、10層の大規模なニューラルネットワークがあれば、人間が一瞬でできることは何でもできるということです。なぜ人間が一瞬でできることに重点を置いたのでしょうか?なぜこの特定の点に注目したのでしょうか?
ディープラーニングの教義、つまり人工ニューロンと生物学的ニューロンが似ている、あるいは少なくともあまり異なっていないと信じ、本物のニューロンは遅いと信じるなら、人間が素早くできることは何でも - ここで言う「人間」とは、世界中に一人の人間しかいないとしても、その一人の人間が一瞬でできることであれば - 10層のニューラルネットワークもできるはずです。理論的に導かれます。その接続を取り、人工のニューラルネットワークの中に埋め込むだけです。
これが動機でした。人間が一瞬でできることは、大規模な10層のニューラルネットワークでもできるはずだと。当時、学習方法を知っていたのは10層のニューラルネットワークだけだったので、そこに焦点を当てました。もし何らかの方法でより多くの層を扱えれば、もっと多くのことができたでしょう。しかし当時は10層しかできなかったため、人間が一瞬でできることを強調したのです。
講演から別のスライドです。「私たちの主なアイデア」というスライドで、自己回帰的な何かが行われているのがわかるかもしれません。このスライドは実際に何を言っているのでしょうか?このスライドが言っているのは、自己回帰モデルがあり、次のトークンを十分によく予測できれば、実際に次に来る配列の正しい分布を把握し、捕捉し、理解するだろうということです。
これは比較的新しいことでした。文字通り初めての自己回帰ニューラルネットワークではありませんでしたが、十分に学習させれば望むものが得られると本当に信じた最初の自己回帰ニューラルネットワークだったと私は主張します。当時の私たちの場合、今では控えめに見える、しかし当時は非常に大胆だった翻訳というタスクでした。
多くの人が見たことがないかもしれない古代の歴史をお見せしましょう。LSTMと呼ばれるものです。LSTMは、トランスフォーマー以前の貧しいディープラーニング研究者たちが使っていたもので、基本的に90度回転させたResNetです。これがLSTMで、ResNetの前に登場しました。ResNetのやや複雑なバージョンのようなもので、インテグレーターが見えます。これは今では残差ストリームと呼ばれています。しかし、いくつかの乗算が行われており、少し複雑です。しかし、これが私たちがやったことです。90度回転させたResNetでした。
昔の講演からもう一つ強調したい特徴は、並列化を使用したことです。しかし、単なる並列化ではなく、このGPU1枚あたり1層という形でパイプライニングを使用しました。パイプライニングは賢明だったでしょうか?今では、パイプライニングは賢明ではないことがわかっています。しかし当時は賢明ではありませんでした。そこで私たちはそれを使用し、8個のGPUで3.5倍のスピードアップを達成しました。
ある意味で、当時の講演の結論のスライドが最も重要なスライドです。なぜなら、スケーリング仮説の始まりと言えるものを説明していたからです。非常に大きなデータセットがあり、非常に大きなニューラルネットワークを学習させれば、成功は保証されるということです。寛大に見れば、これが実際に起こってきたことだと言えるでしょう。
もう一つのアイデアについて言及したいと思います。これは本当に時の試練に耐えたアイデアだと私は主張します。ディープラーニング自体の核心的なアイデア、コネクショニズムのアイデアです。人工ニューロンが生物学的ニューロンと多少似ているという信念を持つことを許容すれば、つまり一方が他方と多少似ているという信念を持てば、非常に大きなニューラルネットワークは、必ずしも人間の脳の規模である必要はなく、少し小さくてもよいのですが、私たち人間ができることのほとんどすべてを行うように設定できるという確信が得られます。
まだ違いはあります。人間の脳は自身を再構成する方法も見出すのに対し、私たちはパラメータと同じ数のデータポイントを必要とする最高の学習アルゴリズムを使用しています。人間はこの点でまだ優れています。しかし、このことは事前学習の時代につながったと私は主張します。事前学習の時代とは、GPT-2モデル、GPT-3モデル、スケーリング則と言えるでしょう。特に、私の元協力者であるアレック・ラドフォード、そしてジャレッド・カプラン、ダリオ・モーデがこれを実現させたことを強調したいと思います。
これが事前学習の時代につながり、今日見られるすべての進歩の原動力となっています。巨大なデータセットで学習させた超大規模なニューラルネットワーク、特別に大規模なニューラルネットワークです。しかし、私たちが知っている事前学習は間違いなく終わりを迎えます。なぜ終わるのでしょうか?コンピュータは、より優れたハードウェア、より優れたアルゴリズム、より大規模なクラスターによって成長を続け、これらすべてが計算能力を向上させ続けていますが、データは成長していません。なぜなら、インターネットは一つしかないからです。
データはAIの化石燃料のようなものだと言えます。何らかの形で作られ、今私たちはそれを使用しています。そしてピークデータを迎え、これ以上増えることはありません。今あるデータで対処しなければなりません。それでもかなり先まで進めますが、インターネットは一つしかありません。
ここで、次に何が来るかについて少し推測する自由を取らせていただきます。実際、推測する必要はありません。多くの人が推測しているからです。その推測について言及しましょう。エージェントという言葉を聞いたことがあるかもしれません。それは一般的です。そして、最終的に何かが起こることは確実です。人々はエージェントが未来だと感じています。より具体的に、しかしやや漠然としているのが合成データです。しかし、合成データとは何を意味するのでしょうか?これを解明することは大きな課題です。そして、様々な人々が興味深い進展を遂げていることは確かです。
そして、推論時の計算、あるいは最近最も鮮やかに見られたo1モデルでの例など、これらはすべて事前学習後に何をすべきかを人々が模索している例です。そしてこれらはすべて非常に良いことです。
生物学からもう一つの例を挙げたいと思います。これは本当にクールだと思います。その例は以下の通りです。何年も前に、この会議でも誰かがこのグラフを発表する講演を見ました。そのグラフは哺乳類の体の大きさと脳の大きさの関係を示していました。この場合は質量で示されています。その講演を私は鮮明に覚えています。彼らは「生物学ではすべてが非常に乱雑ですが、ここには動物の体の大きさと脳の間に非常に密接な関係がある珍しい例があります」と言っていました。
全く偶然に、私はこのグラフに興味を持ち、Googleで研究をするためにこのグラフを探しました。そしてGoogle画像の一つがこれでした。この画像で興味深いのは、マウスは作動していますね、素晴らしい。ここには哺乳類があり、様々な哺乳類がいて、それから非人類霊長類がいます。基本的に同じものですが、そしてホミニドがいます。私の知る限り、ホミニドは人類の進化における近縁種、ネアンデルタール人のようなものです。ホモ・ハビリスなど、たくさんいて、それらがすべてここにいます。
興味深いのは、彼らの脳と体のスケーリング指数の傾きが異なることです。それはかなりクールです。それは生物学が何か異なるスケーリングを見出した先例があることを意味します。何かが明らかに異なっています。そして、ちなみにこのx軸は対数スケールであることを強調したいと思います。これが100で、これが1000で、10000で、100000です。同様にグラムでは、1グラム、10グラム、100グラム、1000グラムです。
物事が異なることは可能です。私たちがこれまでスケーリングしてきたこと、スケーリングする方法を見出した最初のことは、実際には最初のことです。そして間違いなく、この分野で働くすべての人々が何をすべきか理解するでしょう。
しかし、ここでは長期的な展望について少し推測してみたいと思います。私たちはすべて進歩していますが、それは驚くべき進歩です。10年前にこの分野にいた人々は、すべてがいかに無能だったかを覚えているでしょう。はい、もちろんディープラーニングについて言えますが、それを実際に目にするのは信じがたいことです。その感じを皆さんに伝えることはできません。もし過去2年間でこの分野に参加した人なら、もちろんコンピュータと会話し、コンピュータが応答し、意見を述べることは当たり前のことです。しかし、それは常にそうだったわけではありません。
しかし、少し超知能について話したいと思います。これは明らかにこの分野が向かっている先であり、明らかにここで構築されているものです。超知能について言えるのは、現在私たちが持っているものとは質的に異なるということです。次の1分で、それがどのように異なるのかについて具体的な直感を皆さんに提供し、自分自身でそれについて考えられるようにすることが私の目標です。
現在、私たちには信じられないような言語モデルがあり、素晴らしいチャットボットがあり、それらは物事を実行することさえできます。しかし、彼らは奇妙なほど信頼性がなく、評価で劇的に超人的な性能を示す一方で混乱することもあります。これをどう調和させるべきかは本当に不明確です。
しかし、いずれ遅かれ早かれ、以下のことが達成されるでしょう。これらのシステムは実際に意味のある形でエージェント性を持つようになります。現在のシステムは意味のある意味でエージェントではありません。これは言い過ぎかもしれませんが、非常に非常にわずかにエージェント性を持ち始めているだけです。
実際に推論を行うでしょう。そして推論について言及したいことがあります。推論するシステムは、推論すればするほど予測不可能になります。推論すればするほど、予測不可能になります。私たちがこれまで慣れ親しんできたディープラーニングはすべて非常に予測可能でした。なぜなら、基本的に人間の直感を再現することに取り組んできたからです。0.1秒の反応時間に戻ると、私たちの脳内でどのような処理を行っているのか、それは私たちの直感です。私たちはAIにその直感の一部を与えてきました。
しかし推論は、その初期の兆候が見られますが、予測不可能です。それを見る一つの理由は、本当に優れたチェスAIが最高の人間のチェスプレイヤーにとって予測不可能だということです。そのため、私たちは信じられないほど予測不可能なAIシステムに対処しなければならないでしょう。
彼らは限られたデータから物事を理解し、混乱することはありません。これらすべては本当に大きな制限です。ちなみに、私はどのようにしてそれを実現するかは言っていませんし、いつそうなるかも言っていません。それが起こるだろうと言っているだけです。そして、自己認識とともにそれらのことがすべて起こるでしょう。なぜなら、自己認識は有用だからです。それは私たち自身の世界モデルの一部です。
これらすべてのことが一緒に起こるとき、私たちは今日存在するものとは根本的に異なる性質と特性を持つシステムを持つことになります。そしてもちろん、彼らは信じられないような素晴らしい能力を持つでしょう。しかし、このようなシステムで生じる問題の種類は、私たちが慣れているものとは非常に異なります。そして、それを想像することは演習として残しておきます。将来を予測することは本当に不可能です。あらゆる種類のことが可能です。しかし、この明るい調子で締めくくりたいと思います。ありがとうございました。
質問者:2024年現在、人間の認知の一部である他の生物学的構造で、同様の方法で探求する価値があると思われるもの、あるいはとにかく興味を持っているものはありますか?
イリヤ:この質問への答え方ですが、もし誰かが「私たちは皆非常に愚かだ。なぜなら、明らかに脳は何かをしているのに、私たちはそれをしていない。そしてそれは実行可能なことだ」という特定の洞察を持っているなら、その人はそれを追求すべきです。私個人的には...抽象化のレベルによりますが、こう答えましょう。生物学的に着想を得たAIを作ろうとする多くの試みがありました。そしてある意味で、生物学的に着想を得たAIは信じられないほど成功したと言えます。それがすべてのディープラーニングです。しかし一方で、生物学的な着想は非常に非常に非常に控えめでした。「ニューロンを使おう」というのが生物学的着想の全範囲でした。より詳細な生物学的着想を得ることは非常に難しかったのです。しかし、それを排除はしません。誰かが特別な洞察を持っているなら、何かを見出し、それが有用となる可能性があります。
質問者:自己修正についての質問があります。あなたは推論が将来のモデリングの中核的な側面の一つになるかもしれないと言及されましたが、今日のモデルでの幻覚について、私たちが分析している方法は...私の理解が正しいかどうか、あなたが専門家なので訂正していただきたいのですが、モデルが幻覚を起こしているかどうかを分析するために、モデルが推論できないことの危険性を知っているため、統計的な分析、例えば平均からの標準偏差などを使用しています。将来的には、モデルが推論を与えられることで、自己修正できるようになり、それが将来のモデルの中核的な特徴となると思われますか?つまり、モデルが推論し、幻覚が起きていることを認識できるようになるため、幻覚が少なくなるということです。質問が抽象的すぎるかもしれませんが。
イリヤ:はい、そして答えも同じくはいです。あなたが描写したことは非常に可能性が高いと思います。確認すべきですが...今日の初期の推論モデルでもすでに起きているかもしれません。私にはわかりません。しかし長期的には、なぜそうならないでしょうか?そう、それはマイクロソフトワードの自動修正のような...それは中核的な機能ですよね。
ただし、それを自動修正と呼ぶのは本当に不適切だと思います。自動修正という言葉を使うと...それは自動修正よりもはるかに壮大なものですが、その点を除けば、答えはイエスです。
質問者:イリヤ、最後の部分が神秘的に終わったのが素晴らしかったです。彼らが私たちに取って代わるのか、彼らは優れているのか、権利が必要なのか...知的に生まれた新しいホモ・サピエンスの種なので、権利が必要かもしれない...強化学習の研究者は、これらのものに権利が必要だと考えているようですが。
それとは無関係な質問があります。人類が実際にホモ・サピエンスとして持っている自由を与えるような方法でAIを作り出すための適切なインセンティブメカニズムをどのように作り出すのでしょうか?
イリヤ:ある意味で、それらは人々がもっと考えるべき種類の質問だと思います。しかし、どのようなインセンティブ構造を作るべきかという質問については、私にはわかりません。このような質問に自信を持って答えることはできません。なぜなら...あなたは何か上からの構造、政府のようなものを作ることについて話していますが...
質問者:暗号通貨かもしれません。ビットテンサーなどがあります...
イリヤ:暗号通貨についてコメントするのに適切な人物だとは感じません。しかし、あなたが描写していることが起こる可能性はあります。確かに、ある意味では、それは悪い結果ではないかもしれません。AIがあり、彼らが望むのは私たちと共存し、権利を持つことだけだとすれば、それは良いかもしれません。しかし、私にはわかりません。物事は信じられないほど予測不可能だと思います。コメントするのを躊躇しますが、推測は奨励します。
質問者:トロント大学のシャレフ・リートです。シーラと一緒に研究しています。あなたの仕事に感謝します。LLMは分布外の多段階推論を一般化できると思いますか?
イリヤ:さて、質問はイエスかノーで答えられることを前提としていますが、イエスかノーで答えるべきではありません。なぜなら、分布外の一般化とは何を意味するのでしょうか?分布内とは何を意味し、分布外とは何を意味するのでしょうか?
これは時の試練の話なので、ずっと昔、人々がディープラーニングを使用する前は、機械翻訳に文字列マッチングやn-gramを使用していたことを言及しましょう。人々は統計的なフレーズテーブルを使用していました。想像できますか?数万行のコードの複雑さを持っていて、それは本当に理解し難いものでした。当時、一般化とは、文字通りデータセット内の同じフレーズではないということを意味していました。
今では、私たちは「確かに、私のモデルは数学のコンペティションで高いスコアを達成しています。しかし、おそらくインターネット上のフォーラムで同じアイデアについての議論があり、それゆえに記憶しているのかもしれない」と言うかもしれません。まあ、それは分布内かもしれませんし、記憶化かもしれません。しかし、一般化とみなされるものの基準は、本当に、かなり実質的に、想像もできないほど上がってきたと思います。
そのため、答えとしては、ある程度まではおそらく人間ほど上手くはありません。人間の方がはるかに良く一般化することは確かだと思います。しかし同時に、彼らは確実にある程度は分布外に一般化します。これがトポロジカルな答えとして役立てば幸いです。
司会者:残念ながら、このセッションの時間が来てしまいました。あと6時間は続けられそうな気がしますが...イリヤ、素晴らしい講演をありがとうございました。

いいなと思ったら応援しよう!