
AIレクチャーシリーズ:『機械はいかにして人間レベルの知能に到達しうるか?』by ヤン・ルカン
30,189 文字
みなさん、ようこそ。AIの特別講演シリーズにお越しいただきありがとうございます。私はビシャル・ミシュラです。コロンビア工学部のコンピューティングとAI担当の副学部長を務めております。これは我々のシリーズの2回目の講演になります。かなりの人数にお集まりいただいているようです。まだ人が入ってきているところですが、始める前に、シーフー・チャン学部長から開会の挨拶をお願いしたいと思います。
みなさん、おはようございます。今日は本当にワクワクしております。今回初めて会場があふれるほどの盛況ぶりを目の当たりにしました。このトピックと講演者に対する関心の高さを示すものですね。まず、ビシャルと彼のチームに、今学期そして今年を通じてAIレクチャーシリーズを企画してくれたことに感謝いたします。また、今日の催しをサポートしに来てくださったキャトリーナ・アームストロング学長にもお礼を申し上げます。
ビシャルが申し上げた通り、これは全学を挙げてのAIレクチャーシリーズの2回目となります。これは、アームストロング学長が主導する大学全体のAIイニシアチブの優先事項の一つに関連するものです。先月、我々は教授陣のPeer Gentianを招いて、AIが様々な分野にどのような影響を与えうるかについて語っていただき、このレクチャーシリーズを開始しました。前回は「AIと気候予測」をテーマとしました。
そして本日は、ヤン・ルカン博士をお招きして、彼のビジョンと洞察を非常に刺激的なトピックについて共有していただけることを大変嬉しく思います。タイトルはご覧の通りです。私は以前からCVPRやICMLなどでヤンの講演を何度も拝聴してきましたが、今日のトピックは特に興味深いものです。
ご覧の通り、会場は溢れんばかりの聴衆で埋まっています。このイベントは告知から3分で満席になるほどの人気でした。皆さんは運の良い方々ですね。このレクチャーシリーズは、AIと大学に関する取り組みの一つです。我々は本日の講演でカバーされる基礎分野での進展を追求すると同時に、コロンビア大学の17の学部全てと協力して、気候、ビジネス、金融、政策、ジャーナリズムなど様々な分野への影響も追求しています。
我々は産業界やコミュニティと協力して、AIと金融、AIと気候、AIとスポーツ、AIと政策に関するセンターを設立しています。また、人文学や音楽、哲学の文脈でAIを教える「コンテキストにおけるAI」といった新しいコースも開設しました。
本日のトピック「機械はいかにして人間レベルの知能に到達しうるか?」 - このタイトルを見ただけでもワクワクしてしまいます。それでは、これ以上お時間を取らずに、AI・コンピューティング担当副学部長のミシェルに、本日の講演者であるヤン・ルカンの紹介をお願いしたいと思います。ミシェル、お願いします。
ありがとう、シーフー。ヤンは紹介するまでもない方ですが、彼を少し困らせる意味も込めて、簡単な紹介をさせていただきます。
多くの方には意外かもしれませんが、これは事実で、彼のアクセントからは想像もつかないでしょうが、ヤンはフランス人です。1987年にソルボンヌ大学で博士号を取得しました。彼の博士論文では、バックプロパゲーションの初期の形を提案しました。バックプロパゲーションは現在、全てのニューラルネットワークのトレーニングに使用されている手法ですが、それは彼の博士論文から始まったのです。
1988年にベル研究所に入所する前に、ジェフ・ヒントンのもとでポスドクとして数ヶ月から1年ほど研究を行いました。そして翌年、彼は手書き認識システムで世界を驚かせました。そのビデオもお見せしますが、当時としては信じられないほどの成果でした。そこに映っているヤンは今とは少し違って見えますね。
その後、AIとニューラルネットの長い冬の時代が来ました。ヤンは1996年にAT&T研究所に移りましたが、決して諦めませんでした。手書き認識システムで使用した畳み込みニューラルネットワーク(CNN)の研究を続けました。2012年頃にディープラーニング革命が起こり、今やCNNは至る所で使われています。友人のイーロン・マスクの自動車や、グーグルフォトなど、誰もがCNNを使用しています。
2013年、ヤンはMetaのAIラボのディレクターとして入社し、現在は主席科学者を務めています。2018年には、ジェフ・ヒントンとヨシュア・ベンジオと共に、ディープラーニングと人工知能への貢献によってチューリング賞を受賞しました。実は、ジェフは昨日キャンパスにいて、学生たちと自撮りを撮っていたんですよ。彼も今日ここにいたかったのですが、急用ができて残念ながら来られませんでした。
先ほど申し上げた通り、ヤンは2018年にチューリング賞を受賞しましたが、これは物理学や化学のノーベル賞として知られているものではなく、コンピュータサイエンスのオリジナルな賞です。彼も自撮りが好きみたいですね。私もその日彼と自撮りを撮りました。
それでは、ヤンに人間レベルの知能についてお話しいただきましょう。
素晴らしいご紹介をありがとうございます。ここで講演できることを大変嬉しく思います。ここに来るのに良かったのは、飛行機に乗る必要がなかったことですね。もっとも、ダウンタウンの人々に聞けば、23丁目より上には滅多に行かないと言うでしょうが。
ここ3年半ほど、フランス語なまりを消すために本当に一生懸命努力してきました。でも最近、フランス語なまりで英語を話すと、人々は20ポイントほどIQを上乗せして評価してくれることを知りました。申し訳ありません。だから、もしかしたら強いフランス語なまりで話して、より賢く見せた方がいいのかもしれませんね。
賢く見えるべきなのは機械の方です。そして実際、機械は賢く見えます。多くの人々は、それが何を意味するにせよ、機械に実際より遥かに高いIQを与えています。我々は機械で人間の知能や人間レベルの知能に到達するには程遠い状況です。AGI(人工汎用知能)と呼ばれるものですが、私はその用語が嫌いで、それと戦おうとしてきました。
理由は、機械が人間の知能に到達することが不可能だからではありません。もちろん可能です。いつかは、人間が知的である全ての領域で人間と同じくらい知的な機械を持つことになるでしょう。それを超えることもあるでしょう。しかし、人間の知能は全く汎用的ではないのです。我々は非常に特化した動物です。我々が想像できる、あるいは考えられる問題は全て、我々が想像できる、考えられる問題であるため、我々は自分たちが特化していることを想像するのが難しいのです。しかし、我々が最も野心的な夢の中でさえ想像できない問題が数多く存在します。
そのため、我々は汎用的に知的に見えるのです。しかし、そうではありません。我々は特化しているのです。だから、人工汎用知能という用語は捨てるべきです。私は人間レベルの知能という用語の方が好みです。あるいは、Meta内部で採用している暗号名のAMI(Advanced Machine Intelligence:先進的機械知能)の方がより緩やかな表現です。AMIと発音すると、フランス語で「友達」という意味になるのも良いですね。
さて、どうすれば機械で人間レベルの知能に到達できるのでしょうか? 学習でき、記憶でき、物理世界を理解し、常識を持ち、計画を立て、推論でき、適切に振る舞い、制御不能や危険な状態にならない機械です。
最初に問うべき質問は、なぜそれを作りたいのか、ということです。明らかに、知能とは何かという大きな科学的な問いがあります。そして、知能に関する理論を検証する最良の方法は、それを実装した人工物を作ることです。これは科学に対するかなりエンジニアリング的なアプローチと言えるでしょう。
しかし、もう一つ良い理由があります。人間の知能を増幅するために、人間レベルの知能が必要だということです。常にAIアシスタントと一緒に行動し、どんな質問にも答えてもらえ、日常生活を助けてもらい、問題を解決してもらえる未来が来るでしょう。これは、15世紀に印刷機が人間の知能を増幅したのと同じように、人間の知能を増幅するかもしれません。
人類にとってこれが必要なのです。実は今、私はスマートグラスをかけています。質問を投げかけることができ、MetaのAI、つまりみなさんもご存知のLLaMA 3の製品版を通じて応答が返ってきます。様々なことを尋ねることができます。マイクは使わずに試してみましょう。
「ヘイ、メタ。写真を撮って。」
小さなライトが光るのが見えましたか? はい、みなさんの写真を撮りました。すぐにソーシャルネットワークに載るでしょうね。
もちろん、もっと複雑な質問もできます。このデバイスはカメラを通じて認識もできるので、「これは何?」「この植物は何という種類?」といった質問もできます。日本語のメニューを見れば、翻訳してくれます。
このようなアシスタントが登場しつつあります。まだかなり愚かですが、すでに役立っています。しかし、10年後、20年後には、本当に賢くなって日常生活を支援してくれるようになるでしょう。
そのためにはこれらのシステムが人間レベルの知能を持つ必要があります。なぜなら、それが我々にとって最も扱いやすい方法だからです。つまり、一方では知能とは何かという非常に興味深い科学的な問いがあり、中間には知的な機械を作るという技術的な課題があり、そして他方では、それが実際に人々や人類全般にとって有用だということがあるのです。
そして、より重要な条件は、これを実現するために多くのリソースを投資してくれる人々がいるということです。
我々が求める機械の特徴は、物理世界を理解できることです。現在のAIシステムは物理世界を理解していません。あなたの飼い猫ほどにも物理世界を理解していないのです。私は「AIは猫より愚かだ」と言ってきましたが、新聞はこういった見出しが好きですね。そして、これは実際その通りなのです。
我々には永続的な記憶を持つAIシステムが必要です。複雑な行動を計画できる必要があります。現在のシステムでは全く不可能なランダムなシーケンスを実行できる必要があります。推論できる必要があります。そして、制御可能で安全である必要があります。
基本的に、現在のように微調整によってではなく、設計によってこれらを実現する必要があります。そのためには、現在のAIシステムが基づいているものとは異なる新しい原理が本質的に必要です。
現在のシステムの大部分は、ニューラルネットの層を通じて信号を伝播させることで推論を行います。私はもちろんその大ファンですが、非常に限定的です。ニューラルネットの層を通じたフィードフォワード伝播で効率的に表現できる入出力関数は限られています。
推論にはもっと一般的なアプローチがあります。それは、単に層を通じてフィードフォワードで実行するのではなく、最適化に基づいています。基本的に、最適化があり、観察があり、システムに出力の提案を与えると、システムはその出力が観察とどの程度適合するかを教えてくれます。
例えば、象の写真を見せ、「象」というラベルやテキストの表現を入れると、システムは「はい、これら二つは適合している。『象』は、この画像に適したラベルです」と答えます。テーブルの写真を入れると、「いいえ、これは適合していません」と言います。
つまり、入力と出力の適合性を測定するシステムがあれば、最適化と探索を通じて、入力と最も適合する出力を見つけることができます。これは、単に層を通じてフィードフォワードで実行するよりも本質的により強力な推論メカニズムです。なぜなら、基本的にどんな計算問題も最適化問題に還元できるからです。
これが、将来のAIシステムが構築されるべき基本原理です。層を通じた伝播ではなく、入力と最も適合する答えを最適化することです。もちろん、これにはディープラーニングシステムやバックプロパゲーションなども含まれますが、推論のメカニズムは非常に異なります。
これは決して新しいアイデアではありません。この種の推論は確率的推論では非常に標準的です。例えば、グラフィカルモデルやベイジアンネットワークがあり、特定の変数の値を知っている場合、負の対数尤度やエネルギー関数などを最小化することで、他の変数の値を推論することができます。
これは非常に標準的なことで、革新的なものは何もありません。しかし、人々はこれがフィードフォワード伝播よりもはるかに強力だという事実を忘れてしまっています。私が好む説明の枠組みはエネルギーベースモデルと呼ばれています。
基本的に、xとyの適合性を測定する関数、つまり入力と出力の適合性を測定する関数は、エネルギー関数です。入力と出力が適合する場合は低い値を取り、そうでない場合はより高い値を取る関数です。
出力を見つけるために行われる推論には、いくつかの異なる方法があり得ます。出力や出力の表現が連続的で、システム内のモジュールや目的関数が全て微分可能な場合、勾配ベースの最適化を使用して良い答えを見つけることができます。
出力が離散的で組み合わせ的な場合は、最適な出力を見つけるために他の種類の組み合わせ最適化アルゴリズムを使用する必要があります。その場合は、私の兄弟に聞くべきでしょう。彼はグーグルで働いています。完璧な人はいませんからね。でも彼は良い人です。組み合わせ最適化の専門家として働いています。
この種の推論は、AIシステムにゼロショット学習能力を与えます。これはどういう意味でしょうか? 問題が与えられ、それを最適化問題として定式化できれば、システムは何も新しく学習することなく解を得ることができます。これがゼロショットです。
例えば学生であるみなさんは、新しい数学の問題が与えられたとき、何も新しいことを学習せずに考えて解くことができますよね? これがゼロショット能力と呼ばれるものです。心理学者の中には、これをシステム2と呼ぶ人もいます。
基本的に、問題を解くために全ての注意と意識を集中させ、考え抜いて、解を見つけるまでに時間がかかるかもしれません。これがシステム2です。システム1は反応的に行動する場合で、考える必要がなく、一種の潜在意識的、自動的なものになっています。
経験豊富なドライバーなら、高速道路を運転しながら考える必要はありません。自動的になっており、誰かと会話をしながらでも運転できます。しかし、初心者の場合、初めて車を運転する場合は、細心の注意を払います。システム2を使用して、精神的な能力を全て使い果たします。
だからこそ、このモデルを採用する必要があり、理論レベルでこれを理解する方法として、エネルギーベースモデルの枠組みが適しています。ここでは理論の詳細には立ち入りません。聴衆が多様なので。
しかし基本的なアイデアは、二つの変数XとYがあり、ここではスカラーですが、高次元の入力を想像することもできます。エネルギー関数は、XとYの適合するペアが低いエネルギー、つまり低い高度を持ち、適合しないペアがより高いエネルギーを持つような一種の地形です。
従って、学習の目的は、エネルギーベースモデルが適合することを示すことです。観察された訓練データ、つまり観察されたxとyのペアに低いエネルギーを与え、他の全てにより高いエネルギーを与えるようにエネルギー表面を形作ることです。
最初の部分は超簡単です。勾配降下法を知っているからです。適合すると分かっているx,yのペアを与え、システムが生成するスカラー出力、つまりエネルギーが下がるようにシステムを調整します。大きなニューラルネット内のパラメータを調整して、出力を下げることができます。簡単です。
難しいのは、訓練サンプル以外のエネルギーが確実に高くなるようにすることです。この図では、訓練サンプルは黒い点で表されています。ある意味で、機械学習の文献の多くはこの問題に向けられています。私が今説明したような形では定式化されていませんが、確率的な枠組みです。例えば、訓練データ以外のものについてエネルギーを高くすることは主要な課題です。そして通常、扱いづらい数学的な問題に遭遇します。
ここは一旦飛ばしましょう。さて、ここ2、3年のAIの大きな流行は、LLM(大規模言語モデル)についてです。LLMは実際には自己回帰的大規模言語モデルと呼ばれるべきです。大量のテキストで訓練され、基本的に次の単語を予測するように、つまり先行する単語の列から次の単語を予測するように訓練されています。
それが訓練された全てです。そして、システムが訓練されると、もちろんテキストを見せて次の単語を予測させることができます。その次の単語を入力に注入して2番目の次の単語を予測させ、それを入力にシフトさせます。3番目の単語、というように続きます。
これが自己回帰的予測です。私が生まれる前からある概念なので、最近のものではありません。これはシステム1です。層を通じたフィードフォワード伝播です。各新しいトークンを計算するために固定量の計算が必要です。
このタイプのシステムにより多くのリソースを使って答えを生成させたい場合、基本的に人工的により多くのトークンを生成させる必要があります。これはハックのように思えます。思考の連鎖と呼ばれます。これを使って近似的な計画や推論を行う様々な技術があります。
基本的に、トークンを生成する方法のノイズを変えることで、システムに多くの候補出力を生成させます。そして生成された出力のリストの中から良いものを探します。そこには少しの探索があり、少しの最適化がありますが、それはある種のハックです。
私は、これらの方法が真の知的な振る舞いにつながることは決してないと考えています。実際、認知科学者も同意しています。認知科学者たちは、LLMを非常に批判的な目で見て、これは本物の知能ではない、人間に見られるようなものとは全く異なると言っています。
同様に、理想的とは言えない機械学習ベースのAIコミュニティから来た人々、例えばアリゾナ州立大学のSubha Rao Kambhampatiなども、LLMは本当に計画を立てることができないと言っています。Raoには一連の論文があり、そのタイトルは「LLMは計画を立てられない」「LLMはまだ計画を立てられない」「LLMは本当に本当に計画を立てられない」、そして「計画を立てられると主張するLLMも実際には計画を立てられない」というものです。
つまり、我々には大きな問題があります。現在のパラダイムを拡大し、データセンターに何兆ドルもかけ、世界中の全てのデータを収集してLLMを訓練すれば人間レベルの知能に到達すると主張する人々は、私の意見では完全に間違っています。私は間違っているかもしれませんが、私の意見では、それは全く望みがありません。
では、大きな質問は、何が望みがないわけではないのか、ということです。最適化による推論というこの基本原理に同意するなら、これを実際の知的システムでどのように具体化できるでしょうか?
基本的に、少し内省してみると、我々が考えるとき、その思考は我々が表現できる言語とは独立しています。例えば、私はここで何かを言おうと考えていますが、それは英語でこの講演をするか、フランス語でするかとは独立しています。
つまり、言語から独立した思考があり、LLMはこの能力を本当には持っていません。我々が考えるとき、考えている状況の心的モデルを持っています。行動の連鎖を計画するとき、我々の行動の結果を予測できる心的モデルを持っています。
そのため、目標を設定すれば、その目標を満たす行動の連鎖を見つけることができるのです。
先ほど話したモデルの具体化の一つは、このようなものです。知覚モジュールを通じて世界を観察します。大きなニューラルネットと考えてください。それは世界の現在の状態についての何らかのアイデアを与えてくれます。
もちろん、世界の現在の状態とは知覚できるものですが、世界の状態についてのあなたのアイデアには、過去に知覚したこと、世界について知っている事実も含まれています。
例えば、このペットボトルを講壇の片側から反対側に動かしたとすると、あなたの世界モデルはあまり変わっていません。世界の状態についてのほとんどのアイデアは変わっていません。変わったのは、この講壇の内容とそのボトルの位置だけです。
それ以外はほとんど変わっていません。つまり、知覚が世界の状態の完全な描写を与えるという考えは間違っています。記憶と組み合わせる必要があります。
これがここにあるメモリモジュールです。現在の知覚と記憶の内容を組み合わせます。そして、それが世界の現在の状態についてのアイデアを与えてくれます。
次に、これを世界モデルに入力します。この講演の残りの部分でこの言葉を何度も聞くことになるでしょう。この世界モデルの役割は、一連の行動の結果を予測することです。これは、あなたが計画している行動かもしれませんし、エージェントが計画している行動かもしれませんし、他の誰かが取るかもしれない行動や、起こりうる出来事かもしれません。
一連の行動の結果を予測することが、我々に推論と計画を可能にします。おそらく、このペットボトルを取って彼の頭の上に置いて指を離せば、何が起こるか相当良い予測ができるでしょう。おそらく落ちます。こちら側か向こう側に落ちるでしょう。バランスを取っているので、どちらに落ちるかは予測できないかもしれません。しかし、どちらかに落ちます。
つまり、ある抽象的なレベルでは、落ちると言えます。正確にどの位置に、どの方向に落ちるかは言えませんが、落ちることは言えます。状況が信じられないほど単純であるにもかかわらず、実際には非常に洗練された直観的な物理モデルを持っているのです。
これが我々に計画を立てることを可能にします。世界モデルが我々に計画を立てることを可能にするのです。そして、このようなタスク目的を持つシステムを作ることができます。自分で目的を設定したり、あなたが目的を設定したりします。それは、タスクがどの程度達成されたか、結果として生じる世界の状態が何らかの条件に合致しているかを測定します。
また、いくつかのガードレール目的を持つかもしれません。ガードレール目的があるかもしれません。例えば、エージェントがどのような行動を取っても誰も傷つかないことを確実にするものなどです。
これらの四角いボックスはコスト関数です。暗黙のうちにスカラー出力を持っています。システム全体のエネルギーは、全ての四角いボックス、赤い四角いボックスのスカラー出力の合計に過ぎません。
他のモジュール、丸い形のものは、決定論的な関数です。それらは全てネットワークだと考えてください。そして丸い形は変数です。行動列は潜在変数です。観察されていません。最適化によって計算されます。
つまり、タスク目的とガードレール目的の合計を最小化する行動列を見つけようとします。それがシステムの出力になります。そしてこれは、単に一連のフィードフォワード層を通過させるよりも本質的に強力です。
これが基本的なアーキテクチャです。このアーキテクチャをさらに特殊化することができます。一連の行動のために、世界モデルを複数回使用する必要があるかもしれません。
例えば、そのモデルをここからここへ、そしてここからここへと動かす場合、それは二つの行動の連続です。これら二つの行動のために別々の世界モデルを持つ必要はありません。同じモデルを二回適用するだけです。
これがここで表現されているものです。行動1と行動2が同じ世界モデルに入力され、結果として生じる状態を計算します。世界モデルに従ってコスト関数を最適化するように行動列を計画することは、モデル予測制御と呼ばれる最適制御の完全に標準的な方法です。
60年代初頭からありました。私と同じくらい古いです。これは最適制御コミュニティ全体が動作計画に使用しているものです。ロボット工学は動作計画に使用します。NASAはロケットを宇宙ステーションにランデブーするための軌道を計画するのに使用します。
このタイプのモデルです。ここでの違いは、世界モデルが学習されるということです。訓練されます。一連の方程式で手書きされるのではなく、データから訓練されます。そしてもちろん、問題は、これをどのように行うのかということです。すぐにこれについてお話しします。
世界について悲しいことが二つあります。一つ目は、世界をリアルタイムより速く実行することはできないということです。これは我々が扱わなければならない制限です。
二つ目は、世界は決定論的ではないということです。あるいは、物理学者が言うように決定論的だとしても、世界の状態を完全に観察できないため、完全には予測できません。
決定論的関数から非決定論的関数をモデル化する方法は、潜在変数である余分な入力を与えることです。これらは値が分からない変数で、集合を通じて掃引したり、分布からサンプリングしたりできます。潜在変数の各値に対して、世界モデルから異なる予測が得られます。
つまり、潜在変数上の分布は、世界モデルの出力上の分布を意味します。これが不確実性を扱う方法です。もちろん、不確実性の存在下で計画を立てる必要があり、潜在変数の値に関係なく計画が成功することを確実にしたいと思います。
しかし実際、人間や動物はこのように計画を立てません。我々は階層的な計画を行います。階層的な計画とは、世界の状態を表現するために複数の抽象度のレベルを持つということです。我々は世界を常に同じ抽象度のレベルで表現しているわけではありません。
具体例を挙げてみましょう。NYUの私のオフィスに座っていて、パリに行きたいとします。非常に高い抽象度のレベルでは、今から明日の朝パリにいることを決めれば、今晩空港に行って飛行機に乗って一晩かけて飛ぶことができると予測できます。これが計画です。
非常に高レベルの計画です。何が起こるかの詳細は全て予測できませんが、高レベルでは空港に行って飛行機に乗る必要があることは分かっています。
次にサブゴールがあります。空港にはどうやって行きますか? ニューヨークなので、通りに出てタクシーを拾う必要があります。通りにはどうやって出ますか? エレベーターまで行ってボタンを押し、ドアから出る必要があります。
エレベーターにはどうやって行きますか? 椅子から立ち上がり、バッグを持ち、ドアを開け、閉め、エレベーターまで歩き、知覚される全ての障害物を避け、ボタンを押します。
椅子からどうやって立ち上がりますか? ここに、言語では我々がする必要のあることを表現するには不十分なレベルがあります。椅子から立ち上がり方を誰かに説明することはできません。これは筋肉で知る必要があります。物理的な世界を理解する必要があります。
これがもう一つの制限です。LLMのもう一つの制限は、抽象度のレベルが高いということです。なぜなら言語を操作するからです。しかし、現実に根ざしていません。物理的な世界がどのようなものかについて全く理解がありません。
そして、これが彼らに本当に愚かな間違いをさせ、多くの状況で非常に非常に愚かに見えるようにします。我々には、本当に全てのレベルまで下がるシステムが必要です。
これがあなたの飼い猫にできて、LLMにできないことです。だから、私は最も賢いLLMよりもあなたの飼い猫の方が賢いと言っているのです。もちろん、飼い猫はLLMほど多くの抽象的な知識を記憶に持っていません。しかし、世界の理解と計画能力において本当に賢いのです。階層的に計画を立てることもできます。
そのため、我々は複数の抽象度レベルの世界モデルが必要で、これをどのように訓練するかは、私が思うに、完全には明らかではありません。
このアイデア全体、このスピーチ全体は、私が「目的駆動型AIシステム」と呼ぶAIの見方につながります。これは最近の名前です。2年半前に、私はビジョン論文をこのURLのOpenReviewに公開しました。arXivではありません。なぜなら、コメントに基づいてこの論文を更新できるようにしたかったからです。
これが今日の講演の基礎になっています。モーメントをお見せしています。しかし、この2年半の間に、我々はそのプランに向けて進歩を遂げてきました。いくつかの実験結果と我々が構築したものについてお話ししようと思います。
その論文で私が提案しているアーキテクチャは、いわゆる認知アーキテクチャで、先ほど説明したような要素を持っています。世界の状態を推定する知覚モジュール、使用できる記憶、核となる世界モデル、タスクやガードレールを定義する一連のコストモジュール、そして俳優です。
俳優がすることは、基本的にこの最適化手順を見つけ、目的を満たす最適な行動列を見つけることです。上部にある不思議な設定モジュールは説明しません。基本的に、その役割は現在の状況に応じて目標を設定することです。
おそらく、このタイプのアーキテクチャを持つことで、物理的な世界を理解するシステムを持つことができるでしょう。そして、システム2のような推論能力を持つことができるでしょう。しかし、感覚入力からこれらの世界モデルをどのように学習できるでしょうか?
これが本当のトリックです。答えは自己教師あり学習です。自己教師あり学習は、ここ数年、自然言語理解の文脈で非常に成功を収めています。基本的に、完全にNLPを支配しています。全てのNLPシステム、LLMなどは自己教師あり学習で訓練されています。
これはどういう意味でしょうか? 入力と出力の区別がないということです。基本的に、大きな入力を取り、何らかの方法でそれを破損させ、巨大なニューラルネットを訓練して完全な入力を復元します。
しかし、それだけでは十分ではありません。我々がまだ、知能について何か大きなことを見逃しているという別の証拠は、LLMが司法試験や高校の試験に合格できるにもかかわらず、10歳児が一回で学べるタスク、あるいはゼロショットで学べるタスクを達成できる家庭用ロボットをまだ持っていないということです。
10歳児に初めて「夕食の食器を片付けて食洗機に入れて」と頼んでも、彼らはそれができます。学習する必要はありません。ただ理解できるのです。
17歳なら、約20時間の練習で車の運転を学ぶことができます。我々はまだレベル5の完全自律自動運転車を持っていません。レベル2やレベル3は持っています。つまり、部分的に自律的です。
限られた地域でレベル5のものもありますが、それらは非常に装置化されており、ごまかしています。環境全体の地図を持っています。これがWaymoの車が実際にしていることです。そして、彼らは確かに運転を学ぶのに20時間の練習だけでは済みません。
これが我々が見逃しているものです。これは本当に新しいことです。Moravecのパラドックスの新しいバージョンです。人間にとって簡単なことがAIには難しく、逆もまた然りということです。
我々は、知覚や行動、運動制御など、実世界を扱うことの複雑さを無視する傾向がありました。おそらくその理由は、この本当に単純な計算にあります。
現在の典型的なLLMは20兆トークンで訓練されています。これは2×10の13乗です。トークンは単語の部分単位なので、20兆語よりも少し少なくなります。各トークンは通常3バイトほどで表現されます。
つまり、訓練データの量は6×10の13乗バイトです。我々のような人間がその資料を読むには数十万年かかるでしょう。基本的に、インターネット上で公開されている全てのテキストです。
一方、人間の脳、4歳児は、合計16,000時間起きています。これは発達心理学者が教えてくれたことですが、実はそれほど多くのデータではありません。これは、YouTubeにアップロードされる動画の30分分に相当します。Instagramについては言及すべきではないでしょう。
我々は200万本の光神経繊維を持っており、それらは目を通して脳に情報を送ります。目に入ってくる情報量は膨大です。1億本の光神経繊維、あるいは1億個ほどの光センサーを持っているからです。
しかし、脳に到達する前に光神経によって縮小され、圧縮されます。それは約200万本の神経繊維で、各々が1秒あたり1バイト弱、数ビットを伝えています。
そこでのデータ量は10の14乗バイト、おそらくそれよりも少し少ないです。これは、公開されている全てのテキストで訓練された最大のLLMと同じオーダーの大きさです。
4年間で、子供は最大のLLMが訓練される、我々の誰もが数百年かけて読まなければならない全てのテキストよりも多くの実世界についてのデータを見ているのです。
これは、テキストの訓練だけでは決して人間レベルの知能に到達できないことを示しています。単に起こりえません。我々は、視覚や触覚のような高帯域幅の入力を通じて世界を本当に理解するシステムが必要です。
盲人が賢くなれるのは、他の感覚があるからです。彼らは自分の感覚から学ぶことができます。実際、子供が実世界についての基本的な概念を学ぶのにかかる時間を見ると、数ヶ月かかります。
子供は目を開いてから最初の3ヶ月以内に、生物と無生物の違いを学びます。物体の永続性は非常に早く、おそらく2ヶ月頃に現れます。固体性、堅さといった概念もそうです。
そして、安定性と支持は最初の6ヶ月以内です。これが安定せず、落ちるだろうという考えです。そして、重力、慣性、運動量保存といった直観的な物理の概念、我々が直観的なレベルで持っていて、どの動物も持っているような概念は、人間の赤ちゃんでは9ヶ月頃にようやく現れます。赤ちゃんヤギや他の動物ではもっと早く現れます。
つまり、長い時間がかかり、最初の4ヶ月間はその大部分が観察を通じてです。赤ちゃんは生後4ヶ月間はほとんど世界に影響を与えることができません。その後はできるようになります。
8ヶ月の赤ちゃんをハイチェアに座らせておもちゃと一緒に置くと、最初にすることはおもちゃを床に投げ落とすことです。なぜなら、それが重力についての実験だからです。「私のハイチェアの上にある新しいものにも重力は適用されるのか?」という実験です。
そこで自然な考えは、テキストで機能したことをビデオに移植することです。単に生成モデルを訓練してビデオを予測することを学習させれば、そのシステムは単に世界がどのように機能するかを理解するでしょう。なぜなら、ビデオで何が起こるかを予測できるようになるからです。
これは少なくとも過去15年間、もしかするとそれ以上の間、私の研究における一種の執着でした。予測によって学習できるというこのアイデアは神経科学では非常に古い概念ですが、私が本当に好きで、長年学生や共同研究者と取り組んできたものです。
もちろんアイデアは、生成モデルを使用し、システムにビデオの一部を与え、ビデオの次に何が起こるかを予測するように訓練することです。テキストで次に何が起こるかを予測するようにLLMを訓練するのと同じようにです。
世界モデルにしたい場合は、このAという行動変数をこの世界モデルに供給できます。この場合、本質的にマスキングになります。つまり、ビデオを取り、その一部、例えば後半をマスクし、何らかの大きなニューラルネットを通して実行し、完全なビデオの後半を予測するように訓練します。
我々は15年間、そう、かなりの期間試みました。しかし、うまくいきません。ビデオで起こりうることが多すぎるからです。このタイプのシステムは基本的に一つのことだけを予測します。
そのため、予測できる最良のものは、起こりうる全ての妥当な事象の平均です。ここに例があります。これは、この小さな女の子が映っている本当に短い6フレームのビデオでの予測を試みた初期の論文です。
最初の4フレームは観察され、最後の2フレームが予測されます。見えるのはぼやけた混乱です。システムは本当に何が起こるか予測できないので、平均を予測するのです。
下の例でも同じことが見られます。このビデオをもう一度再生させてください。これは高速道路の上からの眺めです。緑色のものは車です。2列目は、ニューラルネットがそのビデオで何が起こるかを予測しようとした予測です。
車がぼやけて伸びているのが見えますね。本当に何が起こっているのか予測できないからです。右の列は、潜在変数を持つ異なるモデルで、予測間の変動を捉えるように設計されており、これらの予測はぼやけていません。
5年前、潜在変数を使えばこの問題に良い解決策があると思っていました。しかし、実世界のビデオではうまくいかないことが分かりました。このような単純なビデオには機能しますが、実世界では機能しません。
つまり、これをビデオで訓練することはできません。その問題の解決策は興味深いものです。生成モデル全体のアイデアを放棄することです。
みんなが生成モデルについて話していて、それが新しい救世主のように扱われています。しかし、今日私が皆さんに伝えたいのは、生成モデルを忘れてください。
この問題の解決策は、我々が結合埋め込みアーキテクチャ、より正確には結合埋め込み予測アーキテクチャと呼ぶものだと考えています。これが本当に世界モデルを構築する方法です。
これは何から成り立っているのでしょうか? そのビデオを取り、破損させます。例えば一部をマスクし、大きなニューラルネットを通して実行します。しかし、大きなニューラルネットが訓練されるのは、ビデオの全てのピクセルを予測することではありません。そのビデオの未来の抽象的な表現を予測するように訓練されます。
つまり、元のビデオを取り、マスクされたものを取り、エンコーダーを通して実行します。これで完全なビデオとマスクされたビデオの抽象的な表現を得ました。そして予測器を訓練して、マスクされたビデオの表現から完全なビデオの表現を予測させます。
これがJEPAと呼ばれます。Joint Embedding Predictive Architecture(結合埋め込み予測アーキテクチャ)の略です。私の共同研究者と私は、過去数年間でこのアイデアについていくつかの論文を発表してきました。これは、本当に予測できない全ての詳細を予測しなければならないという問題を解決します。
例えば、この聴衆のビデオを撮るとします。実際に撮れますね。今、私は皆さんのビデオを撮っています。そして、ゆっくりと右に首を向けます。今、ビデオを止めます。
確かに、予測システムはこれが部屋だと予測できます。会議室です。至る所に人が座っています。全ての椅子が埋まっていることは予測できないかもしれません。皆さん一人一人がどのように見えるかを予測することは絶対にできません。
壁のテクスチャがどうなるのか、あるいは側面の色さえも予測することはできません。つまり、完全に予測不可能なことがあります。その情報を持っていないのです。
そしてシステムを予測するように訓練すると、それら全ての詳細を予測しなければなりません。無関係な詳細を予測することに全てのリソースを費やすことになります。
JEPAを訓練すると何が起こるのか、そしてこれをどのように訓練するのかについてお話ししますが、それは入力から可能な限り多くの情報を抽出しつつ、予測できることだけを抽出するというトレードオフを見出します。
これらのアーキテクチャには問題があります。右側で表現空間での予測のみを試みる結合埋め込みアーキテクチャと、直接Yを再現しようとする生成アーキテクチャとの対比がここにあります。
結合埋め込みアーキテクチャには問題があります。これが、我々が最近の年になってようやくこれに取り組んできた理由です。それは、予測誤差を最小化するようにそれらのニューラルネットのパラメータを単に訓練すると、崩壊してしまうということです。
基本的に入力のXとYを無視し、SXとSY、二つの表現に対して一定の予測を行います。これは別の予測問題です。簡単です。しかし、これは良いことではありません。
これは、先ほど説明したエネルギーベースの枠組みの例です。基本的に全てのXYのペアにゼロエネルギーを与えます。しかし、望むのは訓練したXYのペアにはゼロエネルギーを、訓練していないものにはより高いエネルギーを与えることです。
それが難しい部分です。次に、適合しないXYのペアがより高いエネルギーを持つことを確実にする方法について説明しましょう。
これらのアーキテクチャには変種があり、その一部は潜在変数を持つことができ、予測器を世界モデルにしたい場合は行動条件付きにすることもできます。これについては長年論文が出されています。
最も古い結合埋め込みアーキテクチャは実は90年代初頭のものです。シャム・ネットワークについての私の論文です。しかし、これらの一般的なアーキテクチャを訓練する必要があります。
どうすればよいでしょうか? この絵を覚えていますか? 適合するもの、観察する訓練セット、訓練サンプルのXとYのペアに低いエネルギーを与え、他の全てにより高いエネルギーを与えたいのです。
二つの方法があります。対照的方法と、私が正則化方法と呼ぶものです。対照的方法は、基本的に訓練セットにないXとYの対照的なペアを生成することです。
Xを選び、それと適合しない別のものを選びます。それが点滅して見える緑の点の一つを与えます。そしてあなたの損失関数は、訓練サンプルである青い点のエネルギーを下げ、対照的サンプルである緑の点のエネルギーを上げることから成り立ちます。
これは良いアイデアです。これを訓練するために人々が使用してきたアルゴリズムがいくつかあります。その一部は、例えば画像とテキストの結合埋め込みのためのOpenAIのCLIPなどです。彼らは対照的方法を使用しています。
ジェフ・ヒントンを含むグーグルのチームによるSeem clearもそうです。そして90年代に私が提唱していたシャム・ネットワークもです。
対照的方法の問題は、それらが生成する埋め込みの本質的な次元が通常かなり低いということです。そのため、それによって学習される表現は少し退化しています。
そこで私は正則化方法を好みます。正則化方法の背後にあるアイデアは何でしょうか? アイデアは、低いエネルギーを取ることができる空間の体積を最小化することです。
損失関数に何らかの正則化項があり、その項は基本的に低いエネルギーを持つものの体積を測定します。そしてそれを最小化しようとします。
つまり、その空間のある領域のエネルギーを下げるたびに、残りは上がらなければなりません。なぜなら、低いエネルギーの体積は限られているからです。
これは少し抽象的で不思議に聞こえますが、実際にはこれを行う方法がいくつかあり、すぐに説明します。
その前に、これらのシステムがどれだけうまく機能するかをテストする方法についてお話ししましょう。画像認識の文脈では、同じ画像だと分かっている二つの画像を与えます。
画像を取り、それを破損させるか、何らかの方法で変換します。スケールを変えたり、回転させたり、色を少し変えたり、部分的にマスクしたりします。
そして、エンコーダーと予測器を訓練して、予測器が完全な画像の表現を予測するようにします。マスクされた画像の表現から完全な画像の表現を予測するのです。
システムが訓練されると、予測器を切り離します。エンコーダーを分類器への入力として使用します。そして教師あり分類器を訓練して、物体認識などのタスクを行います。
これがシステムが学習した特徴の質を測定する方法です。これについては多くの論文が出されています。明らかになってきたのは、これらの方法が画像から一般的な特徴を抽出するためのシステムの訓練に非常にうまく機能するということです。結合埋め込みアーキテクチャです。
生成アーキテクチャ、つまりオートエンコーダー、変分オートエンコーダー、VQVAE、マスクドオートエンコーダー、デノイジングオートエンコーダーなど、このタイプの様々な技術についても多くの研究がなされてきました。基本的に、画像の破損版を与え、システムをピクセルレベルで完全な画像を復元するように訓練します。
これらの方法は、結合埋め込み方法ほどうまく機能しません。我々はこれを5、6年前に発見しました。我々だけでなく、結合埋め込みが再構成ベースのシステム、つまり生成アーキテクチャよりも本当に優れているという証拠が蓄積されてきました。
当時、訓練方法は対照的なものだけでした。しかし今、我々は他の技術、特にエンコーダーからの情報量の何らかの尺度を最大化しようとする技術のセットを見つけました。
訓練のための基準の一つは、この新しいマイナスi、情報量の尺度です。コスト関数を最小化するので、前にマイナス記号があり、情報量を最大化します。これをどのように行うのでしょうか?
我々が使用した単純なトリックの一つは、分散-共分散正則化と呼ばれるものです。予測器がない場合は、分散-不変性-共分散正則化(vcreg)です。
そこでのアイデアは、エンコーダーからの表現を取り、まず第一に、固定された値の集合に崩壊するべきではないということです。つまり、エンコーダーから出力される各変数の分散は少なくとも1であるべきです。
しかし、システムは、全ての次元の出力表現に対して同じ変数、あるいは非常に相関のある変数を生成することで、あまり情報量の多くない出力を生成することで、まだ欺くことができます。
そこで、もう一つの基準がそれらの変数を非相関化しようとします。実際、我々は次元を拡大するトリックを使用します。表現を取り、次元を拡大するニューラルネットを通して実行し、その空間で非相関化します。
これは、元の変数をより独立に、単に非相関だけでなく、より独立にする効果があります。これは少しハックのようなものです。なぜなら、我々がここでしようとしているのは情報量を最大化することだからです。
これを行うために必要なのは、情報量の下限です。しかし、私が説明しているのは情報量の上限です。つまり、上限を最大化し、そして祈ります。そして、実際の情報量が従うような方法のセットを持つことになります。そしてそれは機能します。
これが一つの技術セットです。理論は飛ばします。蒸留と呼ばれる別の方法のセットがあり、これらは非常に効率的であることが証明されています。
そこでも、これは別のハックです。少なくとも私の意見では、なぜそれが機能するかについての理論的な理解は部分的にしかありません。しかし、それは機能します。
そこでは、指数移動平均と呼ばれる技術を使って、二つのエンコーダー間で重みを共有します。一つのエンコーダーは、不思議な理由で、もう一つの重みの時間的平均を基本的に持つ重みを持ちます。
そして全体を訓練しますが、完全な入力を受け取る移動平均を受け取る方には勾配を逆伝播しません。何らかの理由で、これは崩壊せず、非常にうまく機能します。
これは蒸留法と呼ばれます。SimCM、BYOL、DeepMindからのDenoV2、パリのMetaの同僚からのiJEPAとvJEPAなど、様々なバージョンがあります。そしてこれは驚くほどうまく機能します。
実際、DenoV2バージョンは信じられないほどうまく機能します。これは画像のための汎用特徴抽出器です。ランダムなコンピュータビジョンの問題があり、誰もそのためにシステムを訓練していない場合、単にDenoV2をダウンロードしてください。
それはあなたの画像から特徴を抽出し、その上に非常に単純な分類器ヘッドを訓練し、わずかな例で訓練します。そしてそれはおそらくあなたのビジョンの問題を解決するでしょう。
例を挙げますと、結果の表は退屈なのでスキップしますが、Metaの共同研究者のCamille Couperieは、様々な周波数帯で世界中の衛星画像を入手しました。彼女はまたLIDARデータも入手しました。
LIDARデータは、世界の小さな部分について、樹冠の高さを与えます。植生の高さを与えます。そこで彼女はDeno特徴を取り、世界全体に適用し、そしてLIDARデータで訓練された分類器を使用しました。
少量のデータで訓練されましたが、世界全体に適用されました。そして今、彼女が持っているのは、地球全体の樹冠の高さの推定値です。これにより、気候変動にとって非常に興味深いデータである、植生に捕捉される炭素量の推定値を計算することができます。
これは一例です。医用画像や生物学的画像など、他の例もあり、Denoはある程度の成功を収めています。しかし、先ほど簡単に説明したIGEPAと呼ばれるこの蒸留法は、視覚的特徴を学習するのに非常にうまく機能します。
また、詳細には立ち入りませんが、これは再構成に基づく方法よりもはるかに優れています。そしてもちろん、次に我々が行ったのは、これをビデオに適用できるかどうかを試すことでした。
ビデオにこれを適用できるでしょうか? 実は、このタイプのシステムを訓練して時間的な予測を行わせると、あまりうまくいきません。空間的な予測を行わせる必要があり、これは非常に奇妙です。
そこで学習される特徴は本当に素晴らしいものです。そのシステムの表現を使ってビデオ内の行動を分類するなどの場合、良いパフォーマンスが得られます。
今や我々は、論文が完成しつつある段階で、これらのシステムがある程度の常識と物理的直感を持っているということを示すテストを持っています。
例えば、物体が突然消えるなど、不可能なビデオを見せると、彼らは「おや」と言います。何か奇妙なことが起きました。彼らの予測誤差が上がります。つまり、これらのシステムは本当に世界について基本的な概念を学ぶことができるのです。
しかし、最後に言いたいのは、このタイプのシステム、基本的に我々が世界モデルを訓練するために使用でき、そしてそれらの世界モデルを計画のために使用できるシステムについてです。
これは新しいものです。まだ発表していません。論文は提出済みです。しかし、これは英語で公に話すのは初めてです。先週、ジュネーブでフランス語で講演しましたが。プレビューをお見せしましょう。
これはNYUの博士課程学生であるリンさんの研究で、私とローレル・ピントが共同指導しています。彼女はMetaでのインターン中にこの研究の多くを行いました。彼女も学生です。
これが研究です。ここでの基本的なアーキテクチャは、事前訓練されたDeno V2の特徴を使用し、その上に行動条件付きの世界モデルを訓練します。
基本的に、世界や環境の画像を撮り、その環境で取ろうとする行動を入力し、そしてDeno特徴の観点から環境での結果を観察します。
そして予測器を訓練して、入力、前の状態、および行動の関数として行動後の表現を予測させます。つまり、予測関数は前の状態と行動を取り、本質的に次の状態を予測します。
そしてそのシステムを手に入れると、先ほど話した最適化手順を行って、特定の結果に至る行動の連鎖を計画することができます。
結果は単に、予測された状態と予測された状態の間のユークリッド距離です。目標状態を計算する方法は、エンコーダーに画像を見せ、この表現があなたの目標表現だと伝えることです。その状態に一致するように一連の行動を取ってください。
我々はこれをいくつかのタスクで試しました。一つは単純な迷路を通してドットを動かすことです。もう一つは、このビデオを繰り返しますが、小さなtオブジェクトを動かすことです。
そしてもう一つは、特定の位置に来るように様々な場所で押すことで小さなtオブジェクトを動かすことです。これをプッシュtの問題と呼びましょう。
そして他のタスクとして、環境内を移動し、壁のドアを通り抜け、そして特定の形状を取るように変形可能なオブジェクトを押すことがあります。より印象的な例をお見せしましょう。
タスクについては、これらは仮想環境でシミュレーションできるので、人工データを収集できます。そして様々なシステムで実験を行いました。
我々は過去にこの問題を解決するために提案してきました。Dreamer V3はおそらく最も進んだものの一つで、DeepMindのDaniel Hafnerによるものです。
ここで見えるのは、一連の行動に対する予測状態のデコーダーを通した視覚化です。上部は真実の値です。一連の行動を実行し、シミュレータでの結果を見ます。
そして各行は、それらのモデルの一つによる予測の結果です。いくつかの予測はぼやけていることが分かります。いくつかの予測は少し奇妙になります。我々のものは相当良いです。Irisは良いです。Dreamer V3はそれほど良くありません。
これが最も興味深いタスクです。粒状環境と呼ばれます。基本的にテーブルの上に青いチップがたくさんあります。行動はロボットアームの動きで、テーブルの上に下り、あるデルタx、デルタyで動き、そして持ち上げます。
それが行動です。4つの数字です。テーブルに触れるx,y、デルタx,デルタy、持ち上げです。問題は、ランダムな位置にチップを置き、ランダムな行動を取り、結果を観察することで世界モデルを訓練できることです。
予測器はこのように訓練されます。予測器が訓練されると、これらが様々な計画技術の結果です。世界モデルを使って、特定の目標に到達するための一連の行動を計画することができます。
これは点ベースのプッシュキニアン世界についてですが、粒状のものを見た方がいいかもしれません。これが、画像空間での全ての粒子の最終状態と、チャンファー距離で測定された目標との、いわばチャンファー距離です。
見て分かる通り、我々の方法、青い線のものは、比較した他の方法、Dreamer V3やTDMPC2よりもはるかに低い最終誤差を持っています。そしてTDMPC2は実際にタスク固有である必要がある方法です。つまり、世界モデルほど一般的ではありません。
ここに、様々なタスクにおけるシステムの動作のデモがあります。お見せしましょう。もう一度再生させてください。プッシュTを見てください。
ドットが離散的なステップで動いているのが分かりますね。なぜなら、シミュレーションの各ティックで、同じ行動が5回繰り返されるからです。つまり、行動は5タイムステップごとにしか生成されません。
しかし、目標に到達します。目標は右側に表示されています。そして実際に表示されます。これは特に粒状のものについてです。目標は右側に表示されています。もう一度再生させてください。
チップのランダムな配置から始まります。そしてシステムは、それらの行動を使って、見えない行動を使って、結果だけを見ながら、チップを押して四角形のように見えるように動かします。
これで興味深いのは、完全にオープンループだということです。システムは基本的に初期条件を見て、一連の行動を想像し、そしてそれらの行動を盲目的に実行します。
そしてここで見えるのは、それらの行動を実行した結果です。オープンループです。目を閉じて。かなりクールですね。
さて、終わりに近づきました。5つの提言があります。
生成モデルを放棄し、JEPAを選びましょう。確率モデルを放棄し、エネルギーベースモデルを選びましょう。この文脈では、確率モデルは本当にできません。確率的モデリングを支持すると、扱いが難しくなります。
対照的方法を放棄し、これらの正則化方法を選びましょう。そしてもちろん、強化学習を放棄しましょう。しかしこれは10年間言い続けてきました。
そして、人間レベルのAIに興味があるなら、LLMに取り組まないでください。あなたが大学院生で、AIで博士課程を学んでいるなら、LLMに取り組まないでください。それは面白くありません。
まず第一に、それはそれほど面白くありません。なぜなら、それはAIの次の革命にはならないからです。それはシステムが物理的な世界を理解することなどを助けないからです。
しかし、それは非常に危険なことでもあります。なぜなら、何十億ドルものリソースを持つ産業界の巨大なチームがこれに取り組んでいるからです。あなたが提供できるものは何もありません。絶対に何もありません。だからLLMに取り組まないでください。
LLMの仕事がしたいなら別ですが。しかし、LLMの寿命は3年でしょう。3年から5年後には、今日存在する形でLLMを使用する正気の人は誰もいないというのが私の予測です。より大きなシステムのコンポーネントとして使用されるでしょうが、主要なアーキテクチャは異なるものになるでしょう。
これには、私が簡単にスルーした多くの問題があります。そのリストは話しませんが、例えば階層的な計画の方法は分かっていません。これは、もしこれに興味があれば良い博士論文のトピックです。単に階層的計画の問題を解こうとしてみてください。
ここで話したエネルギーベースモデルなどには、基礎理論的な問題が山ほどあります。システムが正しいことを学習するように駆動されるSSLの目的をどのように設計するか。私は情報量最大化についてだけ話しましたが、他にもたくさんの事があります。
世界モデルをリアルタイムで調整するために必要な強化学習が少しあるかもしれません。しかし、このプログラムに成功すれば、これには次の10年の大部分がかかるかもしれませんが、人間レベルのAIを持つバーチャルアシスタントを持つことができるかもしれません。
しかし、私が考えるのは、これらのプラットフォームはオープンソースである必要があるということです。ここで講演の政治的な部分になりますが、非常に短くします。
これらのプラットフォームは、LLMや将来のAIシステムは、訓練に非常にコストがかかります。基本的なファンデーションモデルはです。そのため、世界でほんの数社しかできません。
そして今直面している問題は、インターネット上の公開データは我々が望むものではないということです。主に英語だからです。もちろん、他の言語もありますが、様々な規制上の理由や問題により、世界の全ての言語のすべてのデータにアクセスできません。
世界で使用されている4,000ほどの言語があります。全ての文化、全ての価値体系、全ての関心分野、そのデータは全て利用できません。
したがって、将来は単一の企業がこれらのシステムを訓練する形ではないでしょう。分散した方法で訓練されることになります。世界の様々な場所に大きなデータセンターがあり、ローカルなデータにアクセスできます。
しかし、彼らは全て、世界規模で、最終的に全ての人類の知識の保管庫となる大規模なモデルの訓練に貢献することになります。これは達成しようとする非常に高尚な目標です。
全ての人類の知識の保管庫となるシステムを持つこと。しかし、それは話しかけることができるシステムです。質問することができます。家庭教師として、教授として機能し、ここにいる多くの私たちの仕事を奪うかもしれません。これは我々が本当に取り組むべきことです。
これは人間の知能を増幅し、おそらく合理的な思考を改善するでしょう。しかし、それは多様である必要もあります。米国西海岸の数社から来る2、3のモデルだけにアクセスすることは望ましくありません。
これは世界の多くの政府にとって全く受け入れられません。民主的な政府にとってです。新聞、雑誌、報道に多様性が必要なのと同じ理由で、多様なAIアシスタントが必要です。自由な報道と多様性が必要です。そして我々は自由なAIと多様性も必要です。
AI分野の人々の中には、AIテクノロジーを全ての人が利用できるようにすることの危険性を心配している人もいます。私は、利点が危険性やリスクをはるかに上回ると考えています。
実際、将来のAIの主なリスクは、AIシステムの仕組みを明らかにしない少数の商業企業によってAIが管理される場合に起こると考えています。それは非常に危険です。
したがって、オープンソースAIを違法にすることでAIのリスクを最小化しようとする試みは、完全に間違った方向に向かっており、実際には意図した結果の逆を達成することになります。それはAIをより安全でなくします。
オープンな研究、オープンソースAIは規制によって消滅させてはいけません。多くの政治家がこれを理解する必要があります。
このモデルに賛同している様々な企業の連合があります。Meta、IBM、Intel、Sony、学術界の多くの人々、多くのスタートアップ、ベンチャーキャピタリストなどです。そして反対を主張している企業も数社ありますが、名前は挙げません。
おそらく、我々が正しく行えば、冒頭で話したように人間の知能を増幅するシステムを持つことができ、これは15世紀の印刷機で起こったことと同様に、人類にとって新たなルネサンスをもたらすかもしれません。
この宇宙的な結論で、ありがとうございました。そしてちなみに、これらの写真はニュージャージーで私が撮ったものです。
ありがとう、ヤン。ではヤンは質問を何件か受け付けます。退出される方はブロードウェイ入口からお願いします。キャンパス入口は使用しないでください。はい、質問があれば、マイクの前に並んでください。まず私から質問を始めます。
音が出ません。はい、動作します。
こんにちは、ヤン。お越しいただき本当にありがとうございます。3Dビジョンモデルについて、今後7、8年でどのようなビジネス応用が見込まれるとお考えですか?
はい、3Dについては話していませんでした。私の同僚の何人かは3Dに何か特別なものがあると考えていますが、私は必ずしもそうは思いません。次世代のこれらのVJPADモデルが、世界が3次元であり、物体が他の物体の前にあるなどということを基本的に理解することを期待しています。
もちろん、仮想環境での仮想オブジェクトなどを扱うために3D推論や3D再構成が必要なアプリケーションはありますが、正直なところ、私はこの専門家ではありません。実際、コロンビア大学にはこの質問の専門家がいると思います。
もう一つ質問です。3Dを技術として見ていますか? あなたが先ほど言及したような階層的計画をVJPADモデルやDyno V2が持つことができると?
それはまだ存在していません。我々が取り組んでいることです。今後1、2年くらいでこれについて何らかの結果が得られることを期待しています。
ありがとうございます。
では、奥の方で一つ質問を。
AIの利点について話されました。そしてリスクよりも利点の方が大きいとお考えですが、あなたが恐れていた通り、西海岸の数社が最も進んだモデルを管理している状況があります。では、なぜ利点がリスクを上回ると考えるのですか?
それは完全に正しくありません。Metaは、AIが専有であり、自社の手中にとどめておくべきだというモデルには賛同していません。LAMAというモデルシリーズをリリースしています。LAMA 1、2、3、3.1、3.2です。これらは最先端か、それに非常に近いか、特定の指標では優れています。
そしてこれはオープンソースです。世界中の多くの人々が自由に使用できます。様々な言語や垂直アプリケーション用に微調整することができます。LAMA 3は4億回ダウンロードされていると思います。これは信じられないほどです。
私が話す全ての企業が、LAMAをデプロイしているか、LAMAベースの製品をデプロイしようとしています。アフリカには医療支援を提供するためにこれを使用している人々がいます。インドではMetaが協力して、LAMAの将来のバージョンがインドの22の公用語全てを話せるようにしようとしています。
そして、いずれはインドの15,000の方言全てでも使用できるようになるかもしれません。そのような感じです。これが世界中の誰もがAIにアクセスできるようにする方法だと思います。
私はその取り組みの一部であることを本当に嬉しく思います。閉鎖的な取り組みの一部になりたくはありません。
こんにちは、ヤン。私の名前はシュリカントです。時系列のファンデーションモデルの能力について、あなたのお考えをお聞きしたいと思います。Amazon、Google、Meta、全ての企業がその分野で取り組んでいるのを見かけますが、直感的に、時系列予測は言語モデリングよりも難しい問題だと感じます。これについてのお考えと限界は?
はい、重要な点を指摘されました。言い忘れていたことですが、言語モデリング、つまり次の単語を予測する予測モデルが機能するのは、例えば画像やビデオでは機能しない理由は、言語が離散的だからです。
数千のオプションがある離散的な選択において予測の不確実性を表現するのは簡単です。可能な結果の確率分布を生成するだけです。これがLLMの仕組みです。次のトークンに対する分布を実際に生成します。
ビデオピクセルのような高次元の連続変数では、これはできません。高次元の連続空間での分布を、ガウス分布のような単純なもの以外では効率的に表現する方法が分かっていません。
私の答えは、それをしないということです。表現空間で予測を行ってください。そして時系列の実際の予測が必要な場合は、それを別個に行うデコーダーを持ってください。
不確実性がある場合に回帰によって高次元の連続的なものを予測するようにシステムを訓練することは、単に機能しません。これが我々の持っている証拠です。
例えば、MetaにはVideoMAEという巨大なプロジェクトがありました。アイデアは、ビデオを取り、その一部をマスクし、そして欠けている部分を予測するために巨大なニューラルネットを訓練するというものでした。
それは完全な失敗でした。どこにも行かなかったのでそのプロジェクトを放棄し、キャンセルしました。これは本当に大規模なものでした。多くのコンピューティングリソースが投入されました。単に機能しませんでした。
しかし、JetPathのものは機能します。私の直感では、時系列については、おそらく同様のアイデアを使用する方法があるでしょう。
ありがとうございます。
素晴らしい講演でした。私の質問は、あなたの枠組み - 世界モデルを持ち、その世界モデルを通じて最適化したいということには同意します。しかし、世界モデルが真実と一致しない場合、どのように知能を得られるのでしょうか?
例えば、世界モデルが古典力学だけを持っている場合、特殊相対性理論をどのように発見できるでしょうか? 人間は何らかの形でその境界を突破してきました。しかし、観察データだけに基づく世界モデルでどうやってそれを行うのかが分かりません。
まあ、ここで話している世界モデルのタイプは、私が引退する前、あるいは私の脳がベシャメルソースになる前に満足できるものは、猫の世界モデルのレベルの複雑さを持つものです。物理的世界についての、実際にはかなり洗練されたものです。本当に複雑な行動を計画することができます。これが我々が話していることです。
しかし、あなたは本当に興味深い点を指摘しました。それは、予測を行うために抽象度のレベルを上げる必要があるというJEPAとこのアイデアの背後にある哲学的な動機です。観察のレベルで予測を行うことはできません。現実の良い表現を見つける必要があります。
その中で予測を行うことができる表現を見つけることが、本当に最も難しい問題です。我々は科学の中でこれを常に行っています。気づかずに日常生活でも常に行っています。
もしこれをする必要がなければ、人間社会を量子場理論で説明できるはずです。
その通りです。
しかし、できません。抽象度のギャップが非常に大きいからです。だから、量子場理論から素粒子物理学へ、粒子から原子へ、原子から分子へ、分子から物質へと化学の中で進み、そうですね。抽象化の連鎖を上っていくと、ある段階で物理的オブジェクトとニュートン力学の表現を持ち、大規模なものについては相対性理論などがあり、そして社会、人間の行動、動物の行動、生態学などがあります。
我々はこれら全ての表現レベルを持っており、これらについて重要な洞察は実際に表現を見つけることです。例えば、木星を例に取りましょう。木星は非常に複雑なオブジェクトです。複雑な組成を持ち、天候があり、様々なガスが渦巻いており、非常に複雑なオブジェクトです。
しかし、木星の軌道を予測するのに必要なのは6つの数字だけだということを誰が想像したでしょうか? 3つの位置と3つの速度があれば、数世紀にわたって木星の軌道を予測できます。これが良い表現を学ぶという問題です。
では、提案は本質的に、階層的な世界モデルで階層的な計画を行うということですか?
はい、その通りです。すばらしい。複数の抽象度レベルを構築できるシステムを持つということです。素晴らしい。
これは実は、ディープラーニングの背後にあるアイデアでもあります。
では2つ質問を受け付けて、終わりにしましょう。そちらから1つ、こちらから1つ取りましょう。
はい。私の質問は、あなたが触れなかった一つの生成モデルのタイプ、つまり拡散モデルについてです。これらは、あなたが言及した生成モデルとはかなり異なると思います。より暗黙的で、LLMやVAEや他の生成モデルのように明示的な確率分布を予測しないからです。拡散モデルの可能性について、特にあなたが言及した階層的計画との関連で、どのようにお考えですか?
画像生成に使用する場合、最初の数ステップで非常に高レベルな詳細を生成し、その後のステップで細かい詳細を埋めていきますよね。
拡散モデルは生成的とも非生成的とも見なすことができますが、それらを理解する方法は以下の通りだと思います。表現空間や画像空間、あるいは何であれ高次元空間において、データのマニフォールドがあります。
例えば、画像生成システムを訓練したい場合は自然画像、あるいは私が話したようなエンコーダーによって抽出された表現があります。これらは基本的に全空間の中の部分集合です。
拡散モデルが行うことは、その空間内のランダムなベクトルを与えると、そのマニフォールドに戻してくれます。これは、その空間内の全ての場所、ランダムな場所で、そのマニフォールドに戻す方向のベクトルを持つベクトル場を訓練することで行います。おそらく複数のステップで行います。
これが結局のところ行っていることです。特定の方法で、ノイズ化の連鎖を逆転させることで訓練されますが、それが行っていることです。
これは実際には、私が説明したタイプのエネルギーベースモデルを実装する特定の方法です。このデータのマニフォールドをエネルギー関数の最小値として考えることができるからです。
エネルギー関数があり、そのエネルギー関数の勾配を計算できれば、そのエネルギー関数の勾配がそのマニフォールドに戻してくれます。これが推論や雑音除去や復元などのエネルギーベースの見方です。
拡散モデルは基本的に、勾配を計算するエネルギー関数を持つ代わりに、そのエネルギー関数の勾配となるベクトル場を直接学習します。これが理解する方法です。つまり、私が話したことと切り離されているわけではありません。私が話したことの文脈で有用に使用することができます。
本物の猫レベルや動物タイプの知能に到達しようとする場合、特にこれらの世界モデルについて話していた点に関連して質問があります。
キリンなどは、生まれてすぐに走ったり歩いたりできます。その心の中に何かがあって、取る行動のタイプを制約する世界モデルがあります。それは、あなたがDenoで行っているような、ルールベースのアプローチを試みているものと似ているように思えます。
これらの世界モデルは時間とともにどのように進化するのでしょうか? どの程度の可変性を持っているのでしょうか?
つまり、明らかに世界モデルは進むにつれて調整される必要があります。例えば、このオブジェクトを掴もうとして、いっぱいだと思って特定の力を加えようとします。しかし掴んでみると、それほど一杯ではないことに気づきます。
そのため、そのシステムの世界モデルを調整し、それに応じて非常に素早く行動を調整できます。これは実際には学習ではなく、単にパラメータの調整です。
しかし他の状況では、学習が必要です。状況に応じて世界モデルを適応させる必要があります。強力な世界モデルがあれば、世界の全ての可能な状況と構成のために訓練することはできません。
そのため、状態空間の中で世界モデルが不正確な部分があります。システムが正確に計画を立てたい場合、それが起こるときを検出できる必要があります。
基本的に、自身の世界モデルの予測が良好な空間の領域内でのみ計画を立て、そうでない場合は進むにつれて世界モデルを調整する必要があります。そこで強化学習が必要になります。
質問を明確にしてもよろしいですか? ボールを投げるとき、そのボールの物理は本当に予測できないものだと思います。世界モデルのパラメータでそれをどのように区別しますか?
はい、はい。これは、その場での世界モデルの適応、あるいはおそらく、風速などの世界について知らないことを表す潜在変数の調整です。つまり、これにはいくつかのメカニズムがあります。
では、講演者にもう一度感謝の拍手をお願いします。