
機械はいかにして人間レベルの知能に到達しうるか? ヤン・ルカン講演
25,428 文字
こんばんは、みなさん。今夜のゲストへの関心の高さは、私たちが生きている時代の重要性を物語っています。さて、ここ2年ほど、言語モデルは私たちの生活に劇的に入り込んできました。長年密かに開発が進められてきたこれらのシステムは、今や私たちの側で目に見える形で、そして後戻りできない形で存在感を示しています。
人工知能システムは、14世紀のマルコ・ポーロの本の作者のように、文字を通して世界を認識しています。現実に対する彼らの知識は間接的で、時として不正確です。今夜の講演者は、次世代の人工知能システムがなぜ、そしてどのように、著者が書いたものに限定されることなく、直接的な観察と相互作用を通じて世界を理解する必要があるのかを説明してくれるでしょう。
ヤン・ルカンはニューヨーク大学のシルバー教授であり、メタのチーフAIサイエンティストです。学生時代、彼はスイスの心理学者ジャン・ピアジェの研究、特に構成主義と認知発達に関する理論に深く影響を受けました。また、1968年に公開された映画「2001年宇宙の旅」にも影響を受け、人工知能の可能性や機械と人間の意識との相互作用について考えるようになりました。
1990年代、彼は深層学習革命の中核となり、GPTなどの大規模モデルの基礎となった人工ニューラルネットワークのモデルを開発しました。1990年から2010年の間、科学界がこの技術を軽視していた時期に、彼はこれを擁護した数少ない研究者の一人でした。彼の多大な貢献は、2018年にジェフリー・ヒントンとヨシュア・ベンジオとともに受賞した、コンピュータサイエンス分野の最高峰の賞であるチューリング賞を含む、数々の賞によって認められています。彼は情熱的で先見性のある研究者であり、今夜お迎えできることは大きな栄誉です。
[拍手]
ありがとうございます、スラヴァ。タイトルは英語ですが、フランス語で話すように言われていますので、そうさせていただきます。
「機械はいかにして人間レベルの知能に到達しうるか」というテーマについて。スラヴァが言及したように、また今朝の名誉学位授与式で述べたように、私は機械学習の研究を始めるきっかけとなったのが、この本でした。実はこれはフランス語訳で、英語版もあります。これはジャン・ピアジェとノーム・チョムスキーの間で行われた討論の記録で、片方は言語は生得的だと主張し、もう片方は言語は学習されるものだと主張しました。
この討論に参加していたのが、当時MITの教授でしたが、ジャン・ピアジェの研究室で時間を過ごしたことのある数学者のシーモア・パパートでした。彼は当時のシンプルな学習モデル、特にパーセプトロンについて研究していました。チョムスキー派の科学者たちに向かって、このシンプルな機械でさえ、驚くほど複雑な概念を学習できることを説いていました。
後に文献を掘り下げて分かったことですが、私がこの機械学習の話に夢中になっていた頃、同じシーモア・パパートが、マーヴィン・ミンスキーと共に1969年に本を出版し、実はその分野の研究を殺してしまったのです。つまり、60年代末にはニューラルネットワークの研究はタブーになっていたのです。そして、そのパパートが10年後にパーセプトロンを絶賛していたというのは、少し逆説的ですね。でも、それは私が文献を掘り下げ、少し古いものの中に、この分野で研究を続けていた日本の研究者がいることを発見する妨げにはなりませんでした。
大学院での研究初期に、私は実際にはアメリカを中心に、イギリスとドイツにも少し、そして日本にも、ニューラルネットワークに関心を持つ小さなグループがいることを発見しました。特に二人の重要人物、ジョン・ホップフィールドとジェフ・ヒントンは、数日前にノーベル物理学賞を受賞しました。彼らがノーベル賞を受賞したモデルは今ではまったく使われておらず、特に良く機能するわけでもありませんが、彼らの論文は分野に大きな影響を与えました。
彼らはタブーを解き、ニューラルネットワークの分野を再び受け入れられる、あるいは尊重される分野にすることに貢献し、80年代初頭から90年代半ばまで、これらのモデルへの新しい関心の波を作り出すことに貢献しました。その後、2000年代末から2010年代初頭まで、再びニューラルネットワークの冬の時代がありました。
さて、歴史の話はこれくらいにして。人間と同じくらい知能のある人工知能が必要です。ある人々にとってはそれは恐ろしいことかもしれませんが、他の人々にとっては希望を持てることです。必要な理由は、それほど遠くない未来に - この会場の多くの人々が目にすることになると思いますが - 誰もが人工知能システム、つまり一日中私たちと共にいて、日常的なタスクを手伝い、問題解決を助けてくれるアシスタントと対話することになるからです。
これらのシステムは人間よりも賢いかもしれませんが、私たちのサービスのためにあります。つまり、私たちが質問をしたり、問題を与えたりすれば、彼らはそれを解決してくれますが、達成すべき目標やタスクは人間が決めることになります。
これは、例えば学術研究所の所長や企業の経営者、あるいは政治的リーダーが、常に助言をしてくれるスタッフに囲まれているようなものです。そのスタッフは、おそらく彼らよりも賢いでしょう。まあ、学術界のメンバーについてはそうでないかもしれませんが、政治家については間違いなくそうでしょう。
自分より賢い存在に囲まれて仕事をすることを脅威に感じる必要はありません。実際、それは私たちの知能を増幅し、拡張することになります。自分より賢い人々と働くことを脅威に感じるべきではないのと同じように。私は分かりませんが、少なくとも私の場合は、自分より賢い人々と一緒に仕事をすることにとても慣れています。実際、私は自分より賢い人々しか雇わないようにしています。
これらの対話するシステムは、操作が簡単で、インタラクションが非常に容易である必要があります。そのためには、人間の知能に近い、あるいは質的には類似した知能が必要です。能力の面では優れているかもしれませんが、私たちとのコミュニケーションを単純化するために、質的には比較的類似している必要があります。
これには、人間や動物が物理的世界を理解するのと同じように世界を理解する機械、持続的な記憶を持つシステム、複雑な行動を目標達成のために計画できるシステム、推論できるシステム、そして制御可能で安全なシステムが必要です。
例えば、コーヒーを取りに行くように頼んだとき、コーヒーマシンへの道を別の人がふさいでいる場合に、その哀れな人を踏みつけたり殺したりしないようにする必要があります。これはSFの中のシナリオのような話ですが、人間の価値観とシステムの目標を調整するという問題は、一部の人々が主張するほど複雑で解決不可能な問題ではありません。
では、これは現在のシステム、つまりLLM(大規模言語モデル)やその類似のアーキテクチャーを取り、より多くのデータで訓練したり、より多くの計算能力を使用したり、より洗練させたりすることで人間レベルの知能に到達できるということを意味するのでしょうか?
この質問への私の答えは、絶対にノーです。LLMは非常に有用で強力で、それを使って開発できるアプリケーションはたくさんありますが、それ自体では人間レベルの知能システムにはつながりません。
私は、これを指す一般的な略語であるAGI(Artificial General Intelligence:人工汎用知能)を使うことを避けています。なぜなら、もしそれを人間の知能を持つシステムを指すために使うなら、人間の知能が全く汎用的ではないという事実のために、大きな誤解を招くからです。
人間の知能は非常に専門的です。私たちが知能は汎用的だと想像するのが難しいのは、単に私たちが解決できない問題を想像するのが難しいからです。したがって、AGIは非常に悪い名前です。私は英語でHLI(Human Level Artificial Intelligence:人間レベルの人工知能)を好みます。
あるいは、メタ内部で私たちが使っているような、フランス語ではAMI、英語ではAMI(Advanced Machine Intelligence:先進機械知能)というとても素敵な名前があります。これははるかに合理的です。
知能的な機械を構築する上での最初の問題は、推論の問題です。推論とは何でしょうか?それは単に、システムが出力を計算するプロセスです。
従来の深層学習システムやニューラルネットワークでは、システムが出力を計算する方法は、入力を与え、システム内部でその入力を伝播させ、出力を生成するというものです。つまり、出力を計算するための計算ステップ数は固定されています。
LLMにはこの特徴があり、プロンプト(入力)を与え、トークン(一種の単語)を生成するために、次の単語を計算するための計算量は固定されています。このため、これらのシステムは本当の意味で「考える」ことができません。考えるとは、単純な問題よりも複雑な問題により多くの時間を費やすことを意味します。
LLMが「考える」時間を増やす唯一の方法は、意味のない単語をより多く生成させることです。
最適化による推論と呼ばれる別のモデルがあります。これは、入力と出力の間に、入力と出力の互換性を測る一種の量を計算するシステムを持つことです。つまり、互換性のある入力と出力をシステムに与えると、システムはエネルギーと呼ばれる数値を計算します。
例えば、象の画像を与え、システムに「象」という出力を提案すると、互換性があるためエネルギーは0になります。象の画像を与え、「猫」というラベルを提案すると、システムはより高いエネルギー(例えば10)を出力します。
このタイプのシステムが出力を計算する方法は、入力を与え、可能なすべての出力の中から、このエネルギー(入力と出力の間の互換性)を最小化するものを探します。この検索は、勾配降下法やその他の最適化手法を使って行うことができます。
これは通常の層を通じて信号を伝播させるよりも、概念的・理論的に強力な推論方法です。ほとんどすべての問題を、私が説明したような最適化による推論問題に還元することができますが、固定された計算ステップ数で出力を計算する問題に還元することは常にはできません。
したがって、これは本質的により強力であり、現在のLLMや大多数のAIシステムで使用されているものとは全く異なるモデルです。この種の推論技術は、チェスなどのゲームをプレイできるAIシステムで使用されてきました。そこでは、相手の将来の動きについていくつかのシナリオを想像し、勝利につながる可能性が最も高いシナリオを選択します。
この最適化による推論という考え方は、私が「目標駆動型AI」(Objective-driven AI)と呼ぶアーキテクチャにつながります。これにより、AIシステムは、1980年代から90年代の論理ベースの古典的なAIシステムが解決できた問題、つまり可能な解決策の空間内での検索を行うことができます。これは1950年代にまでさかのぼる考え方ですが、現在のAIモデルではやや見落とされています。
この出力の最適化による計算は、私が考えるに、心理学者がシステム2と呼ぶものの具現化かもしれません。人間や動物の行動において、システム1は無意識的に、本当に考えることなく実行する自動的な行動に対応します。解決に慣れすぎていて、どのような行動を取るべきか考える必要がないものです。
一方、システム2は注意力と意識、そして世界モデルを必要とし、行動の結果を想像することを可能にし、したがって行動の連鎖を計画することを可能にします。
これらのエネルギー関数を使って入力と出力の間の依存関係を捉えるには、エネルギーベースモデル(Energy-based Models)と呼ばれるものを使うのが良い方法です。これらは変数xとyの間の依存関係を捉えます。ここでは図では変数はスカラーですが、離散的、連続的、多次元など、何でも構いません。
エネルギー関数は、互換性のあるX-Yペアで低いエネルギー(例えば0)を取る必要があります。学習セットに存在するペアについて、これを仮定することができます。したがって、このタイプの機械の学習は、単一のスカラー出力を持つ大きなニューラルネットワークになるこのエネルギー関数のパラメータを変更することで構成されます。
このスカラー出力は、学習セット内のX-Yペア(図の黒い点で表される)に対して可能な限り低い値(例えば0)を取るようにします。そして、示されていないポイントに対してはより高い値を取るエネルギー関数を作ります。
ここで複雑になってくるのは、システムに示されていない例に対してエネルギー関数がより高い値を取るようにする方法です。特に、問題の空間が高次元の場合、これは特に複雑になります。
生成モデルとLLMについて少し補足させていただきます。LLMは自己回帰モデルで、左側の単語から次の単語を予測するように訓練されています。訓練は非常に簡単で、テキストの一部を取り、システムにすべての単語を予測するように訓練します。
しかし、システムは単純に入力をコピーすることはできません。なぜなら、予測すべき単語の左側の単語しか使用できないからです。つまり、暗黙のうちに、単語の列に続く単語を予測するように訓練されています。
一度単語を予測するように訓練されると、もちろん、テキストの始まり(質問かもしれません)を与え、次の単語を予測させることができます。その単語を入力に入れ、2番目の単語を予測させ、それを入力に入れ、3番目の単語、というように続けます。
これが自己回帰予測です。メトシャレムの時代からある新しい概念ではありません。しかし、前述のように、そこには思考も推論も計画もありません。精神的な世界モデルもありません。純粋に訓練データの統計に基づいて次のトークンや次の単語を予測するだけです。
これは非常に有用で、驚くほど賢く見えます。大きなニューラルネットワークをこれに訓練すると、膨大な状況を記憶でき、時には問題を解決できるように見えますが、大きな誤りも犯しますし、推論はできません。
この分野の多くの人々が推論に取り組んでいます。Googleや OpenAI、その他の場所、そして大学の研究室でも同様です。特に、アリゾナ州立大学のスワロアティ教授は、より伝統的なAIの背景を持っており、LLMが本当の意味での計画能力を持っていないことを示す一連の実験を発表しています。
いくつかの古典的な計画問題があり...しかし、認知科学の分野からの人々は、LLMが人間の脳だけでなく、多くの動物が行えるような一般化や計画の種類を行うことができないと本当に言っています。
では、最適化による推論を行うこのタイプのモデルを構築するには、どうすればよいでしょうか?やはり、私が「世界モデル」と呼ぶモジュールを中心に構造化する必要があります。アーキテクチャは図に示されているようなものです。
環境の観察から始まります。これは世界全体ではなく、センサーやカメラなどで捉えることができるものです。この入力は知覚システムに入り、知覚環境の抽象的な表現を作り出します。これは図では「初期世界状態表現」として示されています。
もちろん、今私はこの会場を見ていて、この会場の世界の状態についてのアイデアを持っています。しかし、もちろんこの知覚は、世界の残りの部分についての私のアイデアを変えるものではありません。
したがって、現在の知覚では変化しない世界に関する知識や情報の量を含むメモリ(人間の脳や哺乳類の脳の海馬にあるもの)の内容と、私のアイデアを組み合わせる必要があります。
これらはすべて世界モデルに入り、世界モデルの役割は、エージェントが一連の行動を実行した後の結果状態を予測することです。つまり、エージェントは一連の行動(図では黄色で示されています)を想像し、この行動シーケンスを世界モデルに与えます。
世界モデルは、想像された行動シーケンスと世界の初期状態から、この行動シーケンスの結果として生じる世界の未来の状態について、一つあるいは複数の予測を生成します。
次に、この予測された状態は、一連のコスト関数や目的関数に与えられます。その出力は図には示されていませんが、単にスカラー値です。最初のものはタスクに関連する目的で、特定のタスクが完了した場合は低い値(例えば0)を、完了していない場合はより大きな値を与えます。
そして、もう一つの目的セットはガードレールで、システムが生成する状態シーケンスや行動シーケンスが周囲のユーザーを危険にさらさないことを保証するコスト関数です。したがって、これらの目的ガードレールを訓練または構築することで、システムの一種の安全性を確保することができます。
システムの動作方法は次のようです。知覚とメモリの内容、そして行動シーケンスについての仮説が与えられると、システムは結果を予測し、それをコスト関数に与え、その後、最適化によって、タスクの目的とガードレールの目的の両方を最小化するように想像された行動シーケンスを変更または修正しようとします。
これは最適化による推論ですが、世界で何が起こるかを予測する精神的なモデルに接続されています。世界モデルは多くの場合、長い行動シーケンスを取って何が起こるかを予測することはできません。世界モデルを何度も繰り返して実行して、何が起こるかを予測する必要があるかもしれません。
例えば、2つの行動のシーケンスを想像してみましょう。最初の行動を世界モデルに与え、その行動の結果として近い将来に何が起こるかを予測させ、次に2番目の行動を与えて何が起こるかを予測させ、これを何度も繰り返します。つまり、実際には数手先を予測し、その後、最適化によって(勾配の逆伝播に基づく可能性がありますが、まだ学習については話していません)コスト関数を最小化するように行動を変更する方法を見つけます。
繰り返しますが、まだ学習については話していません。これは単に出力の計算のためのもので、勾配降下や他の組合せ最適化手法などによって行うことができます。
残念ながら、世界は完全に決定論的ではありません。物理学者が決定論的だと言っても、完全には予測可能ではありません。なぜなら、完全には観察可能ではないからです。いずれにせよ、カオス的である可能性があるため、予測が非常に困難です。
したがって、世界モデルは正確な予測を行うことができず、おそらく潜在変数と呼ばれるものを与える必要があります。これらは値が不明な変数で、分布からサンプリングされるか、セット内を循環して、不確実性のために起こりうる複数の予測を生成します。
もちろん、予測できないことがたくさん起こる可能性がありますが、この図に示されているすべての関数(端が丸い関数)は決定論的な関数で、計算可能です。これはニューラルネットワークなどで、入力を与えると出力を計算し、一つの出力を持ちます。システムに複数の出力を計算させたい場合は、値を変化させる潜在変数が必要です。それは本当にそれだけのことです。
人間や動物は、一つのレベルで行動のシーケンスを計画することはありません。例えば、ジュネーブからニューヨークに行く計画を立て、明日の午後にニューヨークに到着することを決めた場合(これは私の直後の予定です)、ジュネーブからニューヨークまでの計画をミリ秒ごとの筋肉制御のレベルで立てることはできません。
脳にとって最も低いレベルの行動は筋肉の制御ですが、筋肉制御のレベルでミリ秒ごとにジュネーブからニューヨークまでの旅を計画することはできません。代わりに、階層的な計画を立てます。
つまり、まず非常に抽象的なシナリオを立てます。「ニューヨークに行くには、空港に行ってニューヨーク行きの飛行機に乗る必要がある」と。これは「空港に行く」という部分目標を与えます。
空港にはどうやって行きますか?タクシーを呼ぶか公共交通機関を使う必要があります。タクシーを選んだとします。では、タクシーを呼び、通りに出る必要があります。通りにはどうやって出ますか?ドアまで歩いて、通りに出る必要があります。
ドアまではどうやって行きますか?まずドアがどこにあるかを知る必要があり、そして一歩一歩進む必要があります。一歩一歩進むにはどうすればよいでしょうか?
このように、筋肉制御のレベルまで下りていくことができ、実際にこの階層は非常に深いものです。あるレベルまでいくと、タスクが非常に単純なので計画を立てる必要がなくなります。無意識的に実行できるようになります。
しかし、この階層的計画の問題は、AIでは完全に未解決です。もしAIで博士課程を考えているなら、この問題に取り組んでみてください。完全に未開拓です。
これは人々がそこに取り組んでいないという意味ではありません。学習技術でこれを行う方法が分からないという意味です。手作業で構築する方法は知っています。今日のほとんどのロボットは階層的計画を使用していますが、それは完全に手作業で行われています。
では、これをどのように学習させるのか?世界モデルをどのように学習させるのか?これらの目的関数とガードレールをどのように学習させるのか?これら3つの問題は本質的に未解決ですが、進歩を示す例をいくつかお見せしましょう。
これらのアイデアはすべて、私が「目標駆動型AI」(Objective-driven AI)あるいは目標駆動型アーキテクチャと呼ぶ知的システムの全体的なアーキテクチャに貢献しています。2年半前に発表した論文で、これについて少し説明しました。アドレスはここにあります。
arXiveではなくOpen Reviewに載せたのは、コメントを付けることができ、私が間違っているところを指摘してもらえるからです。時間の無駄を避け、この論文を修正できることを嬉しく思います。これはChatGPTの前でしたが、計画は変わっていません。これは今後10年間、あるいはもう7年半になりますが、人工知能研究がどこに向かうべきかについての私のアイデアです。
このプロジェクトが成功すれば、7年半後には人間レベルの知能に達することができるかもしれないアーキテクチャを手に入れることができます。マーク・ザッカーバーグは私がそう言うのを聞くのが好きですが、何も約束することはできません。
このアーキテクチャは、先ほど話した同じモジュールで構成されていますが、少し異なる方法で配置されています。より概念的なものですが、知覚システム、先ほど話した世界モデル、最適化された行動シーケンスを見つけようとするアクターモジュール、そして赤で示された目的、短期記憶があります。
そして上部に、特定のタスクを実行するため、特定の目標を満たすためにシステムを構成するために使用される、少し謎めいた「コンフィギュレーター」と呼ばれるモジュールがあります。
このシステムを構築したとは言えませんが、必要不可欠なモジュールを構築している最中です。最終的に、このような種類のアーキテクチャで、物理的な世界を理解でき、永続的な記憶を持ち、推論と計画ができ、目的とガードレールによって制御可能なシステムを持つことを期待しています。
では、感覚データから世界モデルをどのように学習させるのでしょうか?教師あり学習を使うことは常に可能です。つまり、機械に「これが現在の世界の状態で、これがあなたが取る行動です。スイスの山の崖の近くを運転する自律車の場合、左に曲がりすぎないように注意してください。崖下に落ちてしまいますよ」と教えることができます。
しかし、システムに「これをしなさい」「これをしてはいけません」などと言って、膨大なデータに注釈を付けることはできません。システムが幼い動物や人間の子供のように、世界の仕組みを自分で学習できるようにする必要があります。
生後数ヶ月の間、彼らは世界に直接的な影響を与えることはほとんどできませんが、観察を通じて世界についての驚くべき量の知識を獲得することができます。
残念ながら、この目標を達成するために本当に不可欠なコンポーネントがまだ不足しています。テキストでは達成できません。ビデオから学習できるシステムを訓練する必要があります。
まだ完全に成功していないことを示す指標の一つは、弁護士と同じくらい上手に法律試験に合格できるLLMがあることです。弁護士の方々がたくさんいらっしゃらないことを願いますが、訓練セットの一部である複雑そうに見える質問に答えることができます。したがって、確かに大きな記憶を持っています。
しかし、10歳の子供が1回で学べるようなタスク、つまり説明なしでテーブルを片付けて食器洗い機に入れることができる家庭用ロボットは、まだ持っていません。イーロン・マスクが言うことにもかかわらず、人間と同じくらいの信頼性で人間の介入なしに自律走行できる車もまだありません。
もちろん、存在はしますが、それらは環境の完全な地図を持ち、人間の視力を超えるセンサーを持つなど、ある意味でごまかしています。Waymoや Cruise、その他の企業のものがそうです。しかし、本当の意味での自律運転車はまだありません。
一方、どんな10代の若者でも、基本的に20時間の練習で、少なくとも崖から車を落とすことなく(そうでなければスイス人はほとんどいなくなっていたでしょう)、事故を起こすことなく車の運転を学ぶことができます。
それは人間だけではありません。猫や山羊が一連の障害物の下で、上に到達するためにどのようにジャンプするかを計画するのを見たことがあれば、それは驚くべきことです。
これは、モラベックのパラドックスと呼ばれるものの別の例です。数字で表すことができます。今日の最大のLLMは、典型的に20兆のトークンで訓練されています。トークンは単語のようなもので、部分語です。各トークンは約3バイトなので、約6×10^13バイト、つまり後ろに13個のゼロがつく6、あるいは良い数字にするために14個のゼロがつく1くらいの量になります。
どんな人間でも、これを読むのに数十万年かかるでしょう。実際、これはインターネット上で公開されているすべてのテキストの総量です。これは信じられないほどの情報量のように思えます。
しかし、発達心理学者、おそらくピアジェの後継者たちに聞くと、4歳の子供は合計16,000時間起きています。データとしてはそれほど多くありません。16,000時間はYouTubeへの30分のアップロードに相当します。
光学神経には200万の繊維があります。各目に100万ずつです。光学神経の各繊維は1秒あたり約1バイト(実際はもう少し少ないですが、問題ありません)を伝えます。したがって、4歳の子供が見てきたデータ量は約10^14バイトで、最大のLLMとほぼ同じ桁数です。そしてそれはたった4年です。
「でも、視覚的なコンテンツはテキストよりもはるかに冗長です」と言われるかもしれません。はい、その通りです。しかし、冗長性は必要なのです。なぜなら、学習システムは冗長性に依存して、データの構造、世界の構造を学習するからです。
冗長性がなければ、つまり学習システムにランダムなデータを与えた場合、学習は不可能です。データに構造がないからです。したがって、データが冗長でなければなりません。そして、確かにビデオはテキストよりも冗長ですが、それはむしろ利点なのです。
これらの4年間の観察から、あるいは4ヶ月でさえ、子供は複雑な物理的概念を数ヶ月で学ぶことができます。主に観察によって、そして生後数ヶ月の間は少しの相互作用によってです。初期の数ヶ月は本質的に観察によるものです。
その後、子供たちは物を掴んだり操作したりできるようになり、より多くの相互作用が生まれます。しかし、子供たちは、物体が生命を持つか持たないか、置かれた物体が安定するか落ちるか、物体の永続性(これは非常に早い時期、おそらく2ヶ月前に現れます)などを学びます。
物体が自然なカテゴリーに属することを理解するのに、話すことができる必要はありません。テーブルと椅子は異なるものであり、猫も異なるものであることを理解します。そして9ヶ月頃には、直感的な物理学の概念、重力、慣性などが現れます。
これにより、私たちは常識を持ち、世界がどのように機能するかを知り、何が可能で何が不可能かをある程度知ることができます。これには時間がかかりますが、本質的に観察によって学ばれます。
私にとって大きな疑問は、子供たちと同じように機械に世界の仕組みを学ばせる方法です。非常にシンプルなアイデアがあります。それは自己教師あり学習で、LLMの訓練に使用されています。
おそらくChatGPTのようなLLMではありませんが、少なくとも翻訳や音声認識などに使用されるものには使われています。テキストを取り、そのテキストに一種の破損を加えます。よく行われるのは、特定の単語を削除したり、特定の単語を変更したりすることです。
そして、大きなニューラルネットワークを訓練して、欠落している単語を予測させます。これを行うことで、システムは実際にこのタスクを解決するために、言語の内部表現を作り出し、それは意味論、構文、文法、そしてすべての驚くべきものを含むことができます。
これはテキストに対してはとてもうまく機能します。DNAやタンパク質のシーケンス、つまりアミノ酸のシーケンスに対してもうまく機能します。記号的あるいは離散的なものに対してはうまく機能します。
そして、もちろん非常に自然なアイデアは、私が15年ほど前から取り組んでいることですが、ビデオに対して同じことを行うことです。ビデオを取り、そのビデオに一種の破損を加え、そして大きなニューラルネットワークを訓練して、このビデオの欠落している部分を予測させる、おそらくこのビデオの未来を予測させるというものです。
しかし、これはまったくうまくいきません。ビデオの未来に起こりうることは無限にあるからです。たくさんの可能性があり、システムを訓練して予測させると、それはすべての可能な未来の平均を予測します。その結果、非常にぼやけた画像になります。
上の小さな女の子の例でまさにそれが起こっています。この短いビデオの最初の画像は観察されたもので、最後の2つは予測されたものです。そしてそれらは非常にぼやけています。
私たちは、下のビデオのような少し記号化されたものでも作業しました。車が走り回っているものです。左から2番目の列を見ると、この高速道路上の車がこの問題のために予測を進めるにつれてぼやけていくのが分かります。
この問題に対する部分的な解決策を見つけました。先ほど少し話した潜在変数モデルを使用しますが、実際にはあまりうまくいきません。
その解決策は、私がJEPA(Joint Embedding Predictive Architecture:結合埋め込み予測アーキテクチャ)と呼ぶ新しいアーキテクチャです。これがどのようなものか見てみましょう。
先ほど示したものとの違いは何でしょうか?違いは、ビデオのすべてをピクセルレベルで予測する代わりに、アーキテクチャが完全なビデオと破損したビデオの両方の抽象的な表現を計算し、そしてビデオの抽象的な表現を予測するようにすることです。
つまり、ビデオのすべてのピクセルを予測するのではなく、ビデオの抽象的な表現を予測します。これには、ビデオの有用な情報を含みながら、予測不可能なすべての詳細を除外することが期待されます。
例えば、道路を走る車のカメラからのビデオがあるとします。道路上の他の車、トラック、歩行者、自転車の軌道を予測できることは重要です。しかし、道路を縁取る木々の葉の動きを予測することは、おそらくあまり重要でも面白くもありません。そしていずれにせよ、完全にカオス的なので予測不可能です。
したがって、予測できない情報を除外し、この抽象的な空間で予測を行うことができる抽象的な表現を作り出すことができるシステムが必要です。これをJEPAと呼んでいます。メタとNYUで私と一緒に働く学生や研究者との一連の論文で、このシステムを機能させようとしています。
では、2つのアーキテクチャを対比してみましょう。Yを再現しようとする生成アーキテクチャと、ここではSyと呼ばれるYの表現を予測するJEPAアーキテクチャです。XからSXを計算し、YからSyを計算し、SXからSyを予測します。
私にとって、人工知能の未来は非生成的なアーキテクチャにあります。今日、メディアでは、生成的AIを現代的AIと同一視することがよくありますが、私にとって、次世代のAIシステムは生成的ではありません。
これらのJEPAにはいくつかの種類がありますが、詳細には立ち入りません。大きな問題は、どのように訓練するかです。このエネルギーベースのアイデアは、実際にこれらのシステムの訓練方法を定式化することを可能にします。
互いに互換性のあるX-Yの例(例えば、Xがビデオのある部分でYがその続き)を与え、YがXの良い続きである場合に低いエネルギーを与えるようにシステムを訓練します。そしてYがXの良い続きでない場合、エネルギーが高くなるようにする必要があります。
これには方法がありますが、まずエネルギー関数が「崩壊」と呼ばれる現象を起こす可能性があります。つまり、すべてに対して同じエネルギー(ゼロ)を与えてしまうのです。これは良いモデルではありません。訓練するものに対して低いエネルギーを与え、訓練しないものに対してより高いエネルギーを与えるモデルが必要です。
これには2つのカテゴリーの方法があります。対照的方法と正則化方法です。対照的方法は、互換性のないX-Yペアを作成し、システムのパラメータを調整してエネルギーを上げることです。しかし、これは高次元空間では非常に効率が悪いのです。エネルギーを押し上げる必要がある場所が多すぎて、本当にスケールしません。
したがって、むしろ正則化方法を使います。これは、低いエネルギーを取ることができる空間の体積を制限するというものです。つまり、ある領域のエネルギーを下に押し下げると、残りは上がらなければなりません。なぜなら、低いエネルギーを取ることができる領域の体積は限られているからです。
これは少し謎めいて聞こえるかもしれませんが、例をお見せしましょう。繰り返しになりますが、これら2つの方法、対照的方法と正則化方法について。1990年代初頭に対照的方法の開発に貢献しましたが、今では正則化方法にずっと熱心になっています。
これらのことがうまく機能するかテストするために、ニューラルネットワークを訓練します。数年前に行った最初の実験の1つは、対照的または非対照的な方法でニューラルネットワークを訓練することでした。
同じ画像の異なるバージョンのペアを与え、これら2つの画像に対して同じ表現を生成するように、あるいは一方の画像の表現からもう一方の画像の表現を予測するようにネットワークを訓練します。
ここでは、一方が少しズームされ、もう一方が少し広角の2つの画像があり、システムを同時に訓練して、予測可能だが入力に関する可能な限り多くの情報を保持する表現を見つけます。
エンコーダーが訓練されたら、エンコーダーによって構築された表現を、教師あり方式で訓練される分類器の入力として使用します。標準的な画像データベースでこの分類器の性能を測定すると、これは非常にうまく機能します。
再構築に基づく方法、つまりデノイジングオートエンコーダー、マスクドオートエンコーダー、変分オートエンコーダーなどの生成的方法は、うまく機能しません。したがって、画像に適用される生成的方法は機能しないという強い証拠が多くあります。一方、結合埋め込みに基づく方法は本当に良い解決策で、はるかに良い結果が得られます。
結果の表は省略しますが、本当に明確です。このための対照的方法は機能します。これらは1990年代に遡り、2020年のSimCLRなどの最近の結果もありますが、これらのシステムによって生成される表現は少し退化しています。したがって、正則化方法を好みます。
JEPAアーキテクチャの文脈では、これは出力が持つ情報内容の一種の測定を持つことを意味します。これは、エンコーダーによって生成される表現の情報内容を最大化する学習によって最小化されるコストの一部となります。
しかし、これには大きな問題があります。情報内容を最大化する方法が分からないのです。情報内容を測定する方法さえ分かりません。情報内容の上限を推定することはできますが、私たちが望むのは情報内容を最大化することです。
したがって、下限が必要です。そうすれば、下限を上に押し上げると、情報内容も押し上がります。残念ながら、下限はありません。上限はありますが。したがって、この上限を上に押し上げ、本当の情報内容が上限に従うことを願うか、宗教的な人なら祈ります。そしてこれは機能します。
私と共同研究者たちは、一連のアルゴリズムを開発しました。Barlow Twins、そしてViRegと呼ばれるもの(これは分散不変共分散正則化の略です)、そしてViRegの変種の一連の論文があります。
他の人々も似たようなアルゴリズムを提案しています。バークレーのYi Maの研究室からのMCR、MCR squared、そしてNYUの神経科学の同僚であるStephen YooganとRubin ChallierからのMMCRなどです。
これらは情報内容最大化による方法で、間接的に、低いエネルギーを取ることができる空間の体積を正則化する一種であることが分かりますが、詳細には立ち入りません。
もう一つの技術のセットは、蒸留法と呼ばれるものです。2020年にDeepmindによって提案されたBYOLという方法があり、その後、メタの同僚たちによるSimSiam、DINO、そして最近では、パリとモントリオールの同僚たちと私が貢献したPEA、そしてその動画版であるvJEPAがあります。
これらの方法は情報最大化に基づいているのではなく、一種のシステムD、英語でハックやクリーバーな解決策と呼ばれるようなものに基づいています。これは、謎めいた方法で2つのエンコーダー間で重みを共有しようとする考えです。
2つのエンコーダーはアーキテクチャレベルで同一である必要があり、重みを共有する必要があり、片側からのみ勾配を伝播させる必要があります。他にもいくつかのトリックがありますが、最終的にはシステムは崩壊することなく学習します。
つまり、システムが入力を無視し、一定で同一の表現を生成する最悪のケースを避けることができます。その場合、予測問題は解決されますが、システムはまったく興味深くありません。
正直に言うと、理論的な観点からは完全には理解できていません。しかし、メタの同僚のYang Tianと彼の共同研究者であるShubham GanguliとShenda Shiらが、理論的な論文を書き、結局のところ、これが機能する良い理由があることを示しています。私はすべてを理解しているわけではありませんが、機能します。
少し改良された蒸留法があり、それはDINO V2と呼ばれます。これはなぜ崩壊しないのか理解できます。なぜなら、より明示的だからです。これは完全に自己教師あり方式で訓練されたオープンソースモデルで、ここに示されたURLからダウンロードできます。
これは一種の汎用画像特徴抽出器で、世界中の多くの人々が画像理解や分析に使用しています。彼らがやっているのは、DINO V2によって生成される特徴を抽出し、それに別のシステムを接続することです。このシステムは教師あり方式で訓練されますが、非常に小さいため、ほとんどデータを必要としません。
例えば、生物学的画像の分割、細胞や細胞核の発見、衛星画像からの特定の植物の識別などの問題を解決するために使用されます。これは非常にうまく機能します。詳細は省略しますが。
かなり面白い応用例があります。メタのパリオフィスのCamille Coupriと彼の共同研究者たちによって行われたもので、非常に少ない画像から樹冠の高さを推定するというものです。
もちろん、地球全体の衛星画像はたくさんありますが、樹冠の高さが分かっているラベル付き画像は非常に少ないです。それにはライダーを搭載した航空機やドローンが必要だからです。したがって、そのようなデータはそれほど多くありません。
しかし、このような多様なデータはあります。Camilleがやったのは、DINO V2の表現を使用し、ライダーからの少ないデータで教師あり方式でDINO V2の上にヘッドを訓練し、その後、それを世界中に適用することです。
これにより、世界中のどこでも樹冠の高さを推定でき、したがって植生に閉じ込められた炭素量を推定することができます。これは気候変動予測にとって非常に興味深い量です。気候変動に対してポジティブな影響を与えるAIの応用例であり、ネガティブなものではありません。
JEPAのバージョンの1つがImage JEPAです。これも蒸留法で、非常にうまく機能し、訓練が非常に速く、マスキング以外のデータ拡張を必要としません。どのように機能するかの詳細は省略しますが、基本的には画像を取り、部分的にマスクし、そして完全な画像の表現を部分的にマスクされた画像から予測するようにJEPAアーキテクチャを訓練します。
これは非常にうまく機能します。まだDINO V2のような汎用特徴抽出器としては完全に使用できませんが、モデルはオープンソースで、DINO V2と同様にダウンロードできます。
そして、動画版を作成しました。動画を取り、部分的なマスキングを行い、システムを訓練し、最後に動画で起こるアクションを分類するために、システムから抽出された表現にヘッドを接続します。
これにより、先ほど述べた動画を再構築するように訓練された方法よりもはるかに優れた結果が得られます。したがって、再構築方法、生成的方法が機能しないという多くの証拠が今やあります。画像に対しても動画に対しても機能しません。まあ、機能はしますが、あまりうまくいきません。
機能する唯一の方法は、これらの結合埋め込み法、特にJEPAです。フランス語では「結合埋め込み予測アーキテクチャ」となりますが、頭字語は言葉の上でそれほどスムーズではありません。
繰り返しになりますが、すべての詳細は省略しますが、このvJEPAの話は本当にうまくいっています。実際、私たちは近々論文を提出する予定ですが、このvJEPAシステムは16フレームの非常に短い動画でしか訓練されていないにもかかわらず、ある種の常識を持っていることを示す初期の結果があります。
つまり、可能な動画を与えた場合、例えばボールが転がってスクリーンの後ろを通り過ぎ、スクリーンを下ろすとボールがそこにある動画と、ほぼ同じような動画で、ボールが転がってスクリーンの後ろで止まり、スクリーンを下ろすとボールがなくなっている(これは可能な動画ではありません。オブジェクトが消えているからです。一種の不連続性があります)動画をこのシステムに見せ、この動画の予測誤差を教えてもらうと、システムは一貫して不可能な動画の方が予測誤差が高いと答えます。
このシステムは、現実で何が可能で何が不可能かを少し学習しています。これは良い始まりです。この論文を書いているところです。
さらに興味深いのは、ここで終わりにしますが、DINO World Modelと呼ばれる最近のモデルです。まだ話していませんでしたが、これは初めて話すことです。論文はまだarXivには掲載されていませんが、おそらく1週間以内には掲載されるでしょう。
NYUのロボティクスの同僚であるLerrel Pintoと私が共同指導している学生のGoh Zouによるものです。Gohがやったのは、行動に条件付けられた世界モデル、予測器を訓練して計画を立てることですが、エンコーダーを訓練せずに、エンコーダーは事前訓練されています。実際には、DINO V2に基づく画像表現です。
ストーリーはこうです。画像を取り、それをDINO V2のエンコーダーに通して、その画像の表現を得ます。そして、シミュレートされたロボット環境で取られた行動に対応する画像シーケンスを観察し、時刻T+1での世界の状態の表現を、時刻Tでの表現と時刻Tで取られた行動から予測する予測器を訓練します。
このモデルから、シーケンスを計画することができます。つまり、特定の状況から始めて表現を計算し、次に仮定した行動シーケンスで世界モデルを適用し、最後に目標状態との距離を測るコスト関数を測定することができます。
目標状態は、目標の画像を取ってDINOエンコーダーに通すだけで計算でき、表現空間でのユークリッド距離を使用します。そして最適化によって、このコストを最小化する行動シーケンスを見つけようとします。
この最適化技術について、先ほどのスライドで述べるべきでしたが、制御理論ではMPC(Model Predictive Control:モデル予測制御)と呼ばれています。これは完全に古典的なもので、1960年代初頭にまで遡ります。しかし、従来は制御するシステムのモデルを手作業で書いていました。私が話しているのは、データからすべて学習されたモデル、そしてそれだけでなく、複雑なモデル - 世界の将来の状態を現在の状態と行動から予測するように訓練された大きなニューラルネットワーク - なのです。そしてこれは比較的シンプルなケースでうまく機能します。
なぜ重なって表示されているのか分かりませんが、ここでのタスクは...左下の例が見えないのが残念ですが、これはTという文字の形をした物体を小さな点で動かし、押して、事前に決められた目標位置に到達させるというタスクです。ここに示されているのがそれです。
他の2つの例もあります。一つは、赤い点を壁の片側から反対側へ、ドアを通って移動させる軌道を計画するというものです。システムは、壁を通り抜けることができず、ドアを通らなければならないことを学ばなければなりませんでした。それは軌道を計画することができます。
もちろん、これは手作業で解決できる問題です。完全に些細なことですが、システムがそれを解決できることを見るのは興味深いです。
2番目のものはもう少し自明ではありません。ロボットアームを使って紐を変形させ、特定の形状と位置にするという計画を立てるものです。
これらすべてのタスクで学習例を生成しました。他の方法と比較しましたが、特にうまく機能しないようです。特に、DeepMindのDanijar Hafnerと共同研究者によって開発されたDreamer V3という方法は、同じようにうまく機能しません。
ここに示されている画像は、システムの内部表現から予測され、別途訓練されたデコーダーを通過して生成されたものです。このデコーダーは画像を生成しますが、システムの訓練には使用されません。これは単なる可視化のテクニックです。
これらの問題は少し単純で、それほど興味深くありません。Granularと呼ばれるもう少し興味深い問題があります。スピーチにビデオを残しておいたことを願っていますが、これは本当に面白いものです。
このタスクの目的は、テーブル上にランダムに配置された青い粒子があり、行動はロボットアームを下ろし、ΔxΔy移動させ、上げることです。つまり、4つの数字、アームを下ろす座標とΔxΔyです。タスクは、これらの青い粒子をランダムな形から正方形や他の形に集めることです。
いくつかの方法を試しましたが、私たちの方法は他のものよりもずっとうまく機能しているようです。一連の環境について、これを定量的に示しています。右側のGranularだけでなく、ここでパフォーマンス指標はChamfer距離(フランス語での呼び方を忘れてしまいました)と呼ばれるもので、値が低いほど良いです。
私たちの方法であるDINO World Modelは青で示されており、Dreamer V3やTDMPC2など、強化学習ではなく世界モデルを使用する他の方法よりもずっとうまく機能します。他のタスクについても同様ですが、詳細には立ち入りません。
ここにPとPointの機能を示すいくつかのビデオがあり、最後に、右側に示されているのは各行動後の段階です。もう一度お見せしますが、各行動後に、粒子の構成がどうなっているかが分かります。
上部に示されているのは、これらの行動を実際に取った場合に何が起こるかです。これらは事前に計画された行動で、オープンループで実行されます。つまり、行動の結果を見ずに、これら5つの行動(記憶が正しければ)を実行します。
上部は実際のシミュレータでの5つの行動の結果を示し、下部はシステムの内部モデルによって生成された予測を示しています。そしてこれはかなり正確です。ここでは、DINO V3がDINOと比べてうまく機能しないことを示す予測です。
このように、この最適化による推論と計画の話が、粒子間の相互作用、摩擦など、本当に複雑な動力学を含む世界モデルで機能することを示す最初の結果があります。手作業でモデル化するのが難しいような物理系でも、これを行うことができます。
私にはいくつかの推奨事項があります:
生成モデルをJEPAに代わって放棄する
確率モデルをエネルギーベースモデルに代わって放棄する
対照的方法を正則化方法に代わって放棄する
強化学習を放棄する(これは何年も言い続けています)
これら4つの事項は、現在の機械学習分野で最も人気のある事項です。それは私を不人気にしますが、まあ、慣れています。
これらの中にはまだ解決すべき問題がたくさんあります。これらのシステムを大規模に機能させること、つまり多くのデータで機能させること。ビデオだけでなく、実際のビデオ、テキスト、音声、コード生成とコード計画、対話、数学など、あらゆる興味深いことに機能させること。
計画のための最適化アルゴリズムも必要です。大きなニューラルネットワークを通してコストを最小化する行動シーケンスを最適化するのは簡単ではないからです。非凸性の問題がたくさんあります。
潜在変数を持つJEPAも必要で、これにより不確実性を扱い、不確実性がある中で計画を立てることができます。これはやや複雑です。そしてもちろん、階層的計画を行うことも。これらは未解決の問題です。今博士課程を始めるなら、これらの問題に取り組んでください。本当に興味深いですし、競争もそれほど多くありません。
他にも詳細には立ち入らない問題もあります。
さて、未来についてです。やや普遍的なAIシステム、おそらく7年、8年、10年、あるいは20年後には人間レベルの知能を持つかもしれないアシスタント。分かりませんが、これらの進歩が今後数年間で本当に新しいタイプの知的システムにつながることを期待しています。
AIシステムは人類のすべての知識の保管庫となるでしょう。つまり、知識にアクセスする必要がある場合、図書館に行ったりインターネットで検索したりする代わりに、単にアシスタントに尋ねればよいのです。
これは、デジタル世界との私たちのほとんどの相互作用がAIアシスタントを通じて行われる世界につながります。これらのAIシステムがアメリカ西海岸の一握りのテック企業によって管理されることは想像できません。
スイス政府やフランス政府、そしておそらくアメリカ以外の多くの政府にとって、市民に届くデジタル情報のすべてがカリフォルニアや西海岸の2、3の企業によって管理されることは、完全に受け入れられないでしょう。これらの企業が善意を持っていたとしても、それは民主主義にとって危険です。
必要なのはオープンソースのプラットフォームです。これが、私がAIのオープンソースプラットフォームの大きな擁護者や推進者である理由の一つです。将来のAIシステムの言語的、文化的、価値観的な多様性を可能にするためです。
本当にLLM、そして最終的により洗練されたAIシステムを人類のすべての知識の保管庫にしたいのであれば、これらのモデルの訓練を世界中に分散させる必要があります。
スイスで訓練されたモデルがフランス語を理解することは、それほど難しくないでしょう。パリジャンと比べて、「80」と「90」を「80」と「90」とは理解しないように修正する必要があるだけです。
しかし、書き言葉のないスイスドイツ語も理解する必要があります。つまり、これらのシステムを訓練するための材料がほとんどありません。ヨーロッパで話されているすべての方言、アフリカで話されている2000の言語、インドで話されている1500の言語(インドには既に22の公用語があります)、インドネシアで話されている700の言語、そして世界中の書き言葉のない言語すべて - 実際、書き言葉のある言語よりも多くの言語があります。
そのためには、これらのシステムの学習を世界中に分散させる必要があります。例えば、インドではインドの言語で訓練できるようにする必要があります。しかし最終的には、世界中の共通の知能を持つシステムを持つ必要があります。
したがって、オープンソースはこの未来に必要不可欠です。しかし、オープンソースの問題は、AIシステムは本質的に危険だと考える人々がいることです。彼らはAI研究と開発を規制し、特にオープンソースシステムの配布を規制しようとしています。
これはオープンソースを殺してしまいます。メタのような企業にとって、規制によって危険すぎるとされる可能性があるなら、モデルをオープンソースで配布する価値はありません。したがって、特にヨーロッパでの規制は、オープンソースを殺してしまう可能性があります。
ヨーロッパの政府(EUの政府ではなく、ヨーロッパの各国政府)は、ヨーロッパにおけるAIの主権への道がオープンソースを通じて実現されることをよく理解しています。したがって、彼らはEUと戦っています。これは少し心配です。
ここで終わりにしたいと思います。ありがとうございました。
[拍手]
質疑応答がありますので、ご遠慮なくご質問ください。この機会を活用してください。
質問者:「プラットフォームについて今お話しいただきましたが、インフラストラクチャについてはどのようにお考えですか?非常にコモディティ化されたものか、それとも今日よりもずっと分散化されたものでしょうか?」
ヤン・ルカン:「計算インフラストラクチャのことですね。もちろん、大規模なモデルを訓練する、あるいは単に微調整するためには、かなりの計算能力が必要です。メタで使用している一種の最小限の量は、16,000個のGPUクラスターです。
問題は、16,000個のGPUクラスターは、まず10億ユーロ、スイスフラン、またはドルかかることです。そして、多くのエネルギーを消費します。ギガワット規模です。
したがって、これらの計算センターは、エネルギーが安価なだけでなく、脱炭素化されている国に設置する必要があります。つまり、原子力エネルギーがあるフランス、水力発電があるスイス、水力発電があるケベック、あるいは水力発電があるコスタリカ(ただし他の問題もあります)、そして当然ながら他のいくつかの国です。
例えば、純粋な太陽光や風力エネルギーは使用できません。太陽が出ていないときや風が吹いていないときでも機械を動かす必要があり、現時点では必要な規模でエネルギーを貯蔵することができないからです。
したがって、AIの未来に興味を持つ多くの人々は、実際に原子力発電所の隣に計算センターを設置することを検討しています。これにより、エネルギーの輸送による損失を避けることができます。」
質問者:「プレゼンテーションをありがとうございます。少し技術的な質問ですが、情報理論が新しい形のモデル訓練の作成に役立つと思われますか?情報最大化のような情報理論について言及されましたが、それは可能でしょうか?」
ヤン・ルカン:「はい、それは非常に可能です。残念ながら、情報理論は情報の測定方法を教えてくれません。情報量を測定できた場合の性質を教えてくれるだけです。情報量を測定するためには、確率分布を推定する必要がありますが、絶対的な方法で確率分布を推定することはできません。
膨大なデータが必要か、推定を正則化するための事前分布が必要です。そしてそれは完全に恣意的です。したがって、実際にはそれを行う方法がありません。特に高次元では、依存関係を信頼性高く推定する方法がありません。
したがって、これは一般的な性質を導出するなど、いくつかの問題を解決するのに役立ちますが、実践的にはアルゴリズムに還元することはできません。ただし、情報理論の専門家でRavid Schwartz-Zivという優秀なポスドクが私と一緒に働いており、情報理論の適用可能性、特に情報最大化によるSSL訓練などについて一連の論文を書いています。」
質問者:「プレゼンテーションをありがとうございました。とても勉強になりました。JEPAベースのシステムは画像や動画に関してはよく理解できました。言語に関してはどうでしょうか?また、なぜ単純な確率的・生成的モデルでも、あなたの定義では本当の推論はできないはずなのに、推論能力のような創発的な能力を示すことができるのか、どのように説明されますか?」
ヤン・ルカン:「最初の質問について、まだ分かりません。ただし、テキストにJEPAを使用する、そしてコード、つまりコード生成にJEPAを使用する、という2つのプロジェクトがあります。
もちろん、LLMを訓練して微調整するだけで、完全に自動的にコードを書くことはできます。しかし、複雑なプログラムやソフトウェアシステムを書く場合、少し計画を立てる必要があります。階層的に、データ構造などを使って。現在のコード生成システムにはそれができません。私たちはそれに取り組んでいますが、まだ結果をお話しすることはできません。
2番目の質問について、純粋にデコーダーのみ、つまりGPTアーキテクチャのモデルが、大量のデータで訓練すると非常にうまく機能するのはなぜでしょうか?確かにこれは驚くべきことですが、本質的には記憶の再生です。
最良の例の1つは、どのLLMにでも子供向けのパズルの解答を求めた場合です。狼、ヤギ、キャベツがあり、川の片側にいます。2つしか運べないボートがあり、もちろん狼はヤギを食べたがり、ヤギはキャベツを食べたがります。どうすればよいでしょうか?
まず、ヤギを運びます。狼はキャベツを食べませんから。次にキャベツを運びますが、ヤギを戻さなければなりません。さもないとヤギがキャベツを食べてしまいます。そして狼を運び、最後にヤギを運びます。そこで全員が監視されているので問題ありません。
このパズルをGPT whatever に出すと、とてもうまく解けます。しかし、それはこのパズルの解答がインターネット上の至る所にあるからです。システムは基本的に暗記しただけです。
次に問題の設定を少し変えてみましょう。狼とキャベツだけがいると言うと、同じ解答を出します。3往復する必要があると言います。実際の世界モデルを持っていないのです。一方から他方に移動すると最初の側にはいなくなること、物体は同時に2つの場所にいることはできないこと、狼はキャベツを食べないことなど、これらの知識がLLMには存在しません。
もちろん、このような批判が出されて以来、LLMを構築する人々は、このパズルのあらゆる変種をデータセットに入れ、システムが正しく答えられるように訓練しました。
このような話があります。数年前、NYUの哲学者の同僚が「LLMが解けない問題はありますか?」と聞いてきました。私は「簡単です」と答えました。
「7つの歯車があり、それぞれが軸の上に置かれていて、各歯車は前後の歯車と噛み合っています。2番目の歯車を時計回りに回すと、7番目の歯車はどちらに回転するでしょうか?」
彼らは「複雑すぎる」とは答えませんでした。一連の推論をする必要があり、それができないのです。また、精神的なモデルが必要です。
数ヶ月後、この議論がTwitterで公開されていたのですが、誰かが「実は、この問題は今やLLMによって簡単に解決できます。なぜなら、Twitterで訓練されており、問題がそこにあったからです。みんながそれについて話していました」と言ってきました。
そこで同じ哲学者が、現在のLLMが解決できない別の問題を考えました。とても簡単です。「歯車を取って円上に配置します。すべて隣同士が噛み合っています。2番目の歯車を時計回りに回すと、7番目の歯車はどちらに回転するでしょうか?」
システムは歯車が線上にあるかのように答えます。もちろん、これは不可能です。奇数個の歯車を円上に配置して、1つを回そうとすると、回転できません。歯車は固定されてしまいます。
もちろん、LLMはこれについて全く理解していません。もちろん、この問題を直感的に解決できない人間もたくさんいますが、十分に考えれば解決できるでしょう。
このように、精神的なイメージ、精神的なモデルを必要とする問題がたくさんあり、LLMはその答えで直接訓練されない限り、それらを解決することができません。」
質問者:「プレゼンテーションをありがとうございました。私たちが言語とビジネスに関連する良い解決策を見つけたJEPAベースのシステムに関して、モデル2、3と一緒に続けていきましょう...」
ヤン・ルカン:「はい、ありがとうございます。」