ヤン・ルカン | 目的駆動型AI: 学習、記憶、推論、計画ができるAIシステムに向けて

2024年8月31日 06:56

私はダン・フリードで、ハーバード大学の数理科学・応用センターのディレクターです。このセンターは10年前にS.T.ヤウによって設立されました。数学のセンターです。私たちは数学と、科学との双方向の相互作用における数学に取り組んでいます。数学、物理学、経済学、コンピューターサイエンス、生物学の研究を行う多くのポスドクがいます。
私たちはいくつかのプログラム、ワークショップ、会議を運営しており、年に数回特別講演を行っています。今日はそのうちの1つです。これは第5回年次ディン・シュム講演です。本日は、メタのチーフAIサイエンティストであり、ニューヨーク大学の教授で、機械学習の多くの形態に精通しているヤン・ルカンをお迎えできて大変嬉しく思います。
今日は、目的駆動型AIについてお話しいただきます。
ありがとうございます。招待していただき、主催していただき感謝します。ここ数年、少なくとも6ヶ月に1回くらいハーバードで講演をしているように思います。しかし、毎回異なる聴衆に向けてです。物理学部、数学センター、心理学、あらゆる分野です。
明らかにAIについて話すつもりですが、現在よりも未来についての話が多くなります。そのほとんどは結果というよりも提案になりますが、その方向に向けた予備的な結果もあります。約2年前にこのプログラムについての論文をオンラインに掲載しました。基本的に、過去2年間でこのプログラムに向けて達成したことの一部をお聞きいただくことになります。
右側の写真について疑問に思われている方がいるかもしれません。これは物理学との私の素人的なつながりです。私は写真も撮ります。これは私のニュージャージーの裏庭から撮影したものです。美しい銀河、メシエ51です。さて、機械学習は最悪です。少なくとも、人間や動物で観察されるものと比べればそうです。
本当にそれほど良くありません。動物や人間は、非常に少ないサンプルや試行で新しいタスクを極めて迅速に実行できます。彼らは世界がどのように機能するかを理解していますが、これは今日のAIシステムには当てはまりません。彼らは推論し、計画を立てることができますが、これも今日のAIシステムには当てはまりません。彼らは常識を持っていますが、これも今日のAIシステムには当てはまりません。
そして、彼らの行動は目的によって駆動されますが、これも今日のほとんどのAIシステムには当てはまりません。目的とは、達成しようとする目標を設定し、その目標を達成するための一連の行動を計画することを意味します。そして、LLMのようなAIシステムは、これを全く行いません。
学習のパラダイム、教師あり学習は非常に人気がありました。少なくとも最近まで、機械学習の成功のほとんどは主に教師あり学習によるものでした。強化学習は多くの人々に希望を与えましたが、実世界ではほとんど実用的ではないほど非効率であることが判明しました。少なくとも単独では、自己教師あり学習と呼ばれるものにもっと依存しない限りは。自己教師あり学習は、実際に過去数年間でAIに大きな革命をもたらしたものです。
AIの目標は実際、人間と同じくらい賢い、あるいはそれ以上のシステムを構築することです。今日、私たちは様々なタスクで人間よりも優れたシステムを持っています。ただ、それらはあまり一般的ではありません。そのため、人々は人間レベルの知能、人工汎用知能、AGIと呼んでいます。私はその用語が嫌いです。なぜなら、人間の知能は実際には全く一般的ではなく、非常に特殊化されているからです。
だから、一般的な知能について話すことは、人間レベルの知能を意味するのであれば、完全にナンセンスだと思います。しかし、残念ながらその船は出航してしまいました。しかし、私たちは人間レベルの知能を持つシステムを必要としています。なぜなら、非常に近い将来、あるいはそれほど近くない将来ですが、近い将来には、デジタル世界とのあらゆる相互作用がAIシステムによって仲介されるからです。
私たちは常に一緒にいるAIシステムを持つことになります。実際、私は今スマートグラスをかけています。皆さんの写真を撮ることができます。はい、ボタンをクリックするか、「ヘイ、メタ、写真を撮って」と言えば写真を撮ります。または質問をすることもでき、LLMがその質問に答えます。
骨伝導なので聞こえませんが、かなりクールです。すぐに私たちはそのようなものを持つことになり、基本的にそれがデジタル世界との主な相互作用方法になるでしょう。最終的に、そのようなシステムはこのメガネにはないディスプレイを持つことになり、私たちはそのAIシステムを常に使用することになります。
それらのシステムがストレスを感じさせないためには、人間のアシスタントと同じくらい賢くなければなりません。そのため、基本的に製品設計の理由だけでも人間レベルの知能が必要なのです。もちろん、人間の知能とは何か、そしてそれをどのように機械で再現できるかという、より興味深い科学的な疑問もあります。
そのため、それは製品を望み、その開発に対して支払う準備のある人々がいる少数の分野の1つです。同時に、取り組むべき本当に素晴らしい科学的な問題でもあります。そのような分野はそれほど多くありません。しかし、人間レベルの知能を持つスマートアシスタントを持つと、人類の全体的な知能を増幅することになります。
それについては後で触れます。残念ながら、私たちはそこからまだ遠く離れています。シリコンバレーを中心に聞こえてくる誇大宣伝にもかかわらず、AGIがすぐそこまで来ているという人々がいますが、実際にはそれほど近くありません。それは、現在のシステムが私たちが持っているいくつかの能力において極めて限られているからです。
人間の知能に近づくシステムがあれば、17歳の誰もが20時間の練習で車の運転を学べるように、20時間の練習で車の運転を学べるシステムがあるはずです。自動運転車はありますが、それらは重度に工学的に設計されており、地図を使用したり、あらゆる種類の高価なセンサー、アクティブセンサーを使用したりしてごまかしています。そして、確実に20時間以上のトレーニングデータを使用しています。
明らかに、私たちは何か大きなものを見逃しています。人間レベルの知能があれば、10歳児が一度で学べるような単純なタスク、例えば食卓を片付けたり食器洗い機を空にしたりするような家庭用ロボットを持てるはずです。そして10歳児とは違って、それらを説得するのに苦労することはないでしょう。しかし実際には、人間だけでなく、猫ができることさえも、現在のAIシステムにはできません。
家具の上にジャンプしたり小動物を捕まえたりするような複雑な一連の行動を計画する能力において、現在のAIシステムにはできないのです。だから、私たちは何か大きなものを見逃しています。基本的に、私たちが見逃しているのは、テキストだけでなく、例えばビデオやその他の感覚入力からも世界がどのように機能するかを学ぶことができるシステムです。
内部的な世界モデルを持つシステム、記憶を持つシステム、すべての人間や動物のように階層的に推論し、計画を立てることができるシステムです。これが要件のリストです。感覚入力から世界モデルを学習するシステム、例えば、赤ちゃんが生後数ヶ月で学ぶ直感的な物理学を学習するシステムです。
永続的な記憶を持つシステム、これは現在のAIシステムにはありません。目的を達成するために行動を計画できるシステム。そして、おそらくガードレール目的の指定を通じて制御可能で安全なシステムです。これが目的駆動型AIアーキテクチャのアイデアです。しかし、これについて話す前に、どのようにしてそこに到達できるかについての基礎を説明する必要があります。
まず最初に、自己教師あり学習が世界を席巻していることです。そして、まず自己教師あり学習が何であるかを説明する必要があります。あるいは特別なケースかもしれません。しかし、実際にはLLMの成功とそのすべて、そして今日の画像認識、音声認識、翻訳、AIのクールなものすべて、それは本当に自己教師あり学習、自己教師あり学習の一般化によるものです。
特定の方法としては、データの一部を取り、例えばテキストを取り、それを何らかの方法で変換または破損させます。テキストの場合、いくつかの単語を空白のマーカーに置き換えるなどです。そして、巨大なニューラルネットを訓練して、欠けている単語を予測する、基本的に元の入力を再構築するようにします。これがLLMの訓練方法です。
特定のアーキテクチャがありますが、それは予測される単語の左側の単語だけを見ることができます。しかし、基本的にそれがそうです。そしてこれは生成的アーキテクチャです。なぜなら、入力の一部を生成するからです。画像を生成するために訓練されたこのタイプのシステムがあり、それらは拡散モデルのような他の技術を使用していますが、それについては詳しく説明しません。
私はそのうちの1つで遊んでみました。メタももちろん持っています。WhatsAppやMessengerを通じて話しかけることができ、メタが構築したシステムについて説明した論文があります。そして、私はここの上にあるプロンプトをそのシステムに入力しました。「インテリジェントなロボットの助けを借りて、黒板上でリーマン仮説を証明するハーバードの数学者の写真」というものです。そしてそれが生成したものがこれです。
私は証明をチェックしましたが、実際には正しくありません。ここには私には何を意味しているのかわからない記号があります。さて、皆さんは生成AIに興奮していますが、特に自己回帰LLMと呼ばれる特定のタイプについてです。そして、実際にはそれは私が説明したようにトレーニングされています。しかし、先ほど述べたように、システムは特定の単語を予測するときに左側の単語だけを使用できます。
その結果、システムがトレーニングされると、一連の単語を示して次の単語を生成するよう求めることができます。そして、その次の単語を入力に注入することができます。入力を1つずらすのです。システムによって生成されたものが入力の一部になり、2番目の単語を生成するよう求めます。それをずらして、次の次の単語を生成し、それをずらしていきます。これが自己回帰予測と呼ばれるものです。
これは新しい概念ではなく、統計学や信号処理では非常に古いものです。実際には経済学でも。しかし、これがLLMの動作方法です。自己回帰的です。自身の予測を入力として使用します。これらのものは、概念的にはとてもシンプルな方法で訓練されているにもかかわらず、驚くほどうまく機能します。欠けている単語を予測するだけです。
それがどれほどうまく機能するかは驚くべきことです。現代のものは通常、数兆のトークンでトレーニングされています。このスライドは古すぎるので、ゼロを追加する必要があります。1〜2兆ではなく、20兆くらいです。トークンは単語の下位単位で、平均して単語の3/4です。そして、過去数年間にいくつかのそのようなモデルが登場しました。ChatGPTが登場した昨年半ばだけではありません。それによって一般の人々に知られるようになりましたが、これらのものはかなり前からありました。FAIRが制作したBlenderBot、Galactica、LlaMA、Llama-2、Code Llamaのようなものや、元FAIR社員が設立した小さなフランスの会社が作ったMistralとMixtral、そして最近ではGoogleによるGemmaなどがあります。
そして、専有モデルとしては、Llama-2をベースにして構築されたMeta AI、GoogleのGemini、ChatGPT、GPT-4などがあります。これらのものは愚かな間違いを犯します。論理をあまりよく理解していません。例えば、AがBと同じであると言っても、必ずしもBがAと同じであることを知りません。
順序関係の推移性などを本当に理解していません。論理を行いません。算術を行うように明示的に教えたり、算術を行うためのツールを呼び出させたりする必要があります。そして、基礎となる現実についての知識がありません。テキストだけで訓練されています。
一部のものは画像でも訓練されていますが、基本的に画像をテキストのように扱うことによってです。そのため非常に限定的ですが、これらのものをオープンソース化し、誰もが利用できるようにすることは非常に有用です。なぜなら、誰もがそれらを使って実験し、あらゆる種類のことを行うことができるからです。文字通り何百万人もの人々がLlamaを基本プラットフォームとして使用しています。
自己教師ありは、テキストを生成するためだけでなく、翻訳のようなことを行うためにも使用されています。数ヶ月前に私の同僚が制作したSeamlessM4Tというシステムがあります。100の言語を100の言語に翻訳できます。そして、テキストからテキスト、テキストから音声、音声からテキスト、音声から音声の変換が可能です。
音声から音声の場合、実際には書かれていない言語を翻訳することができます。これはかなりクールです。利用可能で、試してみることができます。かなり驚くべきものです。つまり、ある意味では超人的です。100の言語を100の言語に、あらゆる方向に翻訳できる人間はほとんどいません。実際に以前のシステムでは200の言語を扱えましたが、テキストからのみで、音声からではありませんでした。
しかし、このシステムには深刻な限界があります。まず、自己回帰予測は基本的に、指数関数的に発散するプロセスです。システムが単語を生成するたびに、その単語が適切な回答の集合の外にある可能性があります。そして、間違いを修正して戻る方法はありません。そのため、一連の単語が質問に対する正しい答えである確率は、答えの長さに応じて指数関数的に減少します。これは良いことではありません。
これについては、私ではなく、様々な種類の技術論文がこの傾向を示しています。また、これらのシステムが本当に計画を立てられないという多くの批判もあります。LLMがトークンを生成するために費やす計算量は固定されています。プロンプトを与え、アーキテクチャが持つ層の数だけ実行し、トークンを生成します。
そのため、トークンあたりの計算量は固定されています。システムにより多くのことを考えさせる唯一の方法は、より多くのトークンを生成するようにトリックを使うことです。これは作業をさせるための非常に回りくどい方法です。そのため、これらのシステムが実際に計画を立てることができるかどうかについて、かなりの研究がなされてきました。そして答えは、本当に計画を立てることはできないということです。
計画を立てたり、計画を作り出したりできる場合は、基本的に非常に似た状況で訓練され、すでに計画を見ていて、基本的に非常に似た計画を再現しているだけです。しかし、新しい方法でツールを使用することは本当にできません。そして最後の制限は、言語で訓練されているということです。
そのため、言語に含まれる知識しか知りません。これは驚くべきことかもしれませんが、人間の知識のほとんどは実際には言語とは関係ありません。そのため、作文の補助として使用したり、白紙の不安がある場合にアイデアを与えたりするのに使用できます。これまでのところ、事実に基づいた内容や一貫した回答を生成するのは得意ではありませんが、そのために修正されつつあります。
そして、私たちは流暢だからといって、それらが知的だと思い込みやすいのですが、実際にはそれほど賢くありません。そして、本当に世界がどのように機能するかを理解していません。だから、私たちはまだ人間レベルのAIからは遠く離れています。先ほど言ったように、人間や動物の知識のほとんどは非言語的です。
では、何が欠けているのでしょうか？再び、運転を学んだり、食卓を片付けたりすることの例を挙げます。人間レベルのAIを持つためには、そのようなことができる家庭用ロボットを持つ前には実現しないでしょう。これはモラヴェックのパラドックスと呼ばれるものです。チェスをプレイしたり複雑な軌道を計画したりするような、人間には複雑に見えるが、コンピューターにとっては比較的簡単なものがあります。
しかし、当たり前だと思っていて知能を必要としないと考えられているもの、例えば猫ができることは、実際には非常に複雑です。その理由は次のようなものかもしれません。テキストのデータ帯域幅は実際には非常に低いかもしれません。10兆トークンのデータセットは、基本的にインターネット上で公開されているテキストの全体で、約10の13乗バイト、または10の13乗トークンです。
トークンは通常2バイトです。典型的な言語には約30,000の可能なトークンがあります。したがって、LLMをトレーニングするには2の10の13乗バイトです。人間が1日8時間、1分間に250単語を読むペースで読むと170,000年かかります。または、速く読んで1日12時間読むと100,000年かかります。
ここで4歳の子供を考えてみましょう。4歳の子供は少なくとも16,000時間起きています。これは心理学者が教えてくれたことです。ちなみに、これはYouTubeのアップロード時間のわずか30分です。私たちには視覚皮質に約200万本の視神経繊維があり、各目から約100万本です。
各繊維は1秒あたり約10バイトを伝達するかもしれません。ジェイムが「何？」と言っています。これは上限です。そのため、4歳児が視覚を通じて見たデータ量は、おそらく10の15乗バイトの桁にあります。これはインターネット上で公開されているすべてのテキストの総量よりもはるかに多いです。
50倍多いです。4歳までに視覚を通じて見たデータは50倍多いのです。これは多くのことを示していますが、最初に示すのは、言語だけでトレーニングすることで人間レベルのAIに到達することは決してないということです。単に起こりえません。現在のAIシステムが得ていない、世界を観察することから得られる世界についての背景知識が多すぎるのです。
これは目的駆動型AIシステムというアイデアにつながります。例えば人間や動物が、新しい方法でツールや物事や状況を使用し、新しい行動方法を発明することを可能にしているものは何でしょうか？これについて、かなり読みやすい、かなり長い論文を書きました。
URLはここにあります。アーカイブではなく、この公開レビューサイトにあります。コメントして、これがどれほど間違っているかを教えてください。基本的なアーキテクチャはここに示されています。矢印がある場合、信号が通過していますが、逆方向に勾配が流れる可能性もあることを意味します。
そのため、そこにあるすべてが微分可能であると仮定しています。世界を観察し、世界の表現に変換する知覚モジュール、持続的な記憶や事実的な記憶などの記憶、このシステムの中心となる世界モデル、アクター、コストモジュール目的関数があります。
コンフィギュレーターについては、少なくとも今のところ話しません。このシステムがどのように機能するかを説明します。典型的なエピソードでは、システムが世界を観察し、この知覚システムを通じて供給します。知覚システムは現在の世界の状態、または少なくとも現在観察可能な世界の一部についてのアイデアを生成します。
おそらく、以前に観察された世界の残りの状態を含む記憶の内容と組み合わせることができます。そのため、現在の世界の状態についてかなり良いアイデアが得られます。そして世界モデルの役割は、現在の世界の状態と仮説的な一連の行動を考慮し、それらの行動を取った結果として将来の世界の状態がどうなるかの予測を生成することです。そのため、時間tでの世界の状態、一連の行動、
時間t+何かでの世界の状態です。その結果、予測された世界の状態は、基本的にスカラー目的を計算する役割を持ついくつかのモジュールに入ります。ここにある赤い四角いボックスまたはピンクのボックスは、基本的に世界の状態の表現を取り、世界の状態が特定の目標、目的、ターゲットからどれだけ離れているかを教えるスカラー値関数です。
または、予測された状態の連続を取り、その状態の連続がどの程度危険、有毒、などであるかを教えます。これらがガードレール目的です。さて、エピソードは今、システムが行うこと、システムが出力を生成する方法、行動の連続を生成する方法は、赤いボックスからの出力、赤いボックスから出てくるものを、行動の連続に関して最適化することになります。そのため、最適化プロセスがあります。これは、予測される結果の最終的な世界の状態が目的を満たすような行動の連続を探索します。これは、ニューラルネットの層を単に通過させるのとは本質的に非常に異なる原理です。本質的により強力です。ほぼすべてのアルゴリズム的問題を最適化問題として表現できます。
これは基本的に最適化問題です。ここでは使用する最適化アルゴリズムを正確に指定していません。行動の連続空間が推論を行う空間で連続的であれば、勾配ベースの方法を使用できます。これらのモジュールはすべて微分可能だからです。そのため、これらの矢印を通じて後方に勾配を逆伝播し、目的を最小化するように行動の連続を更新し、世界モデルに従って探している目的に対する最適な行動の連続に収束させることができます。
世界モデルが離散時間の微分方程式のようなものであれば、複数のステップで実行する必要があるかもしれません。初期の世界の連続は、初期の行動とともに世界モデルに供給され、次の状態を予測します。その次の状態から、別の行動を供給して次の次の状態を予測します。
連続全体がガードレール目的に供給され、最終結果が本質的にタスク目的に供給されます。これは世界モデルが決定論的である理想的な状況です。世界は決定論的かもしれませんが、この瓶を掴むために一連の行動を取れば何が起こるかについてはほとんど不確実性がないからです。私はコントロールしています。
しかし、世界のほとんどは完全に予測可能ではありません。そのため、おそらく世界について知らないすべてのことを説明する潜在変数を世界モデルに供給する必要があるでしょう。世界の不確実性のために、将来何が起こるかについて複数の予測を行うために、これらの潜在変数を分布からサンプリングする必要があるかもしれません。
実際に最終的に望むのは、この種の1レベルの計画ではなく、階層的な計画を行うことです。基本的に、世界の状態の複数の表現を生成し、複数の抽象レベルを持つシステムを持つことで、より長期的または短期的な将来の予測を行うことができます。
ここに例があります。ニューヨークのNYUにある私のオフィスに座っていて、パリに行きたいとします。ニューヨークからパリまでの全行程をミリ秒単位の筋肉制御として計画することはありません。それは不可能です。最適化の観点から見て扱いきれないだけでなく、発生する条件を知らないので不可能です。
まだ見ていない特定の障害物を避ける必要があるか？信号機が赤か緑か？タクシーを拾うのにどれくらい待つか？などです。そのため、最初からすべてを計画することはできませんが、高レベルの計画を立てることはできます。非常に抽象的なレベルで高レベルの計画を立てることができます。空港に行き、飛行機に乗る必要があることはわかっています。
これらは2つのマクロアクションです。これにより、下のレベルのサブゴールが決まります。どうやって空港に行くか？ニューヨークにいるので、通りに出てタクシーを拾う必要があります。これにより、その下のレベルの目標が設定されます。どうやって通りに出るか？エレベーターで降りて通りに出る必要があります。どうやってエレベーターに行くか？椅子から立ち上がり、オフィスのドアを開け、エレベーターまで歩いてボタンを押す必要があります。
どうやって椅子から立ち上がるか？これは筋肉制御などなので説明できません。このような階層的な計画が行われていることを想像できます。私たちはこれを完全に努力なしに行っています。動物も非常にうまくやっています。今日のAIシステムはこれを行うことができません。
いくつかのロボットシステムは階層的な計画を行いますが、それはハードコードされており、手作業で作られています。動作するロボットがほしい場合、ここからドアまで歩くには、まず軌道の高レベルの計画を立てます。ここを直接通って歩くのではなく、階段を通る必要があるなどです。
そして、低いレベルでは、その軌道に従うように脚の動きを計画します。しかし、それは手作業で作られています。システムがこれを学習したわけではありません。手作業で構築されました。では、システムが自発的に行動計画を表現するための適切な抽象レベルを学習するにはどうすればよいでしょうか？私たちは本当にこれをどうすればよいかわかりません。少なくとも、実際に機能するこのようなシステムのデモンストレーションはありません。
さて、次の質問は、このタイプのシステムを構築する場合、世界モデルをどのように構築するかということです。繰り返しますが、世界モデルは時間tでの世界の状態、行動、時間t+1での予測される世界の状態です。時間の単位は何であれ。そして問題は、人間や動物がこれをどのように行っているかということです。赤ちゃんが基本的な概念を学ぶ年齢を見てみましょう。
これはパリの心理学者エマニュエル・デュプーのチャートです。基本的なもの、例えば基本的な物体カテゴリーなどは、言語なしでかなり早い段階で学習されます。4ヶ月の赤ちゃんは本当に言語を理解していませんが、物体カテゴリーの概念を自発的に発達させます。物体の固体性、剛性、生物と無生物の違いなどです。
そして、直感的な物理学は9ヶ月頃に現れます。赤ちゃんが支えられていない物体が重力で落ちることを学ぶのに約9ヶ月かかり、直感的な物理学のより多くの概念が現れます。速くはありません。これを学ぶのに長い時間がかかります。少なくとも生後数ヶ月は、ほとんどが観察によって学習されます。赤ちゃんは3、4ヶ月までは本当に何も操作したり世界に影響を与えたりすることができません
四肢以外では。そのため、彼らが世界について学ぶほとんどは、主に観察によるものです。そして問題は、赤ちゃんがこれを行うときにどのような種類の学習が行われているかということです。これを再現する必要があります。そこで、テキストの自己教師あり学習のアイデアをそのまま動画に適用するという自然なアイデアがあります。動画を取り、これをyと呼び、完全な動画として、その一部をマスキングすることで破損させます。例えば動画の後半をマスキングします。
このマスクされた動画をxと呼び、そして巨大なニューラルネットを訓練して、欠けている部分の動画を予測します。システムが動画で何が起こるかを予測できれば、おそらく物理的世界の根本的な性質についての良いアイデアを持っているだろうと期待します。非常に自然な概念です。実際、神経科学者はこの種のことについて長い間考えてきました。
これは予測符号化と呼ばれています。そして、予測によって学習するというこのアイデアは本当に標準的なものです。これを行っても機能しません。私の同僚と私はこれを10年間試みてきましたが、良い世界の表現を得ることはできません。良い予測を得ることはできません。
得られる種類の予測は非常にぼやけています。上部の動画のように、その動画の最初の4フレームが観察され、最後の2フレームがニューラルネットによって予測されたものです。そして、非常にぼやけた画像を予測します。理由は、実際に何が起こるかを予測できないので、起こり得るすべての妥当なことの平均を予測するからです。
そして、それは非常にぼやけた動画になります。だから機能しません。この解決策は、基本的に生成モデルのアイデアを放棄することです。これは、現在機械学習で最も人気のあるものであることを考えると衝撃的かもしれません。しかし、私たちはそうする必要があります。そして、少なくとも私が提案している解決策は、私がJEPA（Joint Embedding Predictive Architectures）と呼ぶものに置き換えることです。
JEPAとは次のようなものです。yを取り、同じようにそれを破損させるか何らかの方法で変換します。しかし、yをxから再構築する代わりに、xとyの両方をエンコーダーに通します。そして、再構築するのはyの表現をxの表現から再構築します。つまり、すべてのピクセルを予測しようとするのではなく、入力のすべての情報を含まない可能性のある、入力の部分的な情報のみを含む可能性のある表現のみを予測しようとします。
これが、これら2つのアーキテクチャの違いです。左側は、yを再現する生成アーキテクチャ、右側はxとyを表現空間に埋め込む結合埋め込みアーキテクチャです。そして、表現空間で予測を行います。この結合埋め込みアーキテクチャにはさまざまな種類があります。
左側のものはシャム・ネットワークと呼ばれる古いアイデアで、90年代初頭に私が取り組んだものです。そして、これらのJEPAアーキテクチャの決定論的および非決定論的なバージョンがあります。詳細には立ち入りません。予測器に潜在変数が必要かもしれない理由は、世界が本質的に予測不可能であるか、完全に観察可能ではないか、確率的である可能性があるからです。
そのため、単一の観察に対して複数の予測を行う何らかの方法が必要です。ここでのz変数は、基本的に世界の状態で観察していない、世界について知らないことの集合をパラメータ化します。そして、それが潜在的な予測の集合をパラメータ化します。
ここにはaと呼ばれる別の変数があります。これが結合埋め込みアーキテクチャを世界モデルに変えるものです。これは世界モデルです。xは観察、sxはその観察の表現です。aは取る行動です。そして、syは行動を取った後の世界の状態の表現の予測です。システムを訓練する方法は、予測誤差を最小化することです。
yは世界の将来の観察です。xは過去と現在、yは未来です。少し待つだけで観察できます。予測を行い、行動を取るか誰かが行動を取るのを観察し、世界の将来の状態がどうなるかについて予測を行います。
そして、観察する実際の世界の状態を予測された状態と比較し、予測誤差を最小化するようにシステムを訓練できます。しかし、ここには問題があります。システムが崩壊する可能性があるのです。予測誤差だけを最小化すると、xとyを完全に無視し、sxとsyを定数として生成し、予測問題が些細なものになる可能性があります。
そのため、予測誤差を最小化するだけでこのタイプのシステムを訓練することはできません。それをどのように行うかについて少し賢くなる必要があります。これがどのように機能するかを理解するには、基本的にエネルギーベースモデルと呼ばれる概念を使用する必要があります。これは確率モデリングの弱められたバージョンと考えることができます。
物理学者の方々にとっては、エネルギーから確率に変換する方法は、指数関数的にマイナスを取り、正規化することです。しかし、エネルギー関数を直接操作すれば、この正規化は必要ありません。これが利点です。エネルギーベースモデルとは何でしょうか？基本的に、xとyの間の非互換性の程度を測定する暗黙の関数F(x,y)です。
動画の場合、yがxの良い続きであるかどうか、xから欠けている良い単語のセットであるかどうかなどです。基本的に、その関数は2つの引数xとyを取り、xとyがどの程度互換性があるか、または互換性がないかを示すスカラー値を与えます。xとyが互換性がある場合は0または小さな値を与え、そうでない場合はより大きな値を与えます。
さて、これら2つの変数がスカラーで、観測値が黒い点だとイメージしてください。これが本質的にトレーニングデータです。このエネルギー関数をトレーニングデータとその周辺で低い値を取り、他の場所ではより高い値を取るように訓練したいと考えています。ここで表現しているのは、いわば等エネルギー線、等エネルギー等高線です。
では、これをどのように行うのでしょうか？エネルギー関数はトレーニングによって最小化される関数ではなく、推論によって最小化される関数です。xと互換性のあるyを見つけたい場合、F(x,y)を最小化するy値をyの空間で探索します。そのため、推論プロセスはニューラルネットを通して前方に実行することではありません。
yに関してエネルギー関数を最小化することから成り立ちます。これは計算的に、ニューラルネットの固定された数の層を通過するよりも本質的により強力です。これにより、トークンごとに固定された計算量を費やす自己回帰LLMの制限を回避できます。この推論の方法では、Fとyの性質に応じて、F(x,y)を最小化する良いyを見つけるために無限の資源を費やすことができます。
yが連続変数で、関数が微分可能であれば、勾配ベースの方法を使用して最小化できます。そうでない場合、離散的であれば、何らかの組み合わせ探索を行う必要がありますが、それははるかに効率が悪くなります。すべてを連続的で微分可能にできれば、はるかに良い結果が得られます。
ところで、世界モデルについて話したときに言い忘れたことがありますが、一連の行動の結果として何が起こるかを予測できる世界モデルがあり、最小化したい目的があり、その目的を最小化する行動の連続を計画するというこのアイデアは、完全に古典的な最適制御です。これはモデル予測制御と呼ばれ、1960年代初頭、あるいは1950年代後半から存在しています。そのため、これは完全に標準的なものです。ここで私たちがやりたいことの主な違いは、世界モデルがロケットのダイナミクスなどの方程式を書き下すのではなく、感覚データから学習されるということです。
ここでは、感覚データから学習するだけです。さて、これらのエネルギー関数を訓練して正しい形状を取るようにする方法は2つあります。では、データポイントで低いエネルギーを与え、外側で高いエネルギーを与えるようにエネルギー表面を形作る方法について話しましょう。そして、私が話していた崩壊を防ぐための2つの方法があります。
崩壊とは、持っているトレーニングサンプルに対してエネルギーを最小化するだけの状況です。最終的に得られるのは、どこでもゼロになるエネルギー関数です。これは良いモデルではありません。データポイントで低いエネルギーを取り、外側で高いエネルギーを取るエネルギー関数が欲しいのです。2つの方法があります。
対照的方法は、これらの緑色に点滅している点、対照的サンプルを生成し、そのエネルギーを押し上げることです。システム全体を通じて勾配を逆伝播させ、パラメータを調整して、緑色の点の出力エネルギーが上がり、青い点、データポイントのエネルギーが下がるようにします。
しかし、これらは高次元では非効率的な傾向があります。そのため、私はより正則化された方法と呼ばれる別の一連の方法を好みます。これは基本的に、低いエネルギーを取ることができる空間の体積を最小化することで機能します。特定の領域のエネルギーを押し下げると、他の場所で上がらなければなりません。なぜなら、低いエネルギーのものは限られた量しかないからです。
これらは2つのクラスの方法で、正則化された方法を主張します。しかし、本当にエネルギーベースモデルを訓練する2つのクラスの方法を考えるべきです。エネルギーベースモデルと言うとき、これは確率モデルにも適用されます。確率モデルは本質的にエネルギーベースモデルの特殊なケースです。
潜在変数モデルと呼ばれる特定のタイプのエネルギーベースモデルがあります。これらは、トレーニング中またはテスト中に与えられない潜在変数zを持つモデルで、その値を推論する必要があるモデルです。これは、zに関してエネルギーを最小化することで行えます。
E(x,y,z)というエネルギー関数があれば、zに関してそれを最小化し、そのzをエネルギー関数に入れると、結果の関数はもはやzに依存しません。これをF(x,y)と呼びます。潜在変数モデルを持つことは、多くの点で非常に単純なことです。ベイジアンや確率論者であれば、zの単一の値を推論する代わりに、分布を推論します。
これについては後で少し話すかもしれません。システムに使用するアーキテクチャによっては、崩壊する可能性があるかもしれません。そのため、崩壊する可能性がある場合は、対照的トレーニングまたは正則化を通じて崩壊を防ぐこれらの目的関数のいずれかを使用する必要があります。
物理学者の方なら、エネルギーを確率分布に変換するのは非常に簡単だとすでにご存知でしょう。x,yのエネルギーがわかっている場合、P(y|x)を計算するには、定数F(x,y)のマイナス指数を取り、分子のyのすべての空間にわたる積分で正規化します。
そうすると、yの正規化された分布が得られ、本当に欲しければ、これは分布をパラメータ化する完全に適切な方法です。もちろん、多くの統計物理学の問題は、分母（分配関数と呼ばれる）が扱いきれないことです。そのため、ここでは基本的にエネルギー関数を直接操作し、正規化を気にしないことでこの問題を回避しています。
しかし、基本的に、エネルギーを押し下げ、押し上げ、低いエネルギーを取ることができるものの体積を最小化するというこのアイデアは、確率モデルでの正規化と同じ役割を果たします。これについては詳しく説明しませんが、図表にあります。写真を撮りたければどうぞ。これは基本的に、すべての種類の古典的な方法が対照的か正則化されているかのリストです。
これらのすべては、何らかの種類のエネルギーベースモデルとして解釈でき、いずれかの方法です。LLMで使用されているアイデアは、基本的にデノイジングオートエンコーダーと呼ばれるものの特定のバージョンで、対照的方法です。そのため、今日のLLMの訓練方法は対照的です。データの一部を取り、それを破損させ、欠けている情報を再構築するようにシステムを訓練します。
これは実際には、デノイジングオートエンコーダーと呼ばれる非常に古いアイデアの特殊なケースで、それ以来何度も復活しています。このフレームワークは、K-means、スパースコーディングなどの多くの古典的なモデルを解釈することを可能にします。しかし、これにあまり時間をかけたくありません。
確率的推論を行うこともできますが、これはスキップしたいと思います。これは自由エネルギーや変分自由エネルギーなどのためのものです。ここで私が提案しているのは、生成モデルを放棄して、これらの結合埋め込みアーキテクチャを採用すること、確率モデリングを放棄してこのエネルギーベースモデルを採用すること、対照的方法を放棄してこれらの正則化された方法を採用することです。
そして、すぐに1つを説明します。また、強化学習を放棄することも提案していますが、これは10年間言い続けています。そのため、今日の機械学習で最も人気のある4つのものを放棄することになります。これは私をあまり人気のない存在にしません。では、正則化された方法でJEPAを訓練するにはどうすればよいでしょうか？いくつかの異なる方法がありますが、2つのクラスを説明します。
1つは本当になぜ機能するのかを理解しているもの、もう1つは機能はするが理由がわからないものですが、非常にうまく機能します。最初のクラスの方法は、基本的に、エンコーダーの出力が一定であるか、入力についてほとんど情報を伝えないという崩壊を防ぐことです。
そのため、トレーニング中に、エンコーダーから出てくる情報量を最大化しようとする基準を設けます。これにより崩壊を防ぎます。悪いニュースは、ニューラルネットからの出力の情報内容を最大化するには、出力の情報内容の下限が必要で、それを押し上げる必要があるということです。悪いニュースは、情報内容の下限がなく、上限しかないということです。
そのため、指を交差させて、情報内容の上限を取り、それを押し上げ、実際の情報内容がそれに従うことを期待する必要があります。そして、それは一種機能します。実際にはとてもうまく機能しますが、その理由で理論的にはよく正当化されていません。これをどのように行うのでしょうか？まず、エンコーダーから出てくる変数が一定でないことを確認できます。
サンプルのバッチにわたって、エンコーダーの出力ベクトルの各変数がゼロでない分散、例えば1を持つようにしたいです。そのため、分散が1より大きいか、標準偏差を持つことを本当に望むコスト関数があります。それでも、システムは全ての出力を等しくするか、高度に相関させることで、情報のない出力を生成する可能性があります。
そのため、2つ目の基準があり、これに加えて、出力ベクトルの異なる成分が無相関であることを望みます。基本的に、エンコーダーから出てくるベクトルの共分散行列をできるだけ単位行列に近づけたいという基準があります。しかし、それでもまだ十分ではありません。無相関な変数は得られますが、非常に依存している可能性があります。
そこで別のトリックがあり、表現ベクトルsxを取り、非線形な方法で次元を拡大するニューラルネットを通し、それらの変数を無相関にするというものです。特定の条件下では、これが実際に変数のペアを独立にする効果があることを示すことができます。
これについての論文がアーカイブにあります。さて、これで崩壊を防ぐためにこれらの結合埋め込みアーキテクチャの1つを訓練する方法ができました。そして、これは本当に正則化された方法です。対照的なサンプルを持つ必要はなく、物事を互いに引き離したりする必要はありません。
トレーニングサンプルだけで訓練します。そして、この基準があります。システムを訓練したら、システムが学習した表現、sxの表現を使用し、それを後続の分類器に供給して、特定のタスクのために教師あり学習で訓練できます。例えば、物体認識などです。線形分類器や、もっと複雑なものを訓練できます。結果については退屈にならないようにしますが、ここの各行は自己教師あり学習を行う異なる方法です。
一部は生成的で、一部は結合埋め込みです。異なる種類の基準、画像の異なる種類の歪みや破損を使用しています。トップシステムは、ImageNetでヘッドだけを訓練し、ネットワーク全体を微調整せず、特徴だけを使用した場合に70%の正解率を与えます。
自己教師あり学習の興味深い点は、これらのシステムが本当にうまく機能し、新しいタスクを学習するのに多くのデータを必要としないということです。そのため、転移学習やマルチタスク学習などに本当に適しています。汎用的な特徴を学習し、それを後続のタスクへの入力として使用します。このアイデアにはさまざまなバリエーションがあります。
この方法はVICRegと呼ばれ、分散、不変性、共分散、正則化を意味します。分散、共分散は、この共分散行列の基準のためです。不変性は、破損した入力と破損していない入力の表現が同一であることを望むためです。これには、物体検出や位置特定などに機能するバージョンがあります。
しかし、別の一連の方法があり、これらについては完全には理解できていないことを認めざるを得ません。FAIRのYonglong TianやスタンフォードのSurya Ganguliのような人々は理解していると主張していますが、私に説明してもらう必要があります。なぜなら、私は完全には納得していないからです。これらは蒸留法です。
2つのエンコーダーがあり、アーキテクチャの面でほぼ同一である必要があります。実際には完全に同一で、同じパラメータを持つ必要があります。そして、それらの間でパラメータを共有します。重み指数移動平均（EMA）と呼ばれるものがあります。EMAは指数移動平均を意味します。右側のエンコーダーは、学習が進むにつれて左側のエンコーダーによって生成される重みベクトルの指数減衰係数を持つ移動平均である重みを基本的に取得します。
そのため、重みの平滑化されたバージョンのようなものです。SuryaとYonglongは、これがシステムの崩壊を防ぐ理由についての説明を持っています。もし理解できれば、その論文を読むことをお勧めします。そして、この自己教師あり事前学習を使用して本当にうまく機能するいくつかの異なる方法があります。
DeepMindのBootstrap Your Own Latents、FAIRのSimSiamなどの古い方法や、パリのFAIRの同僚によって1年前に開発されたDINOv2などがあります。これはおそらく、画像の汎用的な特徴を生成する最良のシステムです。視覚的な問題があり、少量のデータで訓練できる分類器に供給するための汎用的な特徴が必要な場合は、DINOv2を使用してください。
今日、これが我々が持っている最良のものです。本当に素晴らしい特徴を生成し、あらゆる種類のタスクに対して非常に少量のデータで非常に良いパフォーマンスを発揮します。セグメンテーション、深度推定、物体認識、地球全体の樹冠の高さの推定、胸部X線での腫瘍の検出など、あらゆる種類のタスクのために訓練できます。
これはオープンソースなので、多くの人々があらゆる種類のことに使用しています。本当にクールです。これらの蒸留法の特定の実装の1つはI-JEPAと呼ばれています。これはこの蒸留法を使用して訓練されたJEPAアーキテクチャですが、DINOvとは異なります。これは非常にうまく機能し、実際にDINOvよりも同じ量のトレーニングでよりよく機能し、訓練も非常に速いです。
これは我々が持っている最良の方法であり、再構築によって訓練される生成モデルを使用する競合する方法と非常に有利に比較されます。MAE（Masked Auto-Encoder）と呼ばれるものがあり、これはこのグラフの中空の四角で示されています。このグラフを示した方が良いかもしれません。これもMetaのFAIRで開発された方法ですが、写真を再構築することによって機能します。写真を取り、その一部をマスクし、欠けている部分を再構築するためのオートエンコーダーに相当するものを訓練します。
画像で欠けている部分を予測するのは非常に難しいです。複雑なテクスチャなどがあるからです。実際、このシステムは訓練するのがはるかに高コストで、この結合埋め込み法ほどうまく機能しません。このトークからの1つの教訓は、画像に対する生成的方法は悪く、テキストには良いが画像にはあまり良くないということです。
一方、結合埋め込み法は画像に対して良いですが、まだテキストに対しては良くありません。その理由は、画像は高次元で連続的であるため、それらを生成するのは実際に難しいからです。きれいな画像を生成するシステムを作ることは可能ですが、それらは良くなく、画像の良い内部表現を生成しません。
一方、テキストの生成モデルは機能します。なぜならテキストは離散的だからです。言語が人間にしかできない最も洗練されたものだという考えがありますが、実際には単純です。離散的だからです。本当に難しいのは現実の世界です。
I-JEPAはあらゆる種類のタスクに対して非常にうまく機能し、人々はこれをあらゆる種類のことに使用しています。ここには行う必要のある数学がありますが、スキップする必要があります。V-JEPAについて話すためです。これはI-JEPAのビデオ版で、最近オンラインに公開されました。そのアイデアは、ビデオの一部を取り、その一部をマスクし、再び、部分的にマスクまたは破損されたビデオの表現から完全なビデオの表現を基本的に予測するように、これらの結合埋め込みアーキテクチャの1つを訓練するというものです。
これは、そのシステムによって学習された表現を取り、基本的にビデオで起こっているアクションを分類するための分類器に供給すると、非常にうまく機能するという意味で本当にうまく機能します。他の自己教師あり学習技術よりも良いパフォーマンスが得られます。
多くのトレーニングデータがある場合、あらゆる種類のトリックやデータ拡張を使用した純粋に教師あり学習ほどうまく機能しませんが、非常に近づいており、ラベル付きデータをほとんど、あるいは全く必要としません。そのため、これは少し大きなブレークスルーです。ビデオから自己教師あり方式で学習するシステムを訓練できるということは、世界モデルを学習するためにこれを使用できるかもしれないからです。ビデオのマスキングは、ビデオの後半をマスクし、システムに何が起こるかを予測するよう求めます
ビデオで取られているアクションを供給します。これがあれば、世界モデルができます。世界モデルがあれば、計画システムに組み込むことができます。計画できるシステムがあれば、現在のシステムよりもはるかに賢いシステムを持つ可能性があり、単に言葉だけでなく、行動を計画できる可能性があります。
もはや自己回帰的に予測しません。私たちが行うように、答えを計画するでしょう。私たちは話すとき、考えずに1つの単語を次々に生成するのではありません。通常、少なくとも一部の人は、前もって何を言うかを計画します。これは、様々な種類のビデオでアクションを分類したり、他の様々なタスクを行ったりする上で、基本的に他の人々が以前に試みたものよりもはるかに良いパフォーマンスを発揮するという意味で非常にうまく機能します。
確かに、ビデオで訓練された他のシステムよりも優れています。そして、ここでの事前学習は実際には比較的少量のビデオで行われています。これは大規模なデータセットではありません。これは速度です。これはそのシステムによるビデオの欠けている部分の再構築です。これは別のデコーダーを訓練することによって行われています。そのため、初期のトレーニングの一部ではありませんが、最終的には表現を入力として使用し、欠けている画像の部分を再構築するために訓練したデコーダーに供給できます。
これらは、基本的に画像の中央全体が欠けており、システムが合理的なものを埋めている結果です。これは料理のビデオで、手と包丁といくつかの材料があります。さて、部屋に数学者と物理学者がいることを知っているので、別のトピックについて話したいと思います。
これは、FAIRの一部の人々とMITのSeth Lloydの学生であるBobak Kianiと、MITの多くの人々との最近の共同研究論文です。このシステムは基本的に、解を通じて観察される偏微分方程式について何かを学習するために、この結合埋め込みのアイデアを使用しています。
下のものを見てください。PDEがあります。バーガーズ方程式です。見えているのは、そのPDEの解の空間時間図です。そして、私たちが行うのは、そのPDEの解の2つの別々の窓を取ることです。もちろん、解は初期条件に依存します。
異なる初期条件に対して異なる解が得られます。そのため、そのPDEの2つの異なる解に対して2つの窓を取り、結合埋め込みを行います。エンコーダーを訓練して表現を生成し、解の1つの部分の表現が他の部分の表現から予測できるようにします。
そして、このケースでシステムが最終的に行うのは、基本的に解かれている方程式の係数を予測または表現することです。PDEの空間時間解の1つの領域と別の領域で共通しているのは、同じ係数を持つ同じ方程式だけだからです。
異なるのは初期条件です。しかし、方程式自体は同じです。そのため、システムは基本的に何らかの表現を発見し、今度は係数を予測するために教師あり学習システムを訓練すると、実際に非常に良い仕事をします。実際、ゼロから完全に教師あり学習で訓練するよりも良い仕事をします。
これは本当に興味深いです。これには方程式の不変性の性質に従って解の変換に対するトリックがありますが、それについては詳しく説明しません。しかし、これは先ほど説明したVICReg手順を使用しています。これを様々な異なるPDEに適用しました。Kuramoto-Sivashinskyでは、方程式のいくつかの係数を識別しようとしました。
ナビエ・ストークス方程式では、浮力パラメータを識別しようとしました。これは最後の定数項です。そして、これは再び、単に浮力が何であるかを予測するために教師あり学習システムを訓練するよりもうまく機能します。これはかなりクールです。他のコンテキストでこのアイデアを再利用した論文がすでにいくつかあります。
さて、これで技術的な部分は終わりです。結論として、解決すべき多くの問題があります。そのいくつかは数学的なものです。例えば、エネルギーベースの学習の数学的基礎は完全には解明されていないと思います。変数の集合間の依存関係がデータマニフォールド上で低いエネルギーを取り、外側で高いエネルギーを取るエネルギー関数によって表現されるという考えは非常に一般的なアイデアです。
これは確率モデリングの全体的な仮説を破壊します。そして、そのようなものの性質をよりよく理解する必要があると思います。正則化された読み取り変数を持つJEPAアーキテクチャに取り組む必要があります。これについてはあまり話しませんでしたが、それは一種の必要性です。不確実性の存在下での計画アルゴリズム、できれば読み取りベースの方法を使用し、安全性を保証するためのコストモジュールの学習、例えば世界モデルの不正確さの存在下での計画などです。
世界モデルが間違っていれば、正しい結果を予測しないため、間違った行動の連続を計画することになります。それをどのように扱うのでしょうか？そして、システムがあまり得意でない空間の領域に対して世界モデルを調整するための探索メカニズムです。先ほど言ったように、ビデオからの自己教師あり学習に取り組んでいます。
理由付けや計画ができる証拠、目的によって駆動される証拠。先ほど示した目的駆動型アーキテクチャに従って、テキストだけでなくロボット制御のためにも。そして、先ほど話した階層的計画のアイデアを実現できるかどうかを理解しようとしています。さて。私たちとのすべての相互作用がAIシステムによって仲介される将来では、それは本質的にAIシステムが人類のすべての知識の貯蔵庫となり、誰もが使用することを意味します。話しかけることができるWikipediaのようなもので
おそらくWikipediaよりも多くのことを知っています。これらのシステムは必然的に偏りがあります。インターネット上で利用可能なデータで訓練されています。英語のデータは他のどの言語よりも多くあります。研究用のデータがほとんどない言語がたくさんあります。そのため、これらのシステムは必然的に偏りを持つことになります。
最近、Googleのジェミニシステムで非常に劇的な例を見ました。システムに偏りがないようにするために多大な努力を費やしたため、別の嫌な方法で偏りが生じてしました。偏りは避けられません。メディアや報道と同じです。
すべての雑誌、ニュース雑誌、新聞には偏りがあります。これを修正する方法は、非常に異なる雑誌や新聞の多様性を高めることです。単一のシステムから情報を得るのではありません。様々な偏りのあるシステムの中から選択肢があります。これはAIでも同じことが起こる必要があります。
偏りのないAIシステムを持つことはできません。そのため、解決策は、多くの偏りのあるシステムを持つことです。あなたの言語、文化、価値観、関心分野に偏ったシステムです。つまり、私たちが必要とするのは、基本的に誰でもオープンソースのAIシステム、オープンソースのLLMを自分の言語、文化、価値観、関心分野に合わせて微調整できる非常にシンプルなプラットフォームです。
基本的に、週刊誌ですが、記事を書く週刊誌ではなく、LLMを微調整する週刊誌です。これが私が見たいAIの未来です。私たちとのすべての相互作用が米国西海岸の3つの企業によって生産されるAIシステムによって仲介される未来は良い未来ではありません。私はそれらの企業の1つで働いていますが、AIプラットフォームはオープンである必要があるというこのアイデアをMetaが完全に受け入れ、Llamaの様々な incarnationをオープンソース化することを約束していることを嬉しく思います。
次のLlama-3がまもなく登場します。オープンソースのAIプラットフォームは必要不可欠です。報道の多様性が民主主義に必要なのと同じ理由で、民主主義の保護のためにも必要です。大きな危険の1つは、AIが危険だと考える一部の人々のために、オープンソースのAIプラットフォームが規制によって存在しなくなることです。
そして、彼らはAIを誰もの手に渡すことはできないと言います。危険すぎるので、規制する必要があると。これはオープンソースのAIプラットフォームを殺すことになります。私はこれがはるかに危険だと考えています。これらの危険性は、AIを誰もの手に渡すことの危険性よりもはるかに高いです。そして、人間レベルのAIを持つAIシステムに到達するまでにどれくらいかかるでしょうか？ LLMが言うように来年ではありません。あるいはLLMが年末までと言っていますが、それはナンセンスです。
来年ではありません。OpenAIから聞こえてくるものにもかかわらず、おそらく今後5年以内でもありません。ここで説明したプログラムが望むレベルで機能するまでにはしばらく時間がかかるでしょう。そして、それはイベントではありません。AI が内部的に達成されたり、何かのようなイベントではありません。
AGIの秘密を発見し、突然超知能システムを持つような出来事ではありません。そのようなことは起こりません。私たちは、ここで説明したようなタイプのシステムを構築し、それらをより大きく、より多くのことを学習させ、より多くのガードレールと目的を設定し、それらがより賢くなるにつれて、より安全で安心で適切に行動するようにしていきます。
そのため、イベントではなく、より強力でより安全なAIシステムに向けての進歩的な動きになるでしょう。そして、誰もが貢献する必要があります。だからこそオープンソースモデルが必要なのです。ここで終わります。どうもありがとうございました。
素晴らしい、考えさせられる講演をありがとうございます。いくつか質問をする時間があります。
[聴衆の質問]: こんにちは、はい、なぜyの前にエンコーダーを置いたのか理解しようとしていました。出力画像の表現を得て情報を失っているからです。つまり、あなたのアーキテクチャはエンコーダーと同じくらい良いということですか？なぜそのように設計したのか理解できませんでした。説明していただけますか？
確かに、2つの答えがあります。あなたは物理学者ですか？
コンピューターサイエンティストですか。でも、部屋には物理学者がいますね。これは非常に基本的な物理学です。惑星の軌道を予測したい場合、惑星に関するほとんどの情報は予測に全く関係ありません。形、大きさ、密度、組成、それらはすべて全く関係ありません。
重要なのは6つの変数だけで、位置と速度です。そして軌道を予測できます。予測や計画などを行う上で大きな問題は、行いたい予測に適切な情報と適切な抽象化レベルは何かということです。そして、他のすべてを排除します。なぜなら、関係のないことを予測しようとすることにすべてのリソースを費やすのは、完全に時間の無駄だからです。これが最初の答えです。
2番目の答えは、訓練しているビデオが、カメラをこちらに向けてゆっくりとパンし、あなたの直前で止まるこの部屋のビデオだとイメージしてください。そして、システムに次に何が起こるかを予測するよう求めます。システムはおそらく、パンが続き、人々が座っており、ある時点で壁があると予測するでしょう。
私たちがどのように見えるか、あるいは誰かがどのように見えるかを予測することは絶対にできません。階段が何段あるかを正確に予測することはできません。壁やカーペットの正確なテクスチャを予測することはできません。そのため、ここには完全に予測不可能な多くの詳細があります。しかし、yを予測する生成システムを訓練すると、実際にはそれらの詳細を予測するために多くのリソースを費やす必要があります。
そのため、機械学習の全体的な問題、そしてある程度科学の問題は、有用な予測を行うことを可能にする適切な表現は何かということです。JEPAはそれを提供しますが、生成モデルは提供しません。
モリス: こんにちは、私の名前はモリスで、MITの博士課程の学生です。JEPAのアーキテクチャがカルマンフィルターに似ていることに気づきました。一連の測定があり、カルマンフィルターを使用したい場合でも、よく観測可能性と呼ばれる問題があります。そして、あなたは観測可能性の条件を回避する非常に賢い方法を持っています。なぜなら、潜在空間で見えないものに対して賢い正則化を考え出すことができるからです。世界モデルはこれらの正則化を考え出すのに役立ちますか？そして第二に、制御は最終的に潜在状態に作用すると考えていますか？
はい、わかりました。実際には、カルマンフィルターとは異なります。カルマンフィルターでは、エンコーダーは逆転しており、それらはエンコーダーではなくデコーダーです。ここで世界モデルを持っていた一般的な図を探しています。
はい、これが恐らく最適です。カルマンフィルターでは、まず一連の観測を得て、ここでは観測がエンコーダーに入り、状態の推定を生成します。カルマンフィルターでは実際には逆です。仮定された状態があり、それを観測を生成するデコーダーに通します。
そして、反転を行います。
そうですね。つまり、隠れたダイナミクスを学習しています。その意味では似ていますが、隠れた状態から観測を生成しています。そして、少なくとも従来のカルマンフィルターでは、ダイナミクスが線形であるという制約があります。
そして拡張カルマンフィルターがあり、それは非線形で、不確実性を扱うための特別な規定があります。基本的にすべてのガウス分布を仮定します。しかし、はい、つながりはあります。最適制御とのつながりがあり、カルマンフィルターは最適制御の一種だからです。
聴衆: こんにちは。私はもう少し技術的でない質問があります。あなたもフランスと広くEUの市民であることを考えると、そしてオープンモデルを持つことについて、そしてこれらのシステムの主な問題の1つが規制の取り込みや立法上の問題である可能性があることについて、あなたが言ったことすべてを考えると、新しいEU AI法についてどう思いますか？そして、それがヨーロッパのAI研究開発の進め方に影響を与えると思いますか？そして、フランスにおけるMetaのプレゼンスに潜在的に影響を与える可能性がありますか？
そうですね、EU AI法には良い点と悪い点があります。良い点は、例えば、人々に社会的スコアを与えるためにAIを使用することはできないというようなことです。これは良いアイデアです。特別な条件がない限り、パリオリンピックなどを除いて、公共の場に顔認識を行うカメラを設置することはできません。
つまり、プライバシー保護などのためには良いことです。あまり良くないのは、最後の瞬間に、彼らがフロンティアモデルと呼ぶものに関する規定を入れ始めたことです。つまり、強力な、これはChatGPTのためです。強力なモデルは潜在的に危険だと。
そのため、研究開発を規制する必要があります。製品だけでなく、研究開発を規制する必要があると。これは完全に間違っていると思います。これは非常に破壊的だと思います。適用の仕方によっては、最終的には無害かもしれませんが、少し厳しすぎる可能性があります。
そして、これが引き起こすのは、MetaのようなE会社が、ヨーロッパにはオープンソース化しないと言うことです。世界の他の地域にはオープンソース化しますが、ヨーロッパからダウンロードすることはできません。そして、それは本当に、本当に悪いことでしょう。Anthropicのような会社はおそらく移転するでしょう。
そのため、物事が悪い方向に向かう可能性のある分岐点にいると思います。米国でも、ホワイトハウスの大統領令で同様の現象があり、適用の仕方によってはどちらかの方向に向かう可能性があります。実際、NTIAはコメントを求めており、Metaは1つ提出し、オープンソースAIを存在しなくするような立法をしないでくださいと言いました。なぜなら、これを行う理由が、本当に完全にクレイジーで、ナッツな想像上のリスク、実存的リスクだからです。フランス語をお許しください。
しかし、突然AGIの秘密を発見し、数分以内に超知能システムが世界を支配するという考えは完全に馬鹿げています。これは世界の仕組みではありません。しかし、多くのお金を持つ人々がいて、多くのシンクタンクに資金を提供し、基本的に政府にロビー活動をしてこのように考えさせています。
そのため、政府は会議を組織し、「来年私たちは全員死んでしまうのか？」などと言っています。そのため、まず、人間レベルの知能からはまだ遠いということを彼らに伝える必要があります。それがすぐそこまで来ているとあなたに言う人々、例えばイーロンのような人々を信じないでください。
そして第二に、危険でない方法でそれらを構築することができ、それはイベントではありません。徐々に進歩的になります。そして、安全な方法でそれらのものを構築する方法があります。現在のLLMが信頼できず、妄想を引き起こすという事実に頼らないでください。これを将来のシステムに投影しないでください。
将来のシステムは、おそらく私が説明したタイプの完全に異なるアーキテクチャを持つかもしれません。そして、それらを制御可能にします。なぜなら、ガードレールや目的などを設定できるからです。今日のAIシステムの実存的リスク、超知能システムについて議論することは狂気の沙汰です。なぜなら、それらはまだ発明されていないからです。
私たちはそれらがどのようなものになるかわかりません。これは1925年にジェット旅客機による大西洋横断飛行の安全性について議論するようなものです。ターボジェットエンジンはまだ発明されていませんでしたし、それは一夜にして起こったわけではありません。数十年かかりました。今では2発エンジンのジェット機で完全な安全性を持って世界の半分を飛行できます。
これは驚くべきことで、信じられないほど安全です。数十年かかりました。AIでも同じことになるでしょう。
これで締めくくるのがよいでしょう。素晴らしい講演をしてくれたヤンに、もう一度感謝しましょう。
ありがとうございました。

ヤン・ルカン | 目的駆動型AI: 学習、記憶、推論、計画ができるAIシステムに向けて

いいなと思ったら応援しよう！