
これからのAIの形! 2025年AIアクションサミットにおけるヤン・ルカンの講演
14,574 文字
メタのチーフAIサイエンティストでNYU教授のヤン・ルカンを、2番目で最後の本会議の演者としてご紹介させていただきます。ヤンはメタとNYUデータサイエンスセンターの創設ディレクターで、主に機械学習、コンピュータビジョン、モバイルロボティクス、計算神経科学の分野で活動されています。2019年にはAIに関する業績でACMチューリング賞を受賞され、米国科学アカデミーとフランスアカデミーのメンバーでもあります。
ヤン、ようこそお越しくださいました。[拍手]
ありがとうございます。お招きいただき光栄です。前回お会いしたのはコロナ前だったと思います。さて、これから話すことはベルナールの話とも少し関連があります。そして、今日マーク・ジョーダンが「取り組むべきではない」と言及したことについてお話しします。
実は、人間レベルのAIは必要なのです。それは単に興味深い科学的な問題というだけでなく、製品としても必要とされています。将来、私たちはスマートグラスなどのスマートデバイスを着用することになるでしょう。それらのスマートデバイスでは、常時AIアシスタントにアクセスでき、音声や筋電図(EMG)を通じて対話することができます。グラスには現在ディスプレイはありませんが、将来的には搭載されるでしょう。
これらのシステムには人間レベルの知能が必要です。なぜなら、それが私たちにとって最も馴染みのある形態だからです。私たちは他の人間との対話に慣れており、人間に期待する知能のレベルを理解しています。同様の知能を持つシステムとの対話の方が容易でしょう。これらのユビキタスなアシスタントは、デジタル世界との全ての対話を仲介することになります。そのため、必ずしもテクノロジーに詳しくない幅広い層の人々にとって使いやすいものである必要があります。
しかし問題があります。人間や動物と比べると、機械学習は劣っているのです。私たちには、人間や動物と同じような学習能力、常識、物理世界の理解を持つ機械を構築する技術がまだありません。動物や人間は、新しいタスクを非常に素早く学習し、世界の仕組みを理解し、推論や計画を立てることを可能にする背景知識を持っています。これは「常識」と呼ばれるものに基づいていますが、それは明確に定義された概念ではありません。
動物や人間の行動は、本質的に目的によって導かれています。現在のAIシステム、ほとんどの人が使っているものには、私たちが求める特性がないと主張したいと思います。その理由は、基本的に一つのトークンを自己回帰的に生成しているからです。トークンの列があり、それはサブユニットですが、何であるかは重要ではありません。そして、前のトークンのウィンドウを取り、次のトークンを予測する予測器が列全体で繰り返されます。
これらのシステムの訓練方法は、入力に列を与え、基本的にその入力を出力で再現するように訓練することです。因果構造を持っているため、特定の入力を使って自身を予測するという不正はできません。左側のシンボルだけを見なければならず、これは因果アーキテクチャと呼ばれます。これは非常に効率的で、GPT(汎用トランスフォーマー)と呼ばれるものですが、トランスフォーマーを使う必要はありません。単なる因果アーキテクチャです。
これらのシステムを訓練した後、自己回帰的にトークンを生成し、それを入力にシフトして2番目のトークンを生成するなどして、テキストを生成することができます。これは自己予測で、決して新しい概念ではありません。
この問題点は、このプロセスが基本的に発散的だということです。トークンを生成するたびに、そのトークンが合理的な答えの集合に含まれず、合理的な答えの集合の外に出てしまう可能性があります。そしてそうなると、後から修正することはできません。
誤ったトークンが生成される確率があると仮定し、エラーが独立している場合(もちろん実際にはそうではありませんが)、指数関数的な発散が起こります。これが、これらのモデルで幻覚の問題が起こる理由です。
しかし、私たちは非常に重要なものを見逃しています。人間の知能を再現することは置いておいても、猫や鼠の知能さえ再現できていません。犬の知能はなおさらです。彼らは驚くべき能力を持ち、物理的な世界を理解しています。どの家猫も非常に複雑な行動を計画することができ、世界の因果モデルを持っています。中には扉や蛇口を開けることができるものもいます。
人間では、10歳の子供が食卓を片付け、食洗機に食器を入れることができます。これは初めて頼まれたときでも、ゼロショットで学習なしにできます。17歳の若者は20時間の練習で車の運転を学べます。しかし、猫のように行動できるロボット、食卓を片付けられる家庭用ロボット、レベル5の自動運転車は、何十万時間もの教師あり訓練データがあるにもかかわらず、まだ実現できていません。
これは私たちが何か非常に重要なものを見逃していることを示しています。しかし、司法試験に合格し、数学の問題を解き、定理を証明できるシステムは持っています。家庭用ロボットはまだありません。このパラドックスは「モラベックのパラドックス」と呼ばれています。人間や動物ができることは当たり前だと思い、複雑ではないと考えています。しかし実際には非常に複雑なのです。
一方で、言語の操作と生成、チェス、囲碁、ポーカー、詩の生成など、人間に固有だと考えられていたことは、比較的簡単だということが分かりました。
おそらくその理由は、この非常に単純な計算にあります。現在の一般的なLLMは約30兆のトークン(2の13乗の単語に相当)で訓練されています。各トークンは約3バイトで、データ量は約10の14乗バイトです。私たちがこの全ての資料を読むには、ほぼ50万年かかるでしょう。これは基本的にインターネット上の公開されているテキストの全てです。
一方、4歳の子供の場合を考えてみましょう。起きている時間は合計16,000時間で、これはYouTubeのアップロード量でいうとわずか30分です。私たちには200万本の光神経繊維があり、それぞれが1秒あたり約1ビット、もしかするともう少し少ないかもしれませんが、伝達しています。
つまり、4歳の子供は4年間で、最大のLLMと同じくらいのデータ量を視覚的知覚の形で見ていることになります。盲目の子供の場合は触覚です。これは多くのことを示唆しています。テキストだけで人間レベルの知能に到達することは決してないでしょう。これは、利害関係のある人々が「来年にはPhDレベルの知能に到達する」と言っているにもかかわらず、実現しないでしょう。
チェスのような特定の分野、特定の問題では、PhDレベルに達するかもしれません。ベルナールが視覚的錯覚で説明したように、特定の問題に対してシステムを訓練した場合はそうです。この種の問題は多くあります。LLMに問題を提示すると、標準的なパズルの場合、数秒で答えを吐き出します。問題の記述を少し変えても、システムは以前と同じ答えを出し続けます。なぜなら、パズルの中で何が起こっているかについての本当のメンタルモデルを持っていないからです。
では、人間の乳児はどのように世界の仕組みを学習するのでしょうか?乳児は生後数ヶ月で世界についての膨大な背景知識を蓄積します。物体の永続性、固体性、剛性、自然なカテゴリーの概念などです。子供は言語を理解する前に、テーブルと椅子の違いを理解します。これは自然に発達します。そして、生後9ヶ月頃には重力や慣性などの直感的な物理概念を理解します。
観察を通じて理解するには長い時間がかかります。生後4ヶ月までは赤ちゃんは世界に影響を与えることができないため、主に観察です。その後、相互作用を通じて学習しますが、必要な相互作用の量は驚くほど少ないです。
人間レベルに到達するAIシステムを作りたい場合、時間はかかるかもしれません。メタでは、これを先進機械知能(Advanced Machine Intelligence)と呼んでいます。AGI(人工汎用知能)という用語は好みません。なぜなら、人間の知能は実際にはかなり特殊化されており、AGIと呼ぶのは誤称だからです。そのため、AMIと呼んでいます。実際にはAmiと発音し、フランス語で「友達」を意味します。
私たちには、感覚入力から世界の仕組みについてのメンタルモデルを学習するシステムが必要です。例えば、映像から2次元の物理を学習し、永続的なメモリを持ち、目的を達成するために階層的に行動を計画できるシステムです。そして、推論できるシステム、設計によって制御可能で安全なシステムが必要です。現在のLLMのように微調整によってではありません。
このようなシステムを構築する唯一の方法は、現在のAIシステムが行っている推論の種類を変更することだと考えています。現在、LLMが推論を行う方法は、固定数の層(トランスフォーマーの層)を通過し、トークンを生成し、そのトークンを入力に注入し、再び固定数の層を通過させるというものです。
この問題点は、簡単な質問でも複雑な質問でも、「2+2は4ですか?」や「P=NPですか?」といったyes/noで答える質問に対して、全く同じ量の計算を費やすということです。人々は、システムに説明させる「思考の連鎖」トリックを使って、より多くのトークンを生成させることで、この問題を回避しようとしています。しかし、これはハックに過ぎません。
統計学など多くの分野での推論の仕方は、このようなものではありません。古典的なAI、統計学、構造予測など、多くの異なる分野では、観察と提案された出力の間の互換性や非互換性の度合いを測る関数があり、推論プロセスは、この非互換性の尺度を最小化する出力値を見つけることから成り立っています。
これをエネルギー関数と呼びましょう。システムは推論のために最適化を実行します。推論問題がより困難な場合、システムは推論により多くの時間を費やします。つまり、答えが明らかな単純な問題よりも、複雑な問題についてより長く考えるのです。
これは古典的なAIでは非常に一般的なことです。古典的なAIは推論と探索、つまり本質的に最適化に関するものです。ほとんどすべての計算問題は最適化問題または探索問題に還元できます。確率的グラフィカルモデルなどの確率的モデリングでも非常に古典的です。
この種の推論は、心理学者が「システム2」と呼ぶものにより近いでしょう。システム2は、行動を起こす前に、どのような行動やアクション列を取るかについて考える場合です。システム1は、考えずにできること、いわば無意識的になったことです。LLMはシステム1ですが、私が提案しているのはシステム2です。
適切な理論的フレームワークは、エネルギーベースモデルです。詳しい説明をする時間はありませんが、基本的に、変数間の依存関係、例えば観察XとYを、XとYが互換性がある場合に低い値を取り、そうでない場合により大きな値を取るエネルギー関数によって捉えます。XからYを直接計算するのではなく、互換性の度合いを測るエネルギー関数を持ち、与えられたXに対して低いエネルギーを持つYを見つけます。
このようなアーキテクチャをどのように構築できるか、そして思考や計画とどのように関連するかについて、もう少し詳しく説明しましょう。システムは以下のように見えます。世界から観察を受け取り、それは知覚モジュールを通過して世界の状態の推定を生成します。しかし、もちろん世界の状態は完全には観察可能ではないので、現在知覚していない世界の状態についての考えを含むメモリの内容と組み合わせる必要があるかもしれません。
これら2つの組み合わせは世界モデルに入ります。世界モデルとは何でしょうか?世界モデルは、世界の現在の状態の推定(これは抽象的な表現空間にあります)と、想像上の行動列が与えられたとき、その行動列を実行した後に起こる世界の結果の状態を予測するものです。これが世界モデルです。
例えば、空中に浮かぶ立方体を想像してみてください。そして、その立方体を垂直軸の周りに90度回転させると、どのように見えるでしょうか?私たちは簡単に立方体が回転する心的モデルを持つことができます。
さて、もしこのような世界モデルがあり、一連の行動の結果を予測できるなら、それをタスク目的に供給することができます。タスク目的は、予測された最終状態が私たちが設定した目標をどの程度満たしているかを測定するものです。これは単なるコスト関数です。
また、システムが安全な方法で動作するために満たすべき制約として考えられるガードレール目的を設定することもできます。これらのガードレールは明示的に実装され、システムは最適化によって進行します。実行時に、タスク目的とガードレール目的を最小化する行動列を探します。ここでは学習ではなく、推論について話しています。
これにより、システムの安全性が保証されます。なぜなら、ガードレールが安全性を保証し、プロンプトを与えることでシステムにガードレール目的から逃れさせることはできないからです。目的は単にハードコードされています。学習されるかもしれませんが、ワイヤードされています。
行動の連続は、おそらく複数の時間ステップで繰り返し使用する単一の世界モデルを使用する必要があります。世界モデルがあり、最初の行動を実行すると次の状態を予測し、2番目の行動で2番目の次の状態を予測します。軌道に沿ってガードレールコストとタスク目的を持つことができます。
どの最適化アルゴリズムを使用するかは、この議論では重要ではありません。世界が完全に決定的で予測可能でない場合、世界モデルは、観察されない世界についての全てのことを説明するための潜在変数を必要とするかもしれません。これにより、私たちの予測は基本的に不正確になります。
究極的に私たちが望むのは、階層的に計画できるシステムです。低レベルでは基本的な筋肉制御のような低レベルの行動を計画しますが、高レベルでは、世界モデルがより長い時間ステップで予測する抽象的なマクロ行動を計画できます。ただし、表現空間はより抽象的で、詳細は少なくなります。
例えば、私がNYUのオフィスに座っていてパリに行くことを決めた場合、その課題を「空港に行く」と「飛行機に乗る」という2つのサブタスクに分解できます。「空港に行く」というサブゴールがあります。ニューヨーク市にいるので、空港に行くには通りに出てタクシーを拾う必要があります。通りに出るにはエレベーターに乗って降りる必要があります。エレベーターに行くには、椅子から立ち上がり、バッグを取り、ドアを開け、障害物を避けながらエレベーターまで歩く必要があります。そして最終的に、計画を立てる必要のないレベルに到達します。その時点で行動を起こすだけです。
私たちは常にこの種の階層的な計画を行っています。学習機械でこれを行う方法については、ほとんど分かっていません。ほぼすべてのロボットは階層的な計画を行いますが、階層の各レベルでの表現は手作業で作られています。私たちが必要としているのは、ここで説明したようなアーキテクチャを訓練して、世界の状態の抽象的な表現だけでなく、何が起こるかを予測する予測世界モデル、そしてさまざまな抽象レベルでの抽象的な行動も学習できるようにすることです。そうすれば、この階層的な計画が可能になります。動物はこれを行います。人間は非常に上手にこれを行います。今日の私たちは、これを機械で行うことができません。PhDを始めるなら素晴らしいトピックですが、3年以上かかるかもしれません。
これらの考察から、3年前に長い論文を書きました。そこでAI研究がどこに焦点を当てるべきかについて説明しました。これはGPT-3の熱狂の前でした。私の考えは変わっていません。GPT-3は何も変えていません。私たちはこれが来ることを知っていました。この論文は「自律機械知能への道」と題されています。現在は「先進機械知能」と呼んでいます。なぜなら「自律」という言葉は人々を怖がらせるからです。この論文はarXivではなくOpen Reviewにあり、このトークの様々なバージョンがあります。
世界の仕組みをシステムに理解させる非常に自然なアイデアは、自然言語の訓練に使用するのと同じプロセスを、例えば動画に適用することです。システムが動画で何が起こるかを予測できれば、短い動画セグメントを見せて次に何が起こるかを予測させることで、おそらく世界の根底にある構造を理解しているはずです。
その予測を行うように訓練することで、システムは実際に世界の意味構造を理解するかもしれません。テキストでうまくいくのは、単語の予測が比較的単純だからです。なぜ単語の予測は単純なのでしょうか?それは、可能な単語の数が有限だからです。確かに可能なトークンの数は有限です。
テキストの中でどの単語が次に来るか、どの単語が欠けているかを正確に予測することはできませんが、辞書のすべての可能な単語について確率分布やスコアを生成することはできます。画像や動画フレームについては、これを行うことができません。動画フレームに対する分布を表現する良い方法がないのです。
これを行おうとすると、数学的な扱いにくさに直面します。統計や物理学者が発明した数学、変分推論などを使ってこの問題を回避しようとすることもできますが、実際には確率的モデリングの考え全体を捨てて、単に入力と出力の互換性の度合いを測るエネルギー関数を学習したいと言うだけの方が良いです。このエネルギー関数が確率分布の負の対数であるかどうかは気にしません。
もちろん、これが必要な理由は、世界で何が起こるかを正確に予測することができないからです。起こり得ることの集合全体があり、システムを1つのフレームを予測するように訓練しても、うまくいきません。
その問題の解決策は、私がJEPA(Joint Embedding Predictive Architecture)と呼ぶ新しいアーキテクチャです。生成アーキテクチャは動画の生成に単純に機能しないからです。動画生成システムが素晴らしいものを生成しているのを見たことがあるかもしれませんが、その裏には多くのハックがあります。それらは物理を本当には理解していません。理解する必要もありません。きれいな画像を予測するだけで良く、世界の正確なモデルを持つ必要はありません。
JEPAの仕組みはこうです。観察と出力(次の観察)の両方をエンコーダーに通します。そのため、予測はピクセルを予測することではなく、基本的に動画で起こっていることの抽象的な表現を予測することになります。
これら2つのアーキテクチャを比較してみましょう。左側には生成アーキテクチャがあり、観察Xをエンコーダーに通し、おそらく予測器やデコーダーを通して、Yの予測を行います。これは直接的な予測です。右側のJEPAアーキテクチャでは、XとYの両方を(同一または異なる)エンコーダーに通し、この抽象空間でXの表現からYの表現を予測します。
これにより、システムは予測できないすべてのものを除去するエンコーダーを学習することになります。これは実際に私たちが行っていることです。例えば、この部屋の左側を観察して、カメラを右に向けた場合、どの動画予測システム(人間を含む)も、皆さんがどのように見えるか、壁のテクスチャ、木製の床のテクスチャを予測することはできません。
単純に予測できないことがたくさんあります。予測できないものについて確率的な予測を行うべきだと主張する代わりに、予測しないようにしましょう。予測がより単純になるように、それらの詳細が本質的に除去された表現を学習しましょう。それでも非決定的である必要があるかもしれませんが、少なくとも問題を単純化します。
JEPAには様々なバリエーションがありますが、それらについては詳しく説明しません。潜在変数を持つものもあれば、行動条件付きのものもあります。行動条件付きについて話したいと思います。なぜならそれが最も興味深いもので、実際に世界モデルだからです。
エンコーダーがあり、Xは世界の現在の状態または現在の観察、SXは世界の現在の状態です。想像上の行動を予測器に供給し、予測器(世界モデル)は世界の次の状態の表現を予測します。これが計画を立てる方法です。
これらのシステムを訓練する必要があり、JEPAアーキテクチャのコスト関数を訓練する方法を見つける必要があります。これは完全に自明ではありません。なぜなら、Yの表現と予測されたYの表現の間の実質的な発散を測定するこのJEPAアーキテクチャのコスト関数を、訓練データで低くする必要がありますが、訓練セットの外では大きくする必要もあるからです。
これは、等エネルギー等高線を持つようなエネルギー関数です。データの多様体の外側でエネルギーが高くなることを確認する必要があります。私はこのための方法を2つのクラスしか知りません。1つの方法は対比的と呼ばれ、暗い青色の点であるデータ点のエネルギーを下げ、点滅する緑色の点を生成してそのエネルギーを上げることから成ります。
対比的方法の問題は、高次元ではうまくスケールしないことです。Yの空間の次元が多すぎると、多くの異なる場所でエネルギーを押し上げる必要があり、それほどうまく機能しません。これを機能させるには多くの対比サンプルが必要です。
もう1つの方法は正則化方法と呼ばれ、低いエネルギーを取ることができる空間の体積を最小化するようにエネルギーを正則化します。これにより、2つの異なる学習手順が導かれます。1つは対比的で、対比点を生成してそのエネルギーを損失関数によって上げる必要があります。もう1つは、データの多様体を「収縮包装」するような正則化子で、外側でエネルギーが高くなることを確実にします。
これを行うためのテクニックがいくつかあります。ほんの一部を説明します。5、6年前に私たちがこれらをテストし始めた方法は、画像の表現を学習するように訓練することでした。1つの画像を取り、それを何らかの方法で破損または変換し、元の画像と破損したバージョンを同一のエンコーダーに通し、破損したものから元の画像の表現を予測するように予測器を訓練します。
システムの訓練が終わったら、予測器を取り除き、エンコーダーの出力の表現を単純な線形分類器などの入力として使用し、それを教師あり学習で訓練して、学習された表現が良いものであることを確認します。
このアイデアは非常に古く、1990年代のSiamese Networksなどにまで遡ります。これらの結合埋め込みアーキテクチャに予測器を追加する最近の研究は、より新しいものです。GoogleのSimCLRは、Siamese Networkから派生した対比的手法ですが、次元は制限されています。
正則化手法は以下のように機能します。エンコーダーからの情報量を何らかの方法で推定しようとし、エンコーダーが崩壊するのを防ぐ必要があります。JEPAアーキテクチャを訓練する際の自明な解決策があります。エンコーダーが入力を無視して定数出力を生成し、予測誤差が常にゼロになるというものです。これは崩壊した解であり、興味深くありません。
システムが崩壊するのを防ぎ、これが先ほど話した正則化手法です。これを間接的に行う方法は、エンコーダーからの情報量を維持することです。これを行う一つの方法は、サンプルのバッチに対するエンコーダーからの表現ベクトルを取り、その行列とその転置の積を計算して共分散行列を得、その共分散行列を単位行列に近づけようとすることです。
しかし、これには問題があります。これは基本的に、変数間の依存関係の性質について非常に強い仮定を行うことで情報量を近似しています。実際には情報量の上限であり、私たちはそれを押し上げて、下にある実際の情報量が追随することを期待しています。理論的には少し不規則ですが、うまく機能します。
エンコーダーから行列が出力され、それには多数のサンプルがあり、各ベクトルは別々の変数です。私たちが試みようとしているのは、各変数を個別に情報量のあるものにすることです。変数の分散がゼロになるのを防ぎ、例えば1に強制し、そして変数同士の相関を取り除きます。これは、この行列とその転置の積を計算して共分散行列を得、その結果の共分散行列を可能な限り単位行列に近づけようとすることを意味します。
サンプルを直交させようとする他の方法もあります。変数ではなく、サンプルを直交させます。これらは対比的サンプル対比手法ですが、高次元では機能せず、大きなバッチを必要とします。
私たちはVICRという方法を持っています。これは分散不変共分散正則化を意味し、この共分散行列に対する特定の損失関数を持っています。YannとそのチームによるMCR2という同様の方法や、NYUの同僚によるMMCRという神経科学からの方法もあります。
これは一つの方法のセットで、私はこれらの方法が好きで、よく機能すると思います。近い将来、より多くの方法が登場すると予想しています。しかし、過去2年間でやや成功を収めている別の方法のセットがあります。これらは蒸留に基づいています。
やはり2つのエンコーダーがあり、これは依然としてJEPAアーキテクチャです。2つのエンコーダーは同じ重みを共有していますが、完全には共有していません。右側のエンコーダーは、左側のエンコーダーの重みを指数移動平均によって得られたバージョンを取得します。移動平均です。基本的に、右側のエンコーダーの重みの変化を左側のものよりも遅くすることで、崩壊を防ぎます。
これについてはいくつかの理論的な研究があります。実際、JEPAが書き終えたばかりのものがあります。しかし、なぜこれが機能するのかは少し謎めいています。正直なところ、この方法には少し不安を感じています。しかし、実際に機能するという事実を受け入れなければなりません。
注意深く行えば、本当のエンジニアは必ずしもなぜ機能するかを知らなくても物を作ります。それが優れたエンジニアです。フランスでの一般的な冗談で、ここにいる皆さんが学ぶべきものですが、エコール・ポリテクニークを卒業した学生は、何かを作っても機能しませんが、なぜ機能しないかを説明できるそうです。申し訳ありません、私はここで学んでいません。分かりますよね。
時間の関係で少し先に進みましょう。時間を無駄にしてしまったので...。
この自己蒸留の実装方法として、IAOがあります。DinoまたはDino V2と呼ばれる別のものもあります。少し飛ばしましたが...。DinoはFairパリの同僚たち、マックス・マキシモキャブが率いるチームによって生み出された方法です。そしてV3に取り組んでいる人々もいます。
モントリオールとパリを中心としたFairの人々によって作られた、IAVJEPAと呼ばれる少し異なるバージョンもあります。ネガティブサンプルは必要ありません。これらのシステムは汎用的な特徴を学習し、その後任意のダウンストリームタスクに使用できます。その特徴は本当に優れています。
これは非常にうまく機能しますが、時間がないので詳細は省略します。最近、我々は動画のためのバージョンに取り組みました。これは16フレームのチャンクを動画から取り、それをエンコーダーに通し、その16フレームを部分的にマスクして破損させ、同じエンコーダーに通し、完全な動画の表現を部分的にマスクまたは破損したものから予測するように予測器を訓練するシステムです。
これもFairのパリとモントリオールの研究者グループによるものです。このシステムは非常にうまく機能します。動画内のアクションを分類できるシステムに特徴を供給すると、非常に良い結果が得られます。詳細は省略しますが、非常に興味深いことがあります。
これは私たちが最近投稿した論文ですが、このシステムに何か本当に奇妙なことが起こる動画を見せると、システムは実際に「私の予測誤差が急上昇している、この窓で何か奇妙なことが起こっている」と教えてくれることができます。動画を取り、16フレームの窓を動画上でスライドさせ、システムの予測誤差を測定すると、物体が突然消えたり形を変えたりするような本当に奇妙なことが起こると、予測誤差が急上昇します。
これは、このシステムがその単純さにもかかわらず、ある程度の常識を学習したことを示しています。世界で本当に奇妙なことが起こっているかどうかを教えてくれます。様々な文脈での直感的な物理学に関する多くの実験がありますが、これは省略して、最新の研究であるDino World Modelに進みましょう。
これはDinoの特徴を使用し、その上に行動条件付きの予測器を訓練して、計画に使用できる世界モデルを作成するものです。これはarXivにある論文で、上部にURLのあるウェブサイトもあります。
基本的に、Dinoエンコーダーを通して世界の画像を実行し、ロボットが取るかもしれない行動を与えて予測器を訓練します。そこで、その動画の次のフレーム、世界からの次の画像を取得し、Dinoエンコーダーに通し、取られた行動が与えられた場合に何が起こるかを予測するように予測器を訓練します。
計画を立てるのは非常に簡単です。初期状態を観察し、Dinoエンコーダーに通し、想像した行動で世界モデルを複数のタイムステップで実行します。次に、例えば目標画像で表される目標状態があり、それをエンコーダーに通し、予測された状態と目標画像を表す状態との間の状態空間での距離を計算します。
計画は、実行時にそのコストを最小化する行動列を見つけるという最適化から成り立っています。人々は、テスト時の計算について興奮していますが、これは全く新しいものではありません。最適制御では、これはモデル予測制御と呼ばれ、私が活動を始めた頃からずっと存在しています。
このタイプのモデルを使用した計画に関する最初の論文は1960年代初頭のものです。実際にモデルを学習するものはより最近で、1970年代のフランスからのものです。これはIDCOMと呼ばれ、最適制御の分野の人々はこれについて知っているかもしれません。
しかし、これは非常に単純な概念で、驚くほどうまく機能します。ビデオに飛びましょう。例えば、このT字型の物体があり、特定の位置に押し込みたいとします。その位置に置く必要があることは、その位置の画像をDinoに通すことで分かります。これにより、表現空間での目標状態が得られます。
もう一度そのビデオを再生しましょう。上部では、計画された行動列を取ったときに実際の世界で起こることが見えます。下部では、システムが計画していた行動列についてのシステムの内部的な心的予測が見えます。これはデコーダーを通して実行され、内部状態の絵画的な表現を生成しますが、画像生成は別個に行われています。
より興味深いものに飛びましょう。ここでは、初期状態は床にランダムに投げられた青いチップの集まりで、目標状態は上部にあります。ここで見えるのは、計画から生まれた行動とロボットがそれらの行動を実行している様子です。
この環境のダイナミクスは実際にかなり複雑です。なぜなら、それらの青いチップは互いに相互作用するからです。システムは単に多くの状態-行動-次の状態の観察を通じてこれを学習しました。これは、腕が迷路を通り抜けたり、Tを押したりするなど、多くの状況でうまく機能します。
時間の関係で省略しますが、同様のアイデアをナビゲーションにも適用しています。これは基本的に、1つの時点でフレームが撮影され、ロボットが移動し、オドメトリによってロボットがどれだけ移動したかが分かり、次のフレームを取得する動画のシーケンスです。
特定の移動行動を取った場合に世界がどのように見えるかを予測するようにシステムを訓練し、次にそのシステムに「あの点まで移動せよ」と指示することができます。システムはそれを実行し、途中の障害物を避けます。これは非常に新しい研究ですが、結論に進みましょう。
いくつかの提言があります。生成モデルを放棄してください。今日最も人気のある方法で、誰もが取り組んでいるものです。これはやめてください。その代わりにJEPAに取り組んでください。これらは生成モデルではありません。表現空間で予測を行います。
確率モデルは扱いにくいので、エネルギーベースモデルを使用してください。ミシェルと私は20年にわたってこれについて議論を重ねてきました。対比的手法を放棄し、これらの正則化手法を採用してください。強化学習を放棄してください。これは長い間言ってきましたが、効率が悪いことが分かっています。
強化学習は、モデルが不正確な場合やコスト関数が不正確な場合の最後の手段としてのみ使用する必要があります。人間レベルのAIに興味がある場合は、LLMに取り組まないでください。意味がありません。実際、学術界にいる場合はLLMに取り組まないでください。なぜなら、何万ものGPUを持つ何百人もの人々と競争することになるからです。テーブルに何も持ち込めません。他のことをしてください。
解決すべき問題がいくつかあります。大規模データでこれらを訓練すること、などです。計画アルゴリズムは効率が悪く、より良い方法を考え出す必要があります。最適化や応用数学に興味があるなら、素晴らしいです。潜在変数を持つJEPA、不確実性下での計画、完全に未解決の階層的計画、手作業で構築できないためおそらく学習する必要があるコストモジュール、そして探索の問題などがあります。
将来、私たちは普遍的な仮想アシスタントを持つことになるでしょう。彼らは常に私たちと共にいて、デジタル世界とのすべての対話を仲介します。これらのシステムが米国西海岸や中国の一握りの企業からのみ来ることは許容できません。
これは、これらのシステムを構築するプラットフォームがオープンソースで広く利用可能である必要があることを意味します。訓練は高価ですが、一度基盤モデルを手に入れれば、特定のアプリケーションのために微調整することは比較的安価で、多くの人々が実行可能です。
プラットフォームは共有される必要があり、世界のすべての言語を話し、世界のすべての文化、価値体系、関心分野を理解する必要があります。世界のどの単一の組織も、このタイプの基盤モデルを訓練することはできません。これはおそらく協調的な方法か分散的な方法で行われる必要があります。これも、大規模最適化のための分散アルゴリズムに興味のある応用数学者のための仕事です。
そのため、オープンソースAIプラットフォームは必要不可欠です。ヨーロッパや他の場所で私が見る危険は、政治的な競争が政府にオープンソースモデルのリリースを違法にさせる可能性があることです。なぜなら、科学を秘密にしておけば国が先行できるという印象を持っているからです。
これは大きな間違いになるでしょう。秘密裏に研究を行うと、必ず遅れをとります。それは避けられません。世界の残りの部分がオープンソースに向かい、あなたを追い越すことになるでしょう。これは現在起きていることです。オープンソースモデルが、ゆっくりではありますが着実に独占的なモデルを追い越しています。
ありがとうございました。