中国がAIに衝撃の一撃: OpenAIは間違っている!
9,151 文字
皆さん、こないな話なんですけど、OpenAIの世界モデルについての考え方が間違うてるいうことを、はっきり言うてる研究が出てきたんです。この動画をしっかり見とかなあかんのですわ。
もちろん論文もあるんですけど、まずは彼らの作った動画を見ていきましょか。「ビデオ生成は世界モデルとどれだけ違うのか - 物理的な視点から」というタイトルで、ByteDanceという会社から出されたものです。
動画の最初では、Soraについて触れてます。Soraが驚くほどリアルな映像を作れるいうのは認めてます。これは誰もが知ってる事実ですわな。でも、ここから彼らは疑問を投げかけ始めるんです。
特に重要なのは、これはSoraだけの話やなくて、その背後にある技術と、それがどう機能してるかについての話なんです。ビデオ生成モデルは世界を生成してるように「見える」言うてます。「見える」いう言葉に注目してくださいな。
続けて見ていきましょか。これはOpenAIのブログに書かれてることをそのまま引用してるんです。OpenAIは「私たちの結果は、ビデオ生成モデルをスケールアップすることが、物理世界の汎用シミュレーターを構築する有望な道筋であることを示唆している」言うてるんです。
つまりOpenAIは、Soraかその派生システムを使ってAGI(汎用人工知能)に到達しようとしてるわけです。だって物理世界をシミュレートできる能力は、現実世界で行動し存在するために必要不可欠ですからな。
でも、物事は見かけと違うかもしれません。研究の続きを見ていきましょか。めっちゃ興味深い内容なんです。
「Soraは本当に物理法則を理解しているのか?」いう質問を投げかけてます。これはSoraだけの問題やなくて、SoraがもしかしたらそのままAIへの入り口になるかもしれないいう話なんです。物理世界をうまくシミュレートできるいうことは、世界モデルを持ってるいうことですし、世界モデルはAGIの開発に不可欠なものですからな。
ここで彼らが示してるのは、Soraが物理法則を本当に理解してるんかどうかいう疑問です。例えばSoraが作った映像で、グラスが突然飛び上がったり、変な動きをしたりする例を挙げてます。彼らが言うてるのは、「これらは世界モデルやない、物理的な現実をシミュレートしてるんやない、まったく別物や」いうことなんです。
ここからが面白なってきます。彼らは「合成シーンで系統的な研究を大規模に行った」言うてます。ちょっと複雑な話になりますけど、60秒ほど我慢して聞いてください。絶対に価値がある話です。
彼らは2D物理シミュレーションエンジンを使って合成ビデオを生成しました。これは単純な話です。そして、ビデオ生成モデルは従来のモデルと同じように未来のフレームを予測するように訓練されてます。
これは特に変わったことやないんですけど、ビデオ生成モデルは次のフレームを予測するように訓練されてるわけです。基本的に次に何が起こるかを予測してるんです。
彼らは無制限のデータスケーリングができる言うてます。これはすごいことで、データを使って異なる設定をテストできます。速度や加速度などを変えることができるんです。
これによって、分布内と分布外のデータを使えるようになります。分布内いうのはテストデータに含まれてるものを指して、分布外いうのはテストデータに含まれてないものを指します。
モデルが分布外のデータでうまく機能せんかったら、それは一般化能力が低いいうことを示唆します。これはめっちゃ重要なことです。システムが分布内でしかうまく機能せんのやったら、それは単なる検索システムに過ぎないいうことです。
考えてみてください。人間は見たことのない道でも別の州まで車を運転できます。でもAIシステムは、それが分布外のタスクやから、そういう課題に苦労するんです。だからこそ、このような研究が重要なんです。
この概念を理解したうえで、次に進みましょか。彼らは組み合わせのようなグラフを示して、訓練されたものと、そのうちの半分がテストに使われたものを比較してます。
彼らの観察結果を見ていきましょう。分布内、分布外、そしてその組み合わせについて見ていきます。分布内では完璧な再現性を示しました。これは当然です。すでに訓練データに含まれてるものですからね。
例えば、500万台の空飛ぶ車で訓練されたモデルに空飛ぶ車のプロンプトを与えたら、それを完璧に再現できるわけです。でも、分布外のものになると、うまく機能しません。組み合わせの場合でも、少し違うスケーリング則が見られます。
これらの失敗モードがAI開発にとってなぜ重要なのか、具体的に見ていきましょう。彼らは「興味深い失敗モードをたくさん観察した」言うてます。
実際の映像と生成された映像を比較してます。最初は文脈なしで示されてるから理解しにくいんですけど、情報が追加されると、なぜこれらのモデルが分布外のシナリオで一般化に失敗してるのかが分かってきます。
重要なメッセージは、モデルは分布内では完璧な一般化ができるけど、分布外のシナリオでは一般化に失敗するいうことです。分布内ではほとんどエラーがありません。でも分布外、つまり見たことのないものを要求された場合、エラーは大きくランダムになります。
これは全然良くないです。このようなアーキテクチャを使うシステムでは、理想的やありません。多くの企業がAGIを目指してこの種のアーキテクチャを使ってるんですけど、今のところ、公開情報を見る限り、良い結果は出てないようです。
複数のオブジェクトと手順を組み合わせた複数のシーンでモデルを訓練したいうことが分かります。実際のシミュレーションと生成されたものを見ると、かっこよく見えます。
これらを組み合わせたスケーリング則を見てください。スケーリング則とデータカバレッジが大きくなるにつれて、物理的に妥当な動画の割合が大幅に増加します。これは理にかなってます。
でも、これが私を驚かせたんです。これを見たとき、「もしかしたらこれらのシステムは見かけほど賢くないんかもしれない」と思いました。AI批判者たちの指摘に本当の価値があるんかもしれません。毎月新しい情報が出てきて、彼らの信憑性が高まってるように見えます。
ここで重要な点があります。「動画はダイナミクスをシミュレートしてるんやなくて、事例ベースの検索と再生によって生成されてる」いうことです。もう一度言います。「動画は事例ベースの検索によって生成されてて、ダイナミクスをシミュレートしてるわけやない」んです。
これは、これらのモデルが実際の物理法則を理解してないいうことです。これらのモデルがやってるのは、訓練されたコンテンツを検索して取り出すだけなんです。
もしこの研究の言うことが正しいなら、もしこれらの結論が正確なら、これらのAIシステムは私たちが思ってるほど優れてないいうことになります。これは重大な意味を持ちます。
もし動画が単なる検索と再生で、実際のシミュレーションやないんやったら、AGIに到達するには全く新しいアーキテクチャが必要になります。でも、彼らの主張を信じられんかったら、あなたの考えを変えるかもしれない例を見てみましょう。
例えば、彼らはボールが高速で左右に動くシーンでモデルを訓練しました。そして、右方向への低速移動でテストしたんです。でもモデルは次のような結果を出しました。
右に向かうはずやのに、左に向かってしまうんです。これは完全に狂ってます。訓練データに含まれてたものしか見てないからです。訓練データでは、ボールは高速で左右に動いてました。でも低速で右だけに動かそうとしたら、ボールは左に向かってしまったんです。
これは、モデルが訓練データセースを参照してるから起こるんです。左に向かうケースが含まれてたからです。この例は少し分かりにくいかもしれませんが、もっと良い例があります。
基本的に、動画は物理法則に従ってるんやなくて、類似の訓練データを参照して生成されてるいうことです。これは正確な世界シミュレーターを使った場合でもそうなんです。
最初に物理法則を生成するために使ったものは正確やったかもしれません。でも、モデルを訓練すると、たとえ正確な物理法則を持つ現実世界で訓練したとしても、その訓練データを見ただけでは、何が起こってるのかを根本的に理解してるわけやないんです。
もう一つの例を見る必要があります。これは完全に頭が爆発するような例です。これを見たら、これらのモデルが実際には知的な存在やなくて、ただの高度な検索メカニズムやいうことが分かるでしょう。
生成モデルには、異なる属性に対する内部的な優先順位があります。これは面白いことです。モデルは検索するとき、特定のものを優先的に扱うんです。
つまり、モデルはまず色を見て、次にサイズ、速度、そして形を見ます。物理法則なんて全然見てません。気にしてもいません。
これが私の頭を爆発させた例です。「なんてことや」と思いました。訓練データでは、全ての円は赤で、全ての四角は青でした。これが訓練データの全てです。とてもシンプルで分かりやすいですよね。
でも、モデルを使ってテストしたときに何が起こったか見てみましょう。赤い四角から始めました。これは当然、訓練データには含まれてないものです。訓練データでは、赤いオブジェクトは円形だけで、四角は青だけでした。
赤い四角を使って、左から右に動かしたら何が起こったと思います? それは円形に変わってしまったんです! これは完全に狂ってます!
赤い円と青い四角の物理法則で訓練されたのに、訓練データはオブジェクトの色を形よりも重視してしまうんです。赤い四角が左から右に動くとき、実際には円形に変形してしまいます。
つまり、左から右に動く物体の物理法則を予測してるんやなくて、左から右に動く赤い円を予測してるんです。物理法則に注目してるんやなくて、オブジェクトの色に注目してるんです。これは完全に狂ってます。
これが幻覚が起こる理由です。今なら理解できます。これは分布外のものです。見たことのないものです。分布外のものに対して何が起こるのか、はっきりと分かります。
「検索において、色が形を決定し、その逆ではない」いうことは、同様のアーキテクチャを使う他のビデオモデルにとって重大な意味を持ちます。
正直に言って、この研究は信じられないほど重要です。これまで知られてなかったことを示してるからです。彼らの結論を見てみましょう。
ビデオ生成モデルは分布内、つまり訓練データ内でしかうまく機能しません。分布外での性能は低いです。つまり、テキストからビデオを生成するモデルで良い結果が得られないのは、あなたのプロンプトの戦略が悪いからやなくて、おそらくモデルがそれについて訓練されてないからなんです。
十分な訓練データがないから、単純にそれが理由です。訓練データが不足してると、性能は低下します。組み合わせによる一般化はスケーリングで可能ですが、主に事例ベースの検索と組み合わせによって生成されていて、物理法則の理解に基づいているわけではありません。
つまり、これらのモデルに物理法則を予測させたいのなら、このアーキテクチャは全く使えないということです。彼らがやっているのは、実際には検索なんです。
これは驚くべきことです。一連の影響があるからです。もちろん論文もありますし、この動画は情報を理解するのにとても役立ちました。
つまり、ビデオ生成モデルのスケーリングが物理世界の汎用シミュレーターを構築する有望な道筋であるという考えは、正しくないということです。これは生成アーキテクチャの問題だと思います。
この動画は完全な衝撃です。多くの人々が生成AI全体を批判してきましたが、これはまた別の衝撃的な発見なんです。
さらに驚くべきことに、Twitterで「この問題の解決策は見つかりましたか?」というコメントに対して、「残念ながら、まだ見つかっていません。これはおそらくAIコミュニティ全体のミッションです」と返答していたんです。
もちろん、AI批判者たちもこれについてコメントしています。Gary Marcusのことを話さずにはいられませんね。彼は「ディープラーニングが壁に突き当たっていることを確認した」と言っています。
Gary Marcusは1998年からずっとこのことを指摘してきました。訓練空間の内と外での一般化の違いについて、AGIに到達するまでこれを解決する必要があると。
つまり、分布外のタスクを一般化できないシステムでは、AGIには到達できないと言っているんです。AGIは分布外のタスクを一般化できるシステムだからです。
もちろん、より多くのデータを投入することはできますが、そのようなアーキテクチャでAGIにスケールするとは言えません。無限の合成データを使用することはできますが、人間の知能を複製しようとするとき、それは人間が見たことのないことを実行できる能力から来ているんです。物理法則を理解できないような失敗はしません。
例えば、この研究で見たように、全ての赤いアイテムは円で、全ての青いアイテムは四角だったとしましょう。人間がこれを理解して、左から右に動かすとき、次に何が起こるかを予測する場合、それが円に変わるとは予測しないでしょう。
物体が左右に動くからといって、別のオブジェクトに変わるとは考えないはずです。でも、このシステムはそう考えるんです。この研究が言うように、単なる事例ベースの検索に基づいているだけなんです。
これは非常に興味深いことです。2、3週間前にAppleの論文について話したことを覚えていますか? 「言語モデルに形式的な推論は見られない。その振る舞いは洗練された패턴マッチングによって better説明される。名前を変えるだけで結果が10%変わってしまうほど脆弱」というものでした。
テストの勉強をしていて名前が変わったくらいで、結果がそれほど大きく低下することはないでしょう。もちろん、GPT-4はよりよい性能を示しますが、見たことのないタスクで効果的に機能するものが必要です。
名前を変えるだけでベンチマークの結果が10%低下するのは、かなり深刻です。モデルが世代を重ねるごとの変化を見ると、AI企業は10%の改善でも喜んでいます。
Yann LeCunについても触れたいと思います。彼は今、この種の研究が自分の主張を裏付けているので、かなり満足しているんじゃないでしょうか。
残念ながら、Yann LeCunはLLMや生成AIに焦点を当てていないため、AI懐疑論者とみなされています。彼は「目的駆動型AI」と呼ばれる全く異なるアーキテクチャに注目しています。
基本的に、彼は目的駆動型AIがいつか人間レベルの知能に到達する可能性があると言っています。目的駆動型AIを見ると、世界モデル、生成的でない結合埋め込み予測アーキテクチャを使用しています。
これによって、物理世界を理解し、永続的なメモリを持ち、推論し、階層的に計画を立てることができるシステムを実現できるかもしれません。
これがYann LeCunの理論全体で、彼はMetaでこれに取り組んでいます。これが彼の大きなテーマです。
私は30分の講演の全ビデオを作りましたが、Yann LeCunの目的駆動型AIについては、これが本質的にAGIとなる主要なアーキテクチャだと考えています。
これは現在の標準的なLLMとはかなり異なるアーキテクチャで、推論においても全く異なる新しいシステムです。
Yann LeCunは10分以上話していますが、正直に言って複雑すぎるので、簡単な説明を試みます。
現在のAIシステムであるLLMがパターンに基づいて反応するのとは異なり、目的駆動型AIは思考プロセスのように機能します。AIが異なる未来のシナリオを想像し、それに基づいて計画を立てることができます。
これが重要な理由は、文章の次の単語を予測するような特定のタスクを実行するAIを超えて、全く同じシナリオに直面したことがなくても、新しい状況で目標を達成する方法を見つけることができるAIに進化することを目指しているからです。これは現在のAIが大きな問題を抱えている部分です。
目的駆動型AIの仕組みは、世界モデル(世界の仕組みについての精神的表現)を持ち、これを目標・目的と組み合わせ、危険を避けるなどの制約を考慮しながら目標達成のために行動を最適化します。
スクリプトに従うような事前に設定された行動をただ実行するのではなく、学習したことや環境の変化に基づいて調整・適応できます。これは人間が計画を立てる方法により近いものです。
GoogleのGeminiが作成したこのグラフは、LLMと目的駆動型AIの主な違いを示しています。理解を簡単にするために、スクリーンショットを撮っておくと良いかもしれません。
次にVJEPAアーキテクチャについて説明します。これは今年2月頃にオープンソース化されたもので、Metaがオープンソースコミュニティと共に構築を進めているものです。
彼らが試みているのは、人間のように効率的に予測できるシステムを作ることです。人間は何百万回も試行錯誤する必要はなく、数回の経験で暗黙的に理解できます。それがVJEPAのやろうとしていることです。
Metaの最初の動画を見てみましょう。これは理解が簡単で、何が起こっているのかがよく分かります。その後、Yann LeCunが生成アーキテクチャが特定の予測に適していない理由について話すのを聞いていただきます。
今日、機械は一つの概念を学習するのに何千もの例と何時間もの訓練を必要とします。VJEPA(結合埋め込み予測アーキテクチャ)の目標は、人間のように効率的に学習できる高度な知能マシンを作ることです。
VJEPAはビデオデータで事前訓練されており、赤ちゃんが親の行動を観察して学習するように、物理世界について効率的に概念を学習できます。完全な微調整なしで、わずかな例から新しい概念を学び、新しいタスクを解決できます。
VJEPAは生成モデルではなく、抽象的な表現空間でビデオの欠落または隠された部分を予測することで学習します。すべての欠落ピクセルを埋めようとする生成的アプローチとは異なり、VJEPAは無関係な情報を破棄する柔軟性を持っており、より効率的な訓練が可能です。
研究者の皆さんがこの研究を進められるよう、私たちはVJEPAを公開しています。この研究は、世界を理解し、計画を立て、推論し、予測し、複雑なタスクを達成できるAIへの道のりにおける重要なステップだと考えています。
単語のシーケンスの後にどの単語が続くかを予測することはできませんが、辞書内のすべての可能な単語の確率分布を生成することはできます。しかし、ビデオフレームの場合、ビデオフレームの確率分布を表現する良い方法がありません。
実際、タスクは完全に不可能です。例えば、この部屋のビデオを撮影し、カメラでその部分を撮影して、ビデオを停止し、次に何が起こるかをシステムに予測させた場合、部屋の残りの部分があり、壁があり、人々が座っていて、密度は左側と同様になるかもしれないと予測するかもしれません。
しかし、ピクセルレベルで皆さんがどのように見えるか、壁のテクスチャがどのようなものか、部屋の正確な大きさなどを予測することは不可能です。
それらの詳細をすべて正確に予測することはできません。この解決策が、私が結合埋め込み予測アーキテクチャと呼ぶものです。アイデアは、ピクセルを予測することを諦め、代わりに世界で起こっていることの抽象的な表現を学習し、その表現空間で予測することです。
これがアーキテクチャです。結合埋め込み予測アーキテクチャは、破損したバージョンXをエンコーダーに通し、Yをエンコーダーに通し、そしてXの表現からYの表現を予測するようにシステムを訓練します。
しかし、問題は、単に勾配降下と逆伝播を使って予測誤差を最小化するようにシステムを訓練すると、崩壊してしまうことです。表現が定数になってしまい、予測は簡単になりますが、情報価値がありません。
これが、生成アーキテクチャ(再構成を試みる予測器、オートエンコーダー、生成アーキテクチャ、Mドゥーエンコーダーなど)と結合表現アーキテクチャの違いです。表現空間で予測を行うのです。
将来は、これらの結合表現アーキテクチャにあると思います。画像の良い表現を学習する最良の方法は結合アーキテクチャを使用することであり、実験的証拠が豊富にあります。
再構築を使用して画像の表現を学習しようとするすべての試みは良くありません。うまく機能しません。大規模なプロジェクトがあり、機能すると主張されていましたが、実際にはそうではありません。最高の性能は結合アーキテクチャで得られています。
VJEPAとポピュラーな生成的アプローチの違いを簡単に比較したい方のために説明します。
VJEPAは、抽象的理解を通じて1.5〜6倍少ない訓練データで効率的な学習を行い、モデル全体を再訓練することなくタスクを学習でき、詳細なオブジェクトの相互作用の検出に優れています。
制限の一つは、10秒までの短いビデオでしか効果的に機能しないことです。
物理ベースのビデオ生成と比較すると、完全な物理ベースのビデオ予測を行うことができますが、物理法則を理解するのではなく記憶する傾向があり、分布の制限があり、訓練データ外のシナリオで苦戦し、再訓練が必要といった制限があります。
正直に言って、これは私が最近作った中で間違いなく最もクレイジーな動画の一つです。この種の研究は本当に大きな影響力があります。なぜなら、AGIに到達し、実世界の物理的なビデオシミュレーターを実現したいのなら、全く新しいアプローチが必要だと言っているからです。
このシステムは、未来の行動を予測するために単に訓練データに依存しているだけなんです。つまり、OpenAIのSoraは良いですが、世界生成器を目指すなら、そのアーキテクチャアプローチは間違っているということです。
これはかなりクレイジーな結論ですが、正直に言って、研究を見た後では、彼らの言っていることが完全に理解できます。これらの人々は何かを発見したと思います。
以上ですが、皆さんはどう思いますか?