メタのAIチームが人工汎用知能(AGI)への秘密を明かした
7,143 文字
ヤンレクンさんが最近行った講演は、おそらくAIに関する最近の講演の中で最も洞察に富んだものやと思います。なぜかというと、人工知能の未来とAGIにどうやって到達するかについて語っとるからです。彼はAGIのタイムラインや、必要なアーキテクチャについて話してます。もちろん、AIアシスタントの未来がどうなるかという話から始めとるんですけどね。
ほんな、人間レベルのAI、つまりどうやってそこに到達するか、また到達できへんかについて話していきますわ。まず第一に、人間レベルのAIが必要な理由ですが、将来的には多くの人がスマートグラスや他のタイプのデバイスを身につけて、それらと会話することになるでしょう。そのシステムはアシスタントを搭載することになりますな。ひょっとしたら1つだけやなくて、たくさんのアシスタントがあるかもしれません。そうなると、私らみんなが基本的にスマートな仮想の人々のスタッフを持つことになるわけです。つまり、誰もがボスになるってことですわ。
ここでヤンレクンさんは、高度な機械知能を実現するために必要なものについて語っとるんです。AGIとか人工超知能(ASI)と呼ぶ人もおるでしょうが、現在持ってへんもの、例えば永続的なメモリとか、他にもいろいろなものが必要やということを見ていくのは本当に重要やと思います。これらは、将来的に本当にスマートで人工超知能レベルのシステムの基礎となるものなんです。
これは人間の知能を増幅させ、より創造的で生産的にするために必要なんです。でも、そのためには世界を理解し、物事を記憶し、直感や常識を持ち、人間と同じレベルで推論や計画ができる機械が必要になります。熱心な人々から聞いたかもしれませんが、現在のAIシステムはこれらのどれもできへんのです。
つまり、世界をモデル化し、世界がどう機能するかの心的モデルを持つシステムが必要なんです。どんな動物でもそういうモデルを持っとるんですよ。あなたのネコだって、今まで作られたどんなAIシステムよりも洗練されたモデルを持っとるんです。現在の言語モデルにはない永続的なメモリを持つシステム、複雑な行動順序を計画できるシステム、そして制御可能で安全なシステムが必要なんです。
ほんで、私が提案するアーキテクチャは「目的駆動型AI」と呼んでます。約2年前にこれについてのビジョン論文を書いて公開しました。FairAIの多くの人々がこの計画の実装に向けて取り組んでます。FairAIはかつて長期的な基礎研究と応用プロジェクトの組み合わせやったんですが、メタは1年半前にAI製品に焦点を当てたGeniという製品部門を作りました。彼らは応用研究開発をしとるんです。そんで、FairAIは次世代AIシステムのより長期的な研究に方向転換しました。基本的に大規模言語モデル(LLM)はやってへんのです。
ここでヤンレクンさんは、何か大きなものが欠けとるって話をしとるんです。人間にとって簡単なことがコンピュータにとっては非常に難しく、逆にコンピュータが得意な高度な計算とかは人間が苦手やという、モーラベック・パラドックスにずっと直面してるんです。これを解決するには、別のアプローチが必要やと。
人間レベルの知能に到達するには、まだ何か大きなものが欠けとるんです。必ずしも人間レベルの知能について話してるわけやないんですが、あなたのネコや犬でさえ、現在のAIシステムではまだ全く手の届かない驚くべき能力を持っとるんです。10歳の子供がどうやって1回で食卓を片付けて食洗機に入れるのを覚えられるんでしょうか。練習する必要もないですよね。17歳の子供は約20時間の練習で車の運転を覚えられます。でも、まだレベル5の自動運転車はないし、食卓を片付けて食洗機に入れる家庭用ロボットもありません。
だから、本当に何か大きなものが欠けとるんです。そうでなければ、AIシステムでそういうことができるはずです。私らはモーラベック・パラドックスに何度もぶつかってます。つまり、私らにとって些細で知的とも思えへんことが、機械にとっては本当に難しいように見えるんです。でも、高度で複雑な抽象的思考や言語操作は機械にとって簡単やし、チェスや囲碁をプレイするのも簡単なんです。
次は、最も魅力的なデータの1つです。ヤンレクンさんは、私らの世界モデルを訓練するには、考えとる以上にたくさんのデータが必要やと話してます。基本的に、人間が1分間に250語で読むとして、必要なデータ量を読むのに35万年かかるって言うとるんです。人間の子供が16,000時間起きとるのを考えると、それはどんな大規模言語モデルが見たデータよりも多いんです。大規模な訓練を行っとるにもかかわらずね。
つまり、こういうことです。私らはたくさんのデータを持っとると思っとるけど、実際にうまく機能してる人間や動物のようなシステムと比べると、1つの画像を1フレームのデータと考えると、それは本当に膨大なデータ量になるんです。つまり、もっとたくさんのデータが必要になるってことです。
ほんじゃ、どうやってそれをするんでしょうか。考えてみましょう。典型的な大規模言語モデルは20兆のトークンで訓練されとります。トークンは基本的に単語の3/4くらいです。平均的な言語で言うとね。つまり、1.5×10の13乗の単語です。各トークンは通常約3バイトなので、6×10の13乗バイトになります。これを読むのに数十万年かかるんです。基本的に、インターネット上で公開されとるすべてのテキストの総量やということです。
でも、人間の子供を考えてみましょう。4歳の子供は合計16,000時間起きとります。ちなみに、これはYouTubeの30分のアップロードに相当します。私らには200万本の視神経繊維があって、各繊維は1秒あたり約1ビットのデータを運びます。半ビットという推定もあれば、3ビットという推定もありますが、桁数的にはそんなに変わりません。そのデータ量は約10の14乗バイトです。大体、大規模言語モデルと同じ桁数です。
つまり、4年間で子供は、大規模言語モデルがインターネット上の公開テキスト全体で訓練されたのと同じくらいの視覚データやデータを見とるんです。これは幾つかのことを教えてくれます。まず、テキストだけを訓練しても人間レベルの知能には決して到達できへんってことです。
でも、反論として、視覚情報は非常に冗長やって言われるかもしれません。まず、視神経繊維1本あたり1秒1ビットというのは、網膜の光センサーと比べると既に100対1の圧縮率なんです。網膜には6,000万から1億の光センサーがあって、それが網膜の前にある神経によって100万の神経繊維に圧縮されとるんです。つまり、既に100対1の圧縮があるわけです。そして脳に到達すると、それが50倍くらいに拡大されます。
私は圧縮された情報を測定してますが、それでもまだ非常に冗長です。実は、冗長性は自己教師あり学習に必要なんです。自己教師あり学習は冗長なデータからしか有用なものを学習できません。データが高度に圧縮されとると、つまり完全にランダムやと、何も学べへんのです。何かを学ぶには冗長性が必要で、データの根本的な構造を学ぶ必要があるんです。
だから、常識や物理的直感を学ぶシステムを訓練するには、基本的に動画を見るか、現実世界で生活することで訓練する必要があるんです。
次は、ヤンレクンさんの目的駆動型AIについてです。これは基本的に、人工汎用知能の主要なアーキテクチャになるものです。現在の標準的な大規模言語モデルとはかなり異なるアーキテクチャで、1段階推論とも全く異なる新しいシステムです。ヤンレクンさんはこれについて10分以上話してますので、簡単に説明させてもらいます。
現在のAIシステムである大規模言語モデルがパターンに基づいてデータに反応するのとは違って、目的駆動型AIは思考プロセスのように機能します。AIが異なる未来のシナリオを想像し、それに基づいて計画を立てることができるようになります。これが本当に重要な理由は、文章の次の単語を予測するような特定のタスクしかできないAIから、新しい状況でも目標を達成する方法を見つけられるAIへと進化させることが目標だからです。たとえ全く同じシナリオに直面したことがなくてもです。これは現在のAIが本当に苦手なことなんです。
目的駆動型AIの仕組みは、AIが世界モデルを持つことです。これは基本的に、世界がどのように機能するかの心的表現です。そして、この世界モデルを目標や目的と組み合わせ、危険を避けるなどの制約を考慮しながら、目標を達成するために行動を最適化します。あらかじめ設定された行動、つまりスクリプトに従うだけではなく、学んだことや環境の変化に基づいて調整し適応できるんです。これは人間が計画を立てる方法にかなり似とります。
Google Geminiが作成したこのグラフは、大規模言語モデルと目的駆動型AIの主な違いを示しとります。理解を簡単にするのに役立つグラフィックなので、スクリーンショットを撮っておくといいかもしれません。
次は、V-JEPAアーキテクチャです。これは今年の2月頃にオープンソース化されたもので、メタはオープンソースコミュニティと共にこれを構築しようとしとります。まだ開発中ですが、基本的に人間と同じくらい効率的に物事を予測できるシステムを作ろうとしとるんです。人間は、何かを何百万回もやって正解にたどり着くわけやありません。数回で暗黙のうちに何が起こっとるかを理解できるんです。それがV-JEPAがやろうとしとることなんです。
メタの最初の動画を再生しますね。これは本当に簡単な理解を示すもので、何が起こっとるかを正確に示してくれます。そのあと、ヤンレクンさんが生成型アーキテクチャでは特定のものを予測するのに適してへんという話をするんですが、これは本当に面白いです。というのも、この分野にはこういった意見が必要やと思うからです。アイデアを批判し始めることで、実際に改善につながると思うんです。
今日、機械は1つの概念を学ぶのに何千もの例と何時間もの訓練を必要とします。JEPAの目標は、人間と同じくらい効率的に学習できる高度に知的な機械を作ることです。JEPAは動画データで事前訓練されとるので、赤ちゃんが両親を観察して学ぶのと同じように、物理的な世界についての概念を効率的に学習できます。完全な微調整なしで、わずかな例を使って新しい概念を学び、新しいタスクを解決できるんです。
V-JEPAは非生成モデルで、抽象的な表現空間で動画の欠けたり隠されたりした部分を予測することで学習します。欠けたピクセルをすべて埋めようとする生成的アプローチとは異なり、V-JEPAは関係のない情報を破棄する柔軟性があるため、より効率的な訓練が可能になります。研究者の皆さんがこの研究をさらに発展させられるように、V-JEPAを公開しています。この研究は、世界を理解し、計画を立て、推論し、予測し、複雑なタスクを達成できるAIへの道のりにおける重要な一歩やと考えとります。
単語の列に続くどの単語が来るかを予測することはできませんが、辞書にあるすべての可能な単語の確率分布を作ることはできます。しかし、動画フレームの場合、動画フレームの確率分布を表現する良い方法がありません。実際、それは完全に不可能なんです。例えば、この部屋の動画を撮って、その一部を撮影して動画を止めて、次に何が来るかをシステムに予測させたとしましょう。システムは部屋の残りの部分や、壁があったり、人々が座っとったりすることを予測するかもしれません。密度は左側のものと似とるかもしれませんが、ピクセルレベルで皆さんがどう見えるか、壁の質感がどうなってるか、屋根の正確なサイズがどうなってるかといったことを予測することは絶対にできへんのです。そういった詳細を正確に予測する方法はありません。
この解決策が、私が「共同埋め込み予測アーキテクチャ」と呼んでいるものです。アイデアは、ピクセルの予測を諦めることです。ピクセルを予測する代わりに、世界で何が起こっとるかの抽象的な表現を学習し、その表現空間で予測するんです。これが共同埋め込み予測アーキテクチャです。2つの埋め込みがあり、破損したバージョンXをエンコーダーに通し、Yをエンコーダーに通して、XのS表現からY表現を予測するようにシステムを訓練します。
問題は、これをどうやって行うかです。なぜなら、勾配降下法や逆伝播を使って予測誤差を最小化するように訓練すると、システムが崩壊してしまうからです。一定の表現を学習して、予測が超簡単になりますが、情報量がありません。これが、生成型アーキテクチャと共同埋め込みアーキテクチャの違いです。生成型アーキテクチャは再構成を試みますが、共同埋め込みアーキテクチャは表現空間で予測を行います。
将来はこの共同埋め込みアーキテクチャにあると思います。画像の良い表現を学習するには、このアーキテクチャを使うのが最良の方法やということを示す経験的証拠がたくさんあります。再構成を使って画像の表現を学習しようとするすべての試みは良くありません。うまくいかへんのです。大規模なプロジェクトがあって、うまくいったという主張もありましたが、本当にはうまくいってません。最高のパフォーマンスは右側のアーキテクチャで得られます。
次に面白いのは、これらのシステムが本当に実現したときに何が起こるかの最初の例を得られることです。ここでヤンレクンさんは、未来がどうなるかについての自身のアイデアや意見を述べとります。現在のAIに対して最も懐疑的と考えられとる人々が未来をどう見てるかを見るのは常に重要やと思います。なぜなら、彼らの意見は最もハイプの少ないものやからです。つまり、これが私らが得られる最も現実的な未来の姿かもしれへんのです。
もし私らがこれに成功したら、デジタル世界との私らのすべての相互作用を仲介するシステムができるでしょう。私らのすべての質問に答え、多くの時間を私らと共に過ごし、基本的にすべての人間の知識の貯蔵庫となるでしょう。これはインターネットのようなインフラストラクチャのようなものに感じます。製品というよりは、インフラストラクチャですね。
これらのAIプラットフォームはオープンソースでなければなりません。IBMの方々にはこれを説得する必要はありませんね。IBMとメタはAIアライアンスの一部で、オープンソースAIを推進しとります。ダリオさんがこれを先導してくれてることに本当に感謝しとります。そしてIBMの皆さんにもです。
これらのプラットフォームをオープンソースにする必要があるのは、多様なAIシステムが必要やからです。世界中のすべての言語、文化、価値観を理解する必要があります。アメリカの西海岸や東海岸の1つの会社が作った単一のアシスタントからは、それは得られへんのです。世界中からの貢献が必要になるでしょう。
もちろん、基盤モデルを訓練するのは非常に高価なので、それができる企業は少数です。だから、メタのような企業がこれらの基本モデルをオープンソースで提供できれば、世界中の人々が自分たちの目的に合わせて微調整できるんです。これがメタが採用した哲学で、IBMも同様です。
オープンソースAIは単に良いアイデアというだけやなく、文化的多様性、さらには民主主義の保護のために必要なんです。訓練や微調整はクラウドソーシングされるか、スタートアップやその他の企業のエコシステムによって行われるでしょう。これらのオープンソースAIモデルの利用可能性が、AIスタートアップのエコシステムを本当に活性化させたんです。
人間レベルのAIに到達するのにどれくらいの時間がかかるか?私にはわかりません。数年から数十年かかるかもしれません。大きな不確実性があります。解決すべき問題がたくさんあって、おそらく私らが考えとる以上に難しいでしょう。一日で起こるようなことではありません。段階的な進化のようなものになるでしょう。
AGIの秘密を発見して、機械のスイッチを入れたら即座に超知能ができて、私ら全員が知的システムに殺されるというようなことは起こりません。そういうことは起こらへんのです。機械は人間の知能を超えるでしょうが、目的駆動型なので制御下に置かれます。私らが目標を与え、それらの目標を達成するんです。
多くの人が産業界や学界のリーダーやと思いますが、自分より賢い人々と一緒に働いとると思います。私も確かにそうです。私と一緒に働いとる人の多くは私より賢いです。でも、それは彼らが支配したり乗っ取ったりしたいということを意味しません。
この講演は、AGIや未来の知能について語り、それらが目前にあるわけではなく、まだ何年も先のことで、私らが考えとる以上に難しいと言っとるので、非常に興味深いと思います。今週初めに、デミス・ハサビス氏がAGIは少なくとも10年先だと言うインタビューがあった一方で、他の大手企業の人々は超知能やAGIが2〜3年以内に実現すると言っとることを考えると、非常に興味深いですね。
つまり、業界の専門家がこれらのタイムラインについて完全に意見が分かれとる、おそらく最も不確実な時代に生きとるということです。
ほんじゃ、皆さんはAIの未来についてどう思いますか?