専門家も衝撃! Metaの新しいAIプロトタイプが全てを変える!
4,150 文字
人間のように単語単位ではなく概念単位で考えるAIを想像してみてください。今日の主要なAIモデル、GPT-4やClaude、Geminiはすべて単語レベルで機能し、トークンを1つずつ予測しています。しかし、重要な文章を書く時、私たちは単語単位で考えるでしょうか?いいえ、まず主要なアイディアや構造、伝えたい概念を考えます。これこそがMetaの研究者たちが実現したことです。
Large Concept Model(LCM)と呼ばれる彼らの革新的なアプローチについて。このモデルは200以上の言語でコンテンツを理解し生成できます。普通だと思うかもしれませんが、このモデルはそれらの言語で訓練されていないのです。
この動画では、このAIが実際にどのように概念を考え、なぜこのイノベーションが革命的な可能性を持ち、人工知能の未来にどのような影響を与えるのかを見ていきましょう。
Large Concept Modelがもたらす革命を理解するために、まず現在のLLMがどのように機能しているかを理解する必要があります。例えばGPT-4に文章を書かせる時、「猫がネズミを追いかける」というように、各単語が確率ゲームのように1つずつ予測されます。
科学論文を書く2人の人を想像してみてください。現在のLLMのように1人目は全体像を把握することなく単語単位で書かなければなりません。一方、LCMのような2人目は、まず主要な概念や重要なアイディアを考え、それから展開できます。
現在のLLMのこの単語単位のアプローチには、いくつかの大きな問題があります。長期的な一貫性の維持が難しく、モデルは容易に推論の流れを失うことがあります。また、スケーリングが複雑で、文章が長くなればなるほど難しくなります。
次にMetaの論文の分析に移りましょう。LCMは全く異なるアプローチを提案しています。次の単語を予測する代わりに、次の概念を予測するのです。まるで1つずつ単語を選ぶのではなく、まず何を言いたいのかを考えるようなものです。
論文からの例を見てみましょう。LCMがテキストを要約する時、単語単位ではなく概念単位で行います。これはまさに、人間がテキストを読んで主要なアイディアを抽出するのと同じです。
このスキーマは、LCMがシンプルなストーリーを2つのレベルで処理する方法の例を示しています。左側の紫色の点では、詳細な出来事の順序が示されています:「ティムは運動が得意ではありませんでした。スポーツを始めれば変わると考えました。いくつかのチームに挑戦しましたが、どこにも入れませんでした。そこで一人で練習することを決めました」
右側の青色の点では、同じストーリーが2つの主要な概念に要約されています:「運動能力の欠如によりティムはチームに参加できず、一人で練習することを決めた」
これは、モデルが概念の空間で推論し、詳細なバージョンから要約バージョンへと移行しながら、ストーリーの本質を保持できることを示しています。
次に右側のスキーマに移り、LCMのアーキテクチャを見てみましょう。例を挙げて説明します。システムにシンプルなサッカーの試合の物語を理解し要約させたいとします。図の下部から上部へと、単語の入力からLCMの出力までの流れを追ってみましょう。
まず入力として次の文を与えます:「試合は15時に開始。レッドチームが前半に2点を決めた。ブルーチームのディフェンスは崩壊。後半、ブルーチームは目覚めたが1点しか取れず。最終スコアは2-1」
コンセプトエンコーダーがこれらの文を「試合開始とタイミング」「レッドチーム優勢と2得点」「ブルーディフェンスの弱さ」「巻き返しの試みと1得点」「最終結果」といった抽象的な概念に変換するのが分かります。
次にLarge Concept Modelがこれらの概念を分析し、どのように再構成するかを決定します。「レッドの勝利、2-1のスコア、試合の2つの展開」といった要点を保持しながら要約することを選択するかもしれません。
最後にコンセプトデコーダーがこれらの概念を自然言語に変換し直します。次のような文章を生成する可能性があります:「レッドチームが2-1で勝利。前半は支配的な展開を見せ、後半はブルーチームの反撃を受けた試合だった」
このシステムは、言葉を抽象的な思考に変換する翻訳者、それらの思考を再編成するLCMの脳、そして思考を言葉に戻す第二の翻訳者(デコーダー)を持っているようなものです。
しかしLCMが解決するもう一つの大きな問題があります。それは言語の壁です。現在のLLMは訓練言語に大きく依存しています。GPT-4は英語の方がフランス語よりもはるかに優れており、使用頻度の低い言語ではさらに制限があります。
一方LCMは、Sonarと呼ばれる空間で概念を言語に依存せずに表現します。フランス語や英語の単語で考えるのではなく、普遍的な概念で考えるようなものです。結果は印象的です。他のモデルが使用頻度の低い言語で性能が大幅に低下するのに対し、LCMは驚くほど一定のレベルを維持します。
要するに、LCMは単に既存のものを改善するだけでなく、私たち人間が考え、コミュニケーションを取る方法により近い、根本的に新しいアプローチを提案しているのです。
では、この新しいアーキテクチャは具体的にどのように機能するのでしょうか。まずSonar、システムの基盤について理解しましょう。任意の文章を独自の数値表現に変換できる普遍的な翻訳者のようなものです。
しかし、LCMのアーキテクチャを思い出してください。これはシステムを理解する上で最も重要な図です。下部のエンコーダー、中央のLCM、上部のデコーダーという3つのコンポーネントが明確に見えます。
研究者たちは2つのバージョンを開発しました。1つのシステムですべてを管理する「One-to-One」と、コンテキストを理解するシステムと続きを生成するシステムを分けた「Two-to-Two」です。
モデルが応答を生成する時、漠然としたアイディアから始まり、各概念が前の概念と論理的につながるように徐々に洗練させていきます。最も印象的なのは、このシステムが訓練を受けていない言語を含む200以上の言語で機能することです。フランス語で数学の問題の解き方を学び、突然中国語でも解けるようになるようなものです。
具体的な結果はどうでしょうか?この表では、LCM 2-Towerが要約に関する2つの異なるタスクで現在の最高のモデルと比較されています。CNN/DailyMailテストでは、T5-3BやMistralに匹敵するスコアを獲得しました。Rep-4スコアで示されるように、繰り返しを避けるのにより効果的ですが、CoLAの流暢性スコアは他のLLMより低くなっています。
XSumでは、RLスコアで他のモデルを上回ることさえあります。OVL-3スコアが低いことから示されるように、簡潔な要約を生成することに特に優れていますが、SH4とSH5の一貫性スコアはやや低くなっています。この表は、LCMが全く異なるアプローチを使用しているにもかかわらず、競争力があり、場合によっては優れているということを示しています。
LCMの最も印象的な部分は以下の通りです。このグラフは、42の異なる言語におけるモデルの性能をLLaMA 3.1と比較しています。いくつかの顕著な例を見てみましょう。
ベトナム語でLCMは30というスコアを達成し、これは低リソース言語での最高スコアです。パシュトー語、ビルマ語(ミャンマー語)、アッサム語、ウェールズ語などの低リソース言語でも20以上のスコアを維持しており、これは注目に値します。
最も印象的なのは、LCMがこれらの言語で特別な訓練を受けていないということです。これを理解するために、LLaMAは公式に8言語、GPT-4は約85言語をサポートしているのに対し、LCMは200言語をサポートしています。しかも、これは単なるマーケティングではありません。他のモデルが一般的でない言語で完全に性能が低下するのに対し、LCMは言語間で安定した性能を維持します。
これは人工知能の未来にとって何を意味するのでしょうか?結論で見ていきましょう。
今日、私たちは人工知能の根本的に異なるアプローチを発見しました。LCMは単に既存のものを改善するだけでなく、単語レベルから概念レベルへと移行することで、新しい思考方法を提案しています。このモデルは私たち人間の思考方法により近づいており、これはより自然な人工知能への重要なステップとなる可能性があります。
その意味するところは大きく、言語を超えたAIの真の民主化、長文や複雑なテキストのより良い処理、そしてマルチモーダルな将来のイノベーションへの基礎となります。
もちろん、制限もあります。流暢性の性能はまだ改善の余地があり、特定のタスクにはさらなる研究が必要です。事実の忠実性も依然として課題です。著者たち自身も、これは始まりに過ぎないと強調しています。概念の論理はさらに洗練され、拡張される可能性があります。
言語に制限されず、単語ではなくアイディアのレベルで本当に理解し推論できるAIの未来。これがLCMの約束です。コードはオープンソースであり、研究者たちはコミュニティにこの新しい方向性の探求を呼びかけています。
AIの未来はテキスト的というよりも概念的なものになるでしょうか?それは時間が教えてくれるでしょう。
以上で、Large Concept Modelについての深掘りが、このAIの新しいアプローチについての理解の助けになれば幸いです。もしこの動画が良かったと思えば、「いいね」とチャンネル登録をお願いします。
また、皆さんの意見も聞かせてください。単語ではなく概念によるこのアプローチが、AIの未来になると思いますか?コメント欄で皆さんの考えをシェアしてください。
このテーマについてさらに掘り下げたい方のために、研究論文へのリンクを説明欄に載せておきました。明日、人工知能の世界について新しい動画でお会いしましょう。それでは。