見出し画像

AIは進化した... Googleのタイタンズが全てを変える

15,164 文字

AIは今まさに進化しています。ポケモンが次の段階に進化するように、あるいは悟空が超サイヤ人になるように、とてもエキサイティングな状況です。このビデオでは、最近のAIのブレークスルーをいくつか紹介します。もし本当なら、これは巨大な進歩となり、現在の最も賢いモデルよりもさらに賢いAIを実現することになります。これらはかなり技術的な論文ですが、いつものように専門的な背景がなくても理解できるように、シンプルな言葉で説明していきます。
まず注目すべき論文は、Google Researchによる「Titans」です。これは人間のような記憶力を持ち、トレーニング後も新しいことを学び続けることができるAIを実現する画期的なブレークスルーです。この表を見ると、色付きの値が最高のパフォーマンスを示しており、Titanモデルは既存のトランスフォーマーモデルやMambaなど、これまでのAIアーキテクチャーを全て上回っていることがわかります。
もう一つのグラフでは、暗赤色の線で示されたTitansモデルのパフォーマンスが最上位にあり、値が高いほどパフォーマンスが優れています。これらのグラフから、GPT 4oやllama 3などの主要モデルを上回る性能を示していることがわかります。これは信じられないほどの進歩です。
Titansの新しいアーキテクチャーについて説明する前に、現在のAIの状況について簡単に説明します。2017年、Google Researchは「Attention is all you need」という論文を発表しました。これは現代のAIにおいて最も象徴的で影響力のある研究論文です。この論文は、GPT 4oや01、GoogleのGemini、Claude、DeepSeek、llamaなど、現在のトップAIモデルの全てで使用されているトランスフォーマーアーキテクチャーを導入しました。
このトランスフォーマーは、データの異なる部分間の関係性に焦点を当てることで文脈を理解する優れた能力を持ち、言語理解、文章作成、コーディング、推論などに最適です。しかし、大量のデータを処理する際には非常に非効率で遅くなるという大きな制限もあります。トランスフォーマーやアテンションモデルは正確ですが、大量のデータを扱う際にはコストがかかります。
設計上、トランスフォーマーの出力は現在のコンテキストウィンドウ内のトークンの直接的な依存関係のみに基づいています。この正確な依存関係のモデリングは、コンテキストの長さに対して二次的な時間とメモリの複雑さを伴います。つまり、トランスフォーマーはコンテキストウィンドウによって制限されており、プロンプトが長すぎると処理できません。
例えば、ChatGPTで非常に長いプロンプトを入力すると、「入力されたメッセージが長すぎます。より短いものを入力してください」というエラーメッセージが表示されます。これはコンテキストウィンドウの制限によるものです。参考までに、GPT 4oは128,000トークン、Claudeは200,000トークン、最新のGoogle Gemini 2は200万トークンのコンテキストウィンドウを持っています。これは2時間分の動画や60,000行以上のコード、140万語以上の文章を処理できる大きさです。
しかし、小説全体や何百ページもの歴史的文書、組織全体のコードベースを処理するような実世界のタスクには、まだ十分ではありません。この新しいTitansアーキテクチャーは、この制限を克服することを目指しています。Titansは200万以上のコンテキストウィンドウサイズに効果的にスケールでき、より高い精度を実現できます。
さらに、現在使用されているほとんどのAIモデルは長期記憶を持っていません。例えば、Perplexityで長時間チャットをした後に「10個前のプロンプトで何を言いましたか?」と尋ねると、「過去の会話の記憶がないため、以前のやり取りを思い出すことができません」と答えます。
AIモデルが人間のように物事を長期的に記憶できる仕組みがあれば素晴らしいと思いませんか?それこそがこのTitans論文が解決しようとしていることです。人間の脳がどのように記憶し学習するかに基づいて、AIモデルに長期記憶能力を与えることを目指しています。
具体的に、この論文は以下の主要な質問に取り組んでいます:

良い記憶構造とは何か
適切な記憶更新メカニズムとは何か
良い記憶検索プロセスとは何か
異なる相互接続された記憶モジュールを組み込む効率的なアーキテクチャーをどのように設計するか
遠い過去を効果的に保存し記憶するために深い記憶モジュールは必要か

これらは全て、AIモデルに記憶を与える最適な方法、記憶を更新し、関連する記憶を検索する最適なアーキテクチャーやデザインを理解しようとするものです。
次に、彼らはその設計理由と方法について説明しています。「テスト時に記憶を学習する」というセクションでは、「テスト時」という言葉が非常に重要です。これは、AIがトレーニング後も学習し、記憶を更新し続けることができることを意味します。
テスト時という用語に馴染みがない場合は、簡単な説明をします。最も単純な意味では、AIモデルは基本的にこのような神経ネットワークで構成されています。これは情報がどれだけ次のニューロン層に流れるかを決定するダイヤルやノブ(モデルの重み)のネットワークです。ちなみに、このニューラルネットワークは脳の仕組みに基づいています。私たちの脳も、情報が次の神経細胞セットにどれだけ流れるかを決定するニューロンのネットワークです。
現在お見せしている図は非常にシンプルで、ニューロンと層が少ないものですが、実際にはGPT 4oやDeepSeekのような大規模言語モデルは、はるかに多くのニューロンと層を持っています。
では、これらのダイヤルやノブの値はどのように決定されるのでしょうか?つまり、次の層にどれだけの情報が、あるいはどの情報が流れるべきかをどのように知るのでしょうか?それこそがトレーニング段階の目的です。トレーニング中、このニューラルネットワークには大量のデータが供給され、各トレーニングラウンドで出力が検証済みの回答と比較されます。時には正解を得ることもあれば、間違えることもあります。各トレーニングラウンドで間違えた場合、エラーを最小限に抑えるためにこれらのダイヤルやノブが少しずつ調整されます。これにより、トレーニング後のAIモデルができるだけ正確になるようにします。
これがトレーニング段階、つまりトレーン時です。トレーニング後、これらのダイヤルやノブは変更されません。AIモデルを使用する際、例えばChatGPTにプロンプトを入力すると、そのプロンプトはトークンに分解され、このニューラルネットワークを通過します。これによって、最終層にどれだけの情報が流れるかが決定され、魔法のように答えが出力されます。
AIモデルを使用するこの段階がテスト時、または推論時と呼ばれます。まとめると、トレーニング中にこれらのダイヤルやノブ、つまりモデルの重みが、トレーニングデータに基づいてより正確になるように変更されます。これがAIモデルが新しいことを「学習」する方法です。しかし、テスト時、つまりモデルを使用している時には、これらのダイヤルやノブは変更されません。言い換えれば、AIは実際には新しいことを学習したり改善したりしません。少なくとも、現在使用されているほとんどのAIモデルはそのように機能します。
しかし、この論文に戻ると、彼らはテスト時にもこれらのダイヤルやノブ、あるいは少なくともAIモデルの記憶を変更できるものを設計しました。これは非常に重要です。理論的には、これらのTitanモデルはトレーニング後も新しいことを学び続けることができ、どんどん賢くなっていく可能性があります。
次に詳細を見ていきましょう。このアーキテクチャーには、これを機能させるためのいくつかのコンポーネントがあります。一つは長期記憶モジュールで、もちろんこれは長期記憶を保存するためのものです。人間の学習と記憶にインスパイアされた興味深いメカニズムがいくつか組み込まれています。
その一つが、学習プロセスとサプライズメトリックです。考えてみれば、人生で起こることすべてを覚えたくはありません。そうすれば脳がメモリオーバーロードを起こしてしまいます。重要なことだけを覚えたいのです。例えば、毎日同じ道を通って職場に行き、同じルーチン、同じ道、同じ人々、すべてが毎日同じだとします。その場合、覚えることはあまりありません。
しかし、ある日道中で強盗に遭遇したり、車の事故を目撃したりしたらどうでしょう?脳はその出来事をはっきりと覚えているでしょう。それは日常のルーチンではなく、日々の予想とは異なることだからです。論文では、「期待に反する出来事、つまり驚きのある出来事は、人間にとってより記憶に残りやすい」と述べています。同じロジックにインスパイアされて、予想外の驚きのある出来事だけを記憶するようにこのAIを設計しました。
しかし、先ほどの例に戻ると、職場への道中で強盗に遭遇したり車の事故を目撃したりした場合、その出来事の開始時点が最も驚きがあり、ショッキングでしょう。しかし、その後に起こったことすべても覚えておきたいはずです。強盗は誰で、どこで、どのように強盗されたのか、あるいは車の事故はどこで起こり、どのように起こったのか、今後どうすれば避けられるのかなどです。
同様に、AIにとっても最も驚きのある時点だけを記憶するのではなく、その驚きに続く重要な出来事も記憶する必要があります。論文では「しかし、このサプライズメトリックは、大きな驚きの瞬間の後に来る重要な情報を見逃す可能性があります。人間の記憶の観点から見ると、長期間にわたって一貫して驚きを与えない出来事でも、記憶に残ることがあります。その理由は、初めの瞬間が十分に驚きがあり、長い時間枠にわたって注意を引きつけ、その時間枠全体を記憶することにつながるからです」と述べています。
同じロジックに従って、AIが最も驚きのある時点だけでなく、その驚きから始まった出来事全体を記憶し、それをメモリに組み込むように設計されています。これは人間が物事を記憶する方法とよく似ています。
物事を記憶することは素晴らしいですが、もちろん容量には限界があります。脳が新しい情報を記憶するスペースを確保するために、それほど重要でなくなったことを忘れる必要があります。同様に、このTitansモデルにも忘却メカニズムが追加されています。論文では「非常に長いシーケンスを扱う際には、どの過去の情報を忘れるべきかを管理することが重要です。そのために、もはや必要のない情報を忘れることができる適応的な忘却メカニズムを使用し、メモリの限られた容量をより良く管理できるようにしています」と述べています。
基本的に、このアルゴリズムは、長期間使用されていない、あるいはもはや重要でない情報を判断し、忘却することで、新しい情報のためのスペースを確保します。これが記憶メカニズムと忘却メカニズムの主要な部分をまとめたものです。
次に、このTitanアーキテクチャーの基本設計をご紹介します。「ハイパーヘッド」と呼ばれる3つのタイプのメモリが協力して動作します。論文では「Titansは3つのハイパーヘッドで構成されています。1つ目はコアで、このモジュールは短期記憶を持ち、データ処理の主要な流れを担当します。限られたウィンドウサイズのアテンションを使用します。」これは現在起こっていることに焦点を当てています。アテンションと呼ばれるコンポーネントを使用して、現在のコンテキストに注意を払います。これは学生が今読んでいる段落に集中しているようなものです。これは短期記憶で、限られた量の情報しか処理できず、古い詳細をすぐに忘れます。つまり、注意力が短く、瞬間的なことにのみ集中しています。
コアメモリは、このアテンションツールを使って現在の入力のどの部分が最も重要か、どの部分に注目すべきかを決定します。次に長期記憶があり、その名の通り、時間とともに学習したことを保存する役割を担っています。常に学習し、記憶を更新し、先ほど説明した忘却メカニズムを使用して重要でないことを忘れています。このメモリは現在の瞬間に集中するコア部門とは異なり、バックグラウンドで動作し、過去の情報が必要な時にいつでも提供できる準備ができています。
最後に永続メモリがあります。このメモリは、数学の問題の解き方や物理学の仕組み、世界の仕組みなどについての一般的な知識を保存します。この知識はあなたのプロンプトの具体的な詳細には依存しません。このタスクを解決するために必要なルールやアプローチをこの知識と考えてください。これは時間とともにあまり変化しない一定の知識ベースであり、そのため永続メモリと呼ばれています。
これらの3つの部門がこのTitansアーキテクチャーの最も重要な部分です。次に、著者たちはこれら3つのメモリが物事を記憶し、学習し、忘れるために協力する方法について3つの異なるバリエーションを提案しています。それぞれのバリエーションには長所と短所があります。
論文では「深層学習アーキテクチャーにメモリを効果的かつ効率的に組み込むにはどうすればよいのか?我々はTitansの3つの異なるバリエーションを提案することで、この質問に答えることを目指します。後の実験で、これらのバリエーションにはそれぞれ長所と短所があり、非常に長いコンテキストにおける効率性と有効性のトレードオフを示すことができます」と述べています。
3つのバリエーションは、「コンテキストとしてのメモリ」、「ゲートとしてのメモリ」または「ゲートされたメモリ」、そして「レイヤーとしてのメモリ」です。それぞれについて見ていきましょう。
最初の「コンテキストとしてのメモリ」は、こんな感じのイラストで示されます。青い部分がコアメモリで、先ほど説明したように瞬間的に集中するメモリです。黄色い部分が長期記憶で、バックグラウンドで動作し、必要な時にはいつでもコアメモリに過去の情報を提供できます。下部のピンク色の部分が永続メモリで、これは世界についての一般的な知識であり、この知識はあまり変化しません。
このコンテキストとしてのメモリアーキテクチャーでは、3種類のメモリが協力し、それらの情報がすべてこの長いデータに組み合わされます。例えば、現在のコンテキストに焦点を当て、どの部分が最も重要かを判断する短期メモリであるコアメモリがありますが、関連する内容に基づいて永続メモリから一般的な知識も引き出し、また長期記憶から関連するスニペットも引き出します。このデータはすべて合わせられ、アテンションブロックに渡されます。これは長期記憶に何を保存または更新すべきかを決定します。
非常にシンプルな意味では、コンテキストとしてのメモリは、特定のタスクに取り組んでいるが、長期記憶や永続メモリMから参照できるノートやガイダンスもあるようなものです。これが3種類のメモリを組み合わせる一つのアーキテクチャーです。
2番目のアーキテクチャーは「ゲートとしてのメモリ」または「ゲートされたメモリ」と呼ばれ、次のように機能します。コアメモリ、つまり短期メモリ、瞬間的なメモリは、永続メモリから助けを得ることができます。このプロンプトを解決するのに役立つ世界についての一般的な知識から情報を引き出すことができます。しかし、長期記憶からは情報を引き出しません。この長期記憶は別個に機能し、その後、コアメモリと長期記憶からの情報は、最終的な出力にどれだけの情報を使用すべきかを決定するゲートによって組み合わされます。
これは、別々のタスクに取り組む2人の学生がいて、スーパーバイザーが各自の強みとプロジェクトへの関連性に基づいて彼らの仕事を組み合わせるようなものです。スーパーバイザーがゲートで、長期記憶と短期記憶からどれだけの情報を応答に追加すべきかを決定します。現在の情報や過去の記憶がどれだけ現在の出力に影響を与えるべきかをコントロールするメカニズムを持つべきだということは理にかなっています。
最後に、「レイヤーとしてのメモリ」という3番目のバリエーションも提案しています。最初に、コアメモリは関連するガイダンスについて永続メモリを参照し、そのデータは長期記憶に送られます。ここが異なる点です。この場合、データ全体が長期記憶に別個のレイヤーとして送られ、入力を処理します。過去と現在の情報を要約し圧縮します。これは、学生が次のセクションに進む前に読んだ内容の要約を準備するようなものです。
最後に、この情報はすべて再びアテンションメカニズムを通過し、出力を決定します。これは長期記憶がコアメモリから渡されたすべての情報を処理する別個のレイヤーとして機能するため、「レイヤーとしてのメモリ」と呼ばれます。
これで3つのバリエーションをまとめました。なお、これら3つの異なるバリエーションを導入している理由は、これが全く新しい領域であり、AIにメモリを組み込む最適な方法がまだわからないためです。それぞれに長所と短所があります。
例えば、コンテキストとしてのメモリに戻ると、これは文脈を理解し、データ内の長い依存関係を処理することが非常に得意です。そのため、大量のデータ間の関係を理解することが重要なタスクに適しています。また、針を藁の山から見つけるような長いコンテキストのタスクも得意です。これについては後で説明します。使用例としては、法的文書の分析や科学研究論文の理解、複数のソースからの情報を統合したり、大量のデータから情報を取得したりするタスクなどが挙げられます。
このバリエーションの欠点は、他のバリエーションと比べてトレーニング時間が若干遅くなる可能性があることです。これは、複数の情報源から情報を追加する複雑さによるものです。例えば、トレーニング中に永続メモリと長期記憶を参照する必要があり、これらのステップにはより多くの計算時間が必要です。
Abacus AIが提供するChat LLMという素晴らしいツールについてお話しします。これは、最高のAIモデルを一つの統合プラットフォームで使用できるようにします。これには最新のo preview o1 miniや、GPT 4oやClaude Sonnet 3.5などの最先端モデルが含まれます。また、プロンプトに基づいて最適なLLMを自動的に選択する新しいRoute LLM機能もあります。チャットボットから直接画像を生成することもでき、最高のジェネレーターであるFlux Proを使用しています。さらに、単一のプロンプトで動画を生成することもできます。
また、アーティファクト機能も非常に優れており、コーディングや何かを構築している場合、アプリをサイドバイサイドで表示して操作できます。Code LLMと呼ばれる新しいコーディングツールもあり、これはVS Codeと同じように機能しますが、AIによって強化されています。サイドでAIとチャットしてコードを生成または編集したり、タブを押してコードを自動補完したりできます。これにより、はるかに速くコーディングができます。
また、AI Engineerと呼ばれる新機能もあり、これを使用して独自のカスタムデータや指示に基づいてファインチューニングされた独自のカスタムチャットボットを作成できます。これは、最高のAIモデルを一つのプラットフォームで使用できる非常に強力な方法です。下記のリンクから試してみてください。
次に、ゲートとしてのメモリに移ります。これも前のバリエーションと同様に、文脈の理解と常識的な推論に優れています。このゲートメカニズムを使用して、短期記憶と長期記憶をどの程度組み合わせるかをコントロールすることで、異なる時間スケールでの情報のより柔軟な統合が可能になります。これは、チャットボットやバーチャルガールフレンド、バーチャルアシスタントに最適です。即時のコンテキストと過去のチャット履歴の両方が関連する会話型AIに適しています。
同様に、株式の分析など、最近のトレンドと長期的なパターンの両方が重要な時系列分析にも適しています。しかし、この欠点は、一度に大量のデータを扱う依存関係の処理が若干劣ることです。そのため、前のバリエーション「コンテキストとしてのメモリ」と比べて、長いコンテキストのタスクの処理効率が低くなります。
最後にレイヤーとしてのメモリですが、これはコア情報と長期記憶を統合する必要がないため、トレーニングが高速です。すべてを別個のレイヤーとして長期記憶に渡して処理するだけです。そのため、理論的にはトレーニング時間が短縮されます。これは、計算リソースが制限されている場合や、処理速度が主な関心事である場合の最適な選択肢です。ただし、特に常識的な推論タスクでは性能が低下する傾向があります。
これでTitansモデルのアーキテクチャーとデザインをまとめました。そして、これがどれほど優れているのか気になるかもしれません。この表には多くのデータポイントがありますが、基本的に最上行は言語モデリングと推論タスクのための異なるベンチマークを示しています。ここでは、Titansモデルを、トランスフォーマーやMambaなどの既存のAIモデルアーキテクチャーと比較しています。なお、これらのベンチマークの中には、値が低いほど良いものもあれば、高いほど良いものもありますが、色付きの値に注目してください。
ほとんどのベンチマークで、Titansアーキテクチャーが他のすべてのモデルと比較して最高のスコアを示していることがわかります。これが意味するのは、これらのTitansが現在存在するすべてのAIモデルと比較して最も性能が高いということです。さらに驚くべきことに、先ほど説明したように、200万トークン以上のコンテキストウィンドウを簡単に組み込むことができ、プロンプトに大量のデータを一度に入力しても効率的に処理できます。
このモデルは特に「針を藁の山から見つける」タスクに優れています。この用語を聞いたことがない場合、針を藁の山から見つけるとは、大量のデータの中に埋もれた非常に小さな情報を見つけることです。大きな藁の山の中から針を見つけることは、非常に困難または不可能に近いでしょう。例えば、大量の歴史的文書の中から特定の情報を見つけたり、非常に長い遺伝子配列の中から非常にまれな突然変異を見つけたりするような場合が挙げられます。
この表を見ると、針を藁の山から見つけるテストのベンチマークスコアが示されており、ここでもほとんどの場合、Titansモデルが他のAIアーキテクチャーと比較して最高のスコアを示しています。
こちらは、GPT 4oや4o、llama 3などの主要モデルとTitansを比較したグラフです。上部の暗赤色の線がTitansのパフォーマンスを示しており、この値が高いほどモデルの性能が高いことを意味します。特に長いコンテキストの場合、Titansモデルは他のAIモデルをはるかに上回っています。
これは非常に印象的なブレークスルーであり、このモデルがテスト時にメモリを更新できるように設計されているため、トレーニング後も学習と適応を続けることができます。これは、時間とともにどんどん賢くなっていくAIです。この論文により、私たちは限られた知能を持つAIモデルの時代を超えたと考えています。このTitans論文は、学習を続けることができる新しいAIモデルが大量に登場する新たな知能爆発を引き起こす可能性があります。
これは、最初の「Attention is all you need」論文と同じくらい影響力を持つ可能性があり、この論文は過去数年で私たちが目撃してきたAI爆発をもたらしました。なお、両方の論文ともGoogle Researchによるものであり、GoogleはAI分野で絶対的な成功を収めています。また、トランスフォーマー論文と同様に、Titans論文の最後でも「モデルのトレーニングと評価に使用したコードを近日中に公開する予定です」と述べており、これは素晴らしいことです。
継続的学習に関して、これは別のAIラボであるSakanaによる新しいアーキテクチャーにつながります。Sakanaは以前、「AI Scientist」というプロジェクトで知られていました。これは完全な科学実験を実施し、完全な科学論文を自分で書くことができるAIです。AI Scientistについてもっと知りたい場合は、このビデオをご覧ください。
しかし、ここで彼らは「Transformer squared:自己適応型大規模言語モデル」と呼ばれる新しいアプローチを導入しています。この論文の目的はTitans論文と似ており、現在のトランスフォーマーモデルの限界を克服するAIモデルを設計することを目指しています。つまり、これらのダイヤルとノブはトレーニング後には変更されません。現在知られているすべてのAIモデルは、特定のデータセットでトレーニングされ、トレーニング後に新しいタスクに適応したり新しいことを学習したりすることはできません。
既存のモデルをさらにトレーニングすることもでき、これはファインチューニングと呼ばれるプロセスですが、これにも大規模な再トレーニングが必要で、多くの時間がかかる可能性があります。つまり、現在のAIモデルでは、AIモデルを再トレーニングしたり新しいことを学習させたりすることは効率的ではありません。
リアルタイムで学習し適応できるAIを実現できたらどうでしょうか。ちなみに、それこそが人間の脳の働き方です。人間の脳は、私たちが経験し新しいことを学ぶにつれて、時間とともに変化し続けます。新しい環境に継続的に適応し、新しい習慣を学ぶことができます。これはニューロプラスティシティと呼ばれ、脳が新しい経験や環境に応じて変化し、適応し、再編成する能力です。
例えば、音楽を学び演奏するようになると、聴覚皮質と呼ばれる脳の部分が実際に大きくなり、より発達します。これは音楽の学習と処理に関与する部分だからです。また、新しい言語を学ぶと、脳は新しい言語のルールと語彙を保存するために新しいニューロン間の接続を作ります。あるいは、誰かが視覚を失った場合、脳は視覚の喪失を補うために再編成することができます。例えば、嗅覚や触覚など他の感覚を担当する脳の部分が、視覚の喪失を補うためにより強く、より敏感になります。これらはすべて、脳が特定の出来事に応じて変化し再編成できる例です。
この論文では、同じことを目指しています。「Transformer squared」と呼ばれる新しいアーキテクチャーを設計し、次のように述べています:「これは様々なタスクに対して動的に重みを調整する機械学習システムです。」さらに続けて、「Transformer squaredという名前は、その2段階のプロセスを反映しています。まず、モデルは入力タスクを分析してその要件を理解し、次にモデルの重要なコンポーネントを選択的に調整してタスク固有の適応を適用し、最適な結果を生成します。我々のフレームワークにより、LLMはリアルタイムで新しいタスクに動的に適応することができます。」
この2段階のプロセスの技術的な詳細については後で説明しますが、まずデザインの理由を説明します。このイラストを見ると、現在のAIモデルは単なる巨大なダイヤルとノブのネットワークです。ChatGPTのようなモデルにプロンプトを入力すると、そのプロンプトはトークンに分解され、このネットワーク全体を通過して出力を生成します。しかし、それは私たちの脳の働き方とは異なります。
脳は実際には異なる部分で構成されており、各部分が特定のことを担当しています。例えば、運動機能、問題解決、推論、計画を担当する前頭葉があり、触覚や温度などの感覚情報を担当する頭頂葉があり、音声処理、記憶、顔認識を担当する側頭葉があり、視覚処理を担当する後頭葉があります。基本的に、脳の異なる部分が異なる機能を担当しています。
何かを経験したり処理したりする時、脳全体が活性化されるわけではありません。関連する情報の処理を担当する脳の部分だけが活性化されます。Transformer squaredに戻ると、ニューラルネットワークを異なる部分に分割できるように設計されています。一部は言語理解に優れ、一部は推論に優れ、他の部分はコーディングや数学に優れているかもしれません。
実際にこれをどのように使用するのでしょうか?これには2つの主要なステップが含まれます。最初のステップは、プロンプトまたは入力タスクを分析することです。例えば、このシンプルなイラストでは、プロンプトを入力すると、まずそれを分析し、これが数学の問題であると判断します。その後、2番目のステップとして、脳のどの部分を強調し、どの部分を抑制するかを決定し、モデルの重みを変更します。そして、この新しいAIモデルは数学の問題に対してより適切になり、その後、再度プロンプトを通してその数学の問題に答えます。
ステップ1に戻りましょう。質問が数学なのか、コーディングなのか、言語なのかを特定するのはどのように行うのでしょうか?著者たちは入力タスクを分類するための3つの主要な方法を提案しています。最初の方法は「プロンプトベースの適応」と呼ばれます。「特別に設計された適応プロンプトがタスクを分類し、事前にトレーニングされたZベクトルを選択します。」これは、AIにどのタスクを実行する必要があるかを伝えるように設計された追加のプロンプトのようなものです。
例えば、数学の問題を入力すると、このプロンプトはAIに「これは数学の問題です」と伝えます。タスクを分類した後、Zベクトルと呼ばれるものを選択します。これは、タスクを最も適切に処理するために脳のどの部分を強調するかをAIに指示する一連の指示です。つまり、このZベクトルは、特定のタスクに対してより良い性能を発揮するために、モデルがダイヤルとノブをどのように、どの程度調整すべきかを指示します。
2番目の方法は「分類器ベースの適応」と呼ばれ、分類器と呼ばれる別の事前トレーニング済みAIを使用します。これは非常にシンプルで、入力プロンプトをこの分類器AIに通すだけで、それがどのタイプのタスクであるかを特定します。そして、タスクに基づいて、AIモデルが自身を調整して最適に処理するための方法を指示する対応するZベクトルを選択します。
最後の方法は「少数ショット適応」と呼ばれ、特定のプロンプトや分類器に頼ることができない場合に使用されます。この場合、複数の事前トレーニングされたZベクトル(これらは脳を再構成する方法の指示です)を組み合わせ、シンプルな最適化アルゴリズムを使用して、使用するZベクトルの最適な組み合わせを決定します。
これらが入力プロンプトを特定する3つの方法であり、その後、タスクが数学なのか、コーディングなのかを特定した後、基本的にZベクトルを送信してモデルを修正します。これにより、モデルはタスクの解決に最も適した脳のコンポーネントを強調し、関連性の低い他のコンポーネントを抑制することができます。この簡単な調整により、AIは質問の解答にはるかに優れた性能を発揮することができます。
これはテスト時、つまり実際に使用している時にモデルの重みを調整できるAIアーキテクチャーであることに注意してください。トレーニング時だけではありません。Titansモデルと同様に、これは新しいトレンドのように見えます。トレーニング後でも構成を変更できるAIモデルの新しいデザインが登場しています。この2段階のプロセスにより、Transformer squaredモデルはリアルタイムで適応し、タスクに基づいてパフォーマンスを最適化することができます。
これがTransformer squaredのアーキテクチャーと動作の仕組みをまとめたものです。次に、他のモデルと比較してどのように性能を発揮するかを見てみましょう。このグラフでは、Transformer squaredと別のモデルであるllama 38bを比較し、数学、コーディング、推論、視覚言語など、異なる分野での性能を比較しています。
このグラフは直感的に理解するのが難しいので、丁寧に説明していきましょう。黒い点線は実際にllama 3の性能を示しており、青い線はTransformer Squaredモデルのトレーニング中の性能を示し、赤い線は別のテストセットでの性能を示しています。赤い線が最も重要な線だと言えます。これは、Transformer squaredモデルが実際の環境でどれだけ良い性能を発揮するかを示しています。この赤い線が点線より上にあれば、llama 3より優れていることを意味します。
ご覧のように、数学、推論、視覚言語については、赤い線が点線より上にあるため、ほとんどの場合llama 3を上回っています。しかし、興味深いことに、コーディングについては、より多くのトレーニングを行うと実際にllama 3よりも性能が低下します。
こちらは、数学、人間評価、ARCチャレンジのベンチマークにおけるこのTransformer squaredアーキテクチャーの性能を示す別の表です。なお、このTransformer squaredアーキテクチャーは、Llama 38bやMistral 7B、llama 370bなど、任意のモデルに追加できることに注意してください。これは非常に柔軟なツールであり、モデルに依存しません。これをDeepSeekやQuenのようなさらに優れたモデルに追加した場合、どうなるのか興味深いところです。
なお、ほとんどの場合、このTransformer squaredアーキテクチャーをモデルの上に追加すると、これらのベンチマークスコアのほとんどで性能が向上することに注意してください。太字の値はこれらのオプションの中で最高のスコアを示しており、緑色の値はベースモデルと比較して改善したことを示しています。このTransformer squaredアーキテクチャーを追加することで得られる値のほとんどが実際に緑色であることに注意してください。
これについて、彼らは次のように結論付けています:「Transformer squaredはAIシステムの進化における重要なマイルストーンを示しています。リアルタイムで未知のタスクに適応する能力は、自己適応型LLMがAI研究とアプリケーションに革命をもたらす可能性を示しています。しかし、これは始まりに過ぎません。Transformer squaredは、AIシステムがもはや固定されたタスクのためにトレーニングされた静的なエンティティではなく、人間が新しい課題に適応するのと同様に、継続的に学習し、進化し、時間とともに適応する生きた知能モデルとなる未来への一瞥を提供します。
今年はまだ1月ですが、すでにリアルタイムで自身の構成を学習し変更できる新しいAIアーキテクチャーの2つの大きなブレークスルーを目にしています。そしてこれはまだ続くと思います。これにより、より多くのデータを与えることで時間とともに学習と改善を続けることができるAIモデルの新しい波が解き放たれます。これは、時間とともに改善できない古いトランスフォーマーアーキテクチャーや「静的なAIモデル」と呼ばれるものの終わりだと考えています。
これでこの2つの論文のレビューをまとめました。両方とも非常に技術的な論文であり、実際に皆さんに説明できるようにするために、数日かけてこれらの論文を何度も読み直して消化する必要がありました。これらすべてについて、どう思いますか?これがトランスフォーマー時代の終わりになると思いますか?そして、継続的に学習でき、現在の最高のモデルよりもはるかに優れた新しいAIモデルが登場し始めると思いますか?コメント欄でお知らせください。
いつも通り、共有すべきトップAIニュースやツールを探し続けます。このビデオを楽しんでいただけたなら、いいね、シェア、登録をお忘れなく、そして今後のコンテンツもお楽しみに。また、AIの世界では毎週とても多くのことが起こっているため、YouTubeチャンネルだけではすべてをカバーできません。AIで起こっているすべてのことを本当に把握するには、無料のウィークリーニュースレターに登録することをお勧めします。リンクは説明欄にあります。視聴ありがとうございました。また次回お会いしましょう。

いいなと思ったら応援しよう!