見出し画像

強力なRAGとCAG - 文脈内学習ICLについて (ハーバード大学)

8,630 文字

こんにちは、文脈内学習における創発と相転移について説明します。これはパート2です。前回の動画では、文脈内学習を使ってLLMの知識をオーバーライドする方法を見てきました。今回は、その結果についてお話ししたいと思います。
ハーバード大学による文脈内学習の表現に関する研究では、興味深い臨界点が見出されました。それは二次相転移に似ています。ハーバードの研究では、この挙動は異なるサイズのグラフ全体で非常に頑健であり、グラフサイズの増加に伴う明示的なべき乗則のスケーリング傾向を示しています。
ここではトランスフォーマーアーキテクチャを使用し、異なるグラフサイズを探索して、完全な学習を探ります。ICLはLLMにとって最も効率的な学習と訓練手順となるのはいつでしょうか。
最初の動画で示したように、LLMの知識をオーバーライドする場合、単にエッジに触れるだけでなく、知識表現における完全な部分グラフや部分ネットワークを上書きする必要があるかもしれません。これは深層ニューラルネットワークの単純化された可視化です。
ハーバードが述べているように、コンテキストの量を増やすと、グラフの接続性に従ってトランスフォーマーの内部表現が突然再編成されます。前回お話ししたように、LLMは文脈内学習で完全に指定された概念セマンティクスを反映するために、内部表現を操作できることが示唆されています。
LLMがここで概念表現を再編成できることを受け入れたとして、この挙動を研究する方法を目指します。数学的モデルが必要です。コンテキストがスケーリングされた場合、文脈が追加されるにつれて、コンテキストで指定された構造に向けて連続的な単調な改善があるのかを理解したいと思います。
もし最新のAI研究の最先端に行きたい、知識の境界に到達したいと思われる方は、この研究を参照してください。これは単にコードをコピーできるというものではなく、深い思考を伴う本当の研究です。
昨日の最後の動画で示したように、表現がただのトークン化ではなく、LLMの各層の残差ストリーム内で文脈的活性化ベクトルとして動的に進化しているとすれば、自己注意機構がここでの主要な駆動力であることがわかります。
システムがどのように学習しているかを理解したい場合、そのシステムをモデル化し、数学的予測モデルを構築して、それが本当に機能しているかを理解したいと思います。ハーバードは、エネルギー最小化プロセスを試み、それがうまく機能するようだと教えてくれています。
私の簡単な言葉で言えば、このプロセスを数学的にモデル化する方法を探っています。ここで200年以上前のペーター・グスタフ・ディリクレを振り返ってみましょう。彼はドイツの数学者で、特定の境界条件が与えられた調和関数を見つけるという美しい問題に取り組みました。
興味深いことに、これは100年から200年前の研究ですが、今日の最新のAI研究で新しい数学モデルを理解しようとする際に使用されています。彼はこれを静電場に適用しましたが、これは今日我々が適用している分野です。
静電ポテンシャルは領域の境界上で記述され、電場が安定平衡状態にあるとき、内部に調和的なポテンシャルを拡張します。この静電場の構成は、システムのディリクレエネルギーが最小の状態に対応します。この200年前のアイデアを取り、ハーバード大学の最新のAI研究に適用するのは本当に魅力的です。
彼自身は完璧ではありませんでしたが、その後デービッド・ヒルベルトが特定の仮定の下で正当化を提供し、これが有効であることを示したため、今日我々はこれを使用することができます。
ハーバードの説明に入る前に、少し調べてみたい方には、特にベクトル場のディリクレエネルギーの単純な離散化について見てみることをお勧めします。これは2020年の私のお勧めの論文で、オメガ上の滑らかなベクトル値関数Uと特定のフロベニウスノルムを使用する、対応するベクトルディリクレエネルギー関数を導入しています。
もし本当に数学的に深く理解したいと思われる場合、特に2.2章をお勧めします。ここでは、ベクトルディリクレエネルギー関数の数学的方程式を導出することがいかに簡単かを示しています。これは我々が作業し、計算するものです。
数学と理論物理学に豊かな歴史があり、今やAIに応用されています。このベクトルディリクレエネルギーは、スカラー関数の場合と同様に、ベクトル場の滑らかさを定量化します。これにより、ベクトルディリクレエネルギーとそれに関連するラプラス方程式は、ベクトル場の滑らかさの概念を必要とするアプリケーションに有用となります。
例を挙げると、赤いベクトルに滑らかなベクトル場を適合させたい場合を想像してください。1、2、3の赤いベクトルがあり、ここでベクトルに滑らかなベクトル場を適合させる必要があります。この特定のトピックについて詳細な数学的な理解は必要ありませんが、幸いにもAIの実装だけを見ています。
極めて単純なアイデアとして、このネットワークがあり、高次元の複雑さがあると想像してください。今、知識をオーバーライドしたいとします。これはMetaなどが提供するLLMです。文脈内学習を活性化させたいのですが、ここに不連続性があるかもしれないことを認識しています。
したがって、単純な図で言えば、部分ネットワークを抽出し、この部分ネットワークを文脈内学習の洞察、文脈内学習の例、与えられた例で置き換えたいと考えています。それらは、より大きなベクトル場表現に適合する滑らかなベクトル場を持つ必要があり、すべてが滑らかで美しく、すべてが美しい連続性を持つべきです。
スパイクや接続性のない空の領域があってはいけません。本当に単純なものを求めるなら、これがお勧めです。もう少し複雑なものを求めるなら、この単純化を試してみてください。これは、初めてこれに遭遇した場合の理解を助けようとする私なりの方法です。
特定の境界条件が与えられた滑らかなベクトル場を見つける必要があります。静電場のディリクレを思い出してください。これが全てです。複雑なn次元知識多様体において滑らかな解を見つける必要があり、この滑らかな解がベクトルディリクレエネルギーの最小化子であることがわかります。
さらなる詳細を見たい場合は、前述の通りですが、幸いにもハーバードの論文でもこれを式1、2、3のこの表現に単純化しています。このトピックへの簡単な入り口となっています。
ハーバードは次のように述べています。上記の測定は、近接するトークンやグラフのノードが、真のグラフにおいて表現間の距離が似ているか、小さな距離を持っているかを示します。モデルが正しい基礎構造を正確に推論するにつれて、ICLモデルは学習します。
示したように、ディリクレエネルギーの減少を数学的モデルで見たいと思います。美しいモデルがあり、それが機能するか、適合するか、どのように計算されたかを見ることができます。
x軸にLLMのコンテキスト長があり、これはllama 3 LLMで計算された正規化されたディリクレエネルギーです。正規化因子がありますが、詳細は省きます。何が起こったかを見てください。
青で中間層の18層があり、ピンクで30層、つまり最後の層の一つがあり、緑で精度があります。精度だけを見ると、20%か40%くらいから始まり、コンテキスト長を増やしても比較的安定していますが、ある時点でコンテキスト長が上がり始めます。
ブレークポイントがあり、安定していた後、ある種の線形的な変化があります。これは昨日のビデオ1で示したグリッド構成についてです。データ表現のリングトポロジーに移ると、同じ構造の精度、正規化されたディリクレエネルギーが見られます。
緑の0%から100%までのシステムの精度を見てください。100%への極端なジャンプがあり、その後はほぼ100%の精度で安定しています。これはまさに我々のモデルで達成したい状態です。
ICLを提供する例のこのコンテキスト長でRECシステムを停止させたくありませんが、もちろん得られる最高の精度を得たいと思います。これは興味深くないでしょうか。20%の非常に低いパフォーマンスから80%以上に移行するこの領域があります。
この領域は、理解し、モデル化したい場合の最も興味深い領域の一つです。ハーバードは、コンテキストの量がスケールされるにつれて、LLMの内部表現の創発的な再編成が起こり、これによってモデルがビデオ1で示した文脈内グラフトレースタスクでよく機能できるようになると主張しています。
絶対に魅力的なことが起こっており、ハーバードの理論が正しければ、このシステムの挙動をシステムのディリクレエネルギーの最小化に基づく数学的モデルで記述できます。前節の結果に基づいて、ハーバードは、最後のビデオでリング、六角形、グリッド表現として示したような構造化された表現をモデルから識別できる理由について、新しい仮説を提示しています。
ハーバードは、文脈内学習を持つLLMが内部的にデータの正しい構造表現を探索するエネルギー最小化プロセスを実行していると述べています。これは衝撃的です。エネルギーについて話す時、これはコンピュータクラスタが使用する電気エネルギーではなく、グラフに特有の数学的表現のディリクレエネルギーであることに注意してください。
これは抽象的な表現として選択されていますが、これを最小化問題として見れば、LLMは内部表現においてPCAを思い出してください、データセットの正しい構造表現を構築します。したがって、主要な質問が残ります。
もちろん、これは突然現れたわけではありません。2023年初めに、最適化プロセスからのトランスフォーマーに関する研究があり、エネルギー関数の最小化と自己注意の深い層との間に関連性があるかどうかを探りました。何年もの間、これを数学的モデルで記述できるかという考えがありました。
しかし、もちろん一つの論文があります。これがバイブルと言えるものです。イェール大学のスペクトルと代数的グラフ理論です。2019年の不完全版を読むと、古い論文だと思うかもしれませんが、この400ページには、スペクトル代数的グラフ理論について知りたいことがすべて書かれています。
特にスペクトル部分、スペクトル埋め込みに注目してください。これは平面や二次元多様体上にグラフを描くために頻繁に使用され、多くの場合、グラフの構造を保持します。論文を見ると、リンググラフとビデオ1のグリップグラフのスペクトル埋め込みがあります。
しかし、これはトランスフォーマーから知っている埋め込みではないことに注意してください。これは活性化因子やツァ重み構造によって与えられる内部表現ではありません。これは完全に異なるスペクトル埋め込みです。
ハーバードは、もしあなたがハーバード大学の数学教授なら、我々のエネルギー最小化仮説が真であれば、これは実際に予想されることだと述べています。なぜなら、ビデオ1でモデルから見た表現が本当にシステムのディリクレエネルギーを最小化し、数学的な詳細が非退化であれば、PCAの最初の二つの主成分が正確にシステムのスペクトル埋め込みを生成するからです。これを理解するには1分ほど必要かもしれません。そして2分目には、数学的証明を示してほしいと思われるでしょう。はい、ハーバード大学の論文の付録Bに、完璧な数学的美しさでこの理論が書かれています。
週末に何をすべきか迷っている方には、論文の付録Bをお勧めします。これが初めての方は、chat GPT-4oでも何でも構いません。これらのアイデアは多かれ少なかれ100年以上前からあるものだからです。グラフ表現とは何か、グラフとは何か、ラプラシアンとは何か、グラフのラプラス行列、隣接行列、次数行列、そして固有値と固有ベクトルの分解、そして埋め込みへと進みます。
初心者向けには、隣接行列、ラプラス行列、固有ベクトル、固有値がどのように関連しているかの簡単な説明があります。イェール大学の400ページの美しい論文を読みたくない方にはぴったりです。
これが本当に起こっているということを示したいだけです。llama 8B、1B、指示チューニング済み・未済み、小さなjamama 2 2B、9Bに関係なく、異なる層すべてで起こっています。青い層がすべて下がっており、ハーバードが各モデルで計算したディリクレエネルギーは本当に自己最小化し、どこかに最小値があります。これは正確に文脈内学習プロセスが始まる場所です。
再び、安定したプラトー、40%程度の plateau があり、本当にディリクレエネルギーが最小になると、80%以上のパフォーマンスへのジャンプがあります。リングトポロジーでビデオ1を見てみましょう。100%の場合、エネルギーが下がり続け、最小プラトーがあり、これが本当の学習が起こる場所です。そして100%近くで飽和します。
この数学的モデルは、LLMと文脈内学習を持つ実システムの挙動を本当に記述しています。文脈内学習をどのように最適化できるか、内部の仕組みを理解したい、システムを計算するモデルはあるかという疑問があります。私の知る限り、これはハーバードが提供する最初のモデルで、どのコンテキスト長で、どのようなモダリティで、システムのモデリングから文脈内学習が本当に起こるかを正確に計算できます。
もし左側のどこかにいる場合、ICLが全く機能することを期待できません。各モデルについてこれを計算できます。次のビデオをご覧ください。しかし、主要な質問に戻りましょう。単純なことを持ち帰りたい場合、この文脈内構造、ICLで提供する構造が、LLMのセマンティック事前知識を本当にオーバーライドするのはいつでしょうか。
セマンティック事前知識とは、これはMetaのモデル、exのモデルなどを指します。データを挿入したい場合、または推論の接続性を少し変更したい場合、それはいつ起こるのでしょうか。これが、前回のビデオが「LLMの知識をオーバーライドする方法」と呼ばれた理由でもあります。
今では数学的モデル、ハーバードの学術的な解決策がありますが、我々はすぐに実装できる実際の解決策に興味があります。ハーバードはまさにこれを行いました。文脈内構造、文脈内学習がLLMの事前にエンコードされた知識、セマンティック事前知識をオーバーライドするときの例の数です。
詳しく見ると、これはx軸とy軸の精度を示しています。LLMが学習した、セマンティック事前知識と矛盾する文脈内タスクが与えられたときの精度を示しています。まず、モデルは元のセマンティック事前知識を反映した予測を行うことがわかります。
10個や20個の文脈内学習例があっても、LLMは事前学習された推論を維持します。ただし、70%の精度から下がり続け、例の数がここで、直線的な低下が来て、別の曲線もありますが、新しい文脈内学習がいつ起こるかが興味深いです。
これが青い線です。学習されたセマンティックルールがこれらの新しいICL例で従われていないことをモデルが捉えるにつれて、ピンクの精度は急速に低下します。プロンプトでより多くのICL例を与えると、残りのセマンティックセキュリティがゆっくりと減衰し、リング構造の新しく定義された順序を反映した予測を行い始めるにつれて、モデルの挙動が遷移します。
Metaから元々の事前学習された値を保持しようとするLLMの挙動と、プロンプトで例を提供するときの挙動の間で、40%の精度で、死の値があります。これは幻覚が起こる場所です。システムは何をすべきかわからないからです。LLMは事前学習された知識を使えないことを認識します。
より多くの例を提供すればするほど、この事前学習された知識が間違っていることがわかり、LLMは自問します。どの知識を適用すべきか、そして新しい文脈内学習がまだない場合、LLMは何をすべきか。それは幻覚を起こします。
しかし、もう一つの点があります。例の数と共にいかにゆっくりと増加するかを見てください。600で、最良の場合でも100%に近づき始めます。文脈内構造がLLMのセマンティック事前知識をオーバーライドする挙動は、ICLが本当に効果的であるためには、これらの数の例を提供する必要があることを示しています。
Metaから出たばかりのLLMの事前知識をオーバーライドするのは、全く単純で簡単な作業ではありません。ところで、もしあなたが購読者であれば、素晴らしいことですが、この曲線を以前に見たことを覚えているでしょう。文脈内学習ではなく、本当にLLMをファインチューニングする場合に、同じケースで同様の挙動が見られることを私のビデオで示しました。
文脈内学習の学習挙動とこの死の値、そしてファインチューニングが同様に振る舞うと言いたいのですか?はい、本当に研究の最先端に行きたい場合、このデータを見て、文脈内学習でのエネルギー最小化が文脈内構造に対応する次元で起こることを説明できますか?
これが何を意味するか理解できますか?私にはこの意味するところを想像することしかできませんが、これは今日のビデオの範囲を超えています。
結論として、ハーバードは次のように述べています。これらの結果は、文脈内学習における文脈のスケーリングがLLMの新しい能力を解き放つ可能性があることを示唆しています。より広く、この軸は大規模言語モデルの改善にとってまだ過小評価されているかもしれません。これは絶対に魅力的です。
これはより良いLLMへの道かもしれませんし、より良い文脈内学習を持つ方法かもしれません。文脈内学習プロンプトの構築方法を知っているからです。このスケーリングが起こり、新しい能力が解き放たれることを望んでいます。
最後に、もし本当に最後まで私と一緒にいる1人か2人の購読者がいれば、個人的な考察と洞察を共有したいと思います。現時点で、LLMの事前学習、この事前学習データセット、トランスフォーマーモデルに刻み込まれる事前学習知識が支配的な要因だと感じています。
なぜなら、ファインチューニングを追加する場合、この非常に小さな、いわばファインチューニング知識、ファインチューニング情報、ファインチューニングデータ、新しいデータの領域で、本当に修正されるのはほんの小さな領域だからです。
これは文脈内学習でも多かれ少なかれ同じことが言えると思います。セマンティック事前知識を考慮した知識のオーバーライドを示しました。文脈内学習は簡単だと思われていますが、実際に調べてみると全く簡単ではなく、多くの二次相転移があります。
我々は何をしているのでしょうか。システムの最適化を気にしていないように感じます。我々は何をしているのでしょうか。LLMの方法論と機能の核心の外側に複雑さを構築しています。インデクサー、再インデクサー、メインリトリーバー、プリリトリーバー、リリトリーバー、前回のビデオで示した3つのエージェントを持つRAGシステムを構築しています。
なぜなら、学習が本当に起こっていないからです。しかし、問題の本当の核心に触れていないように感じます。現在、私には、我々は外側に構造を構築し、RPを改善し、より良いモデルを得ようとしているだけのように見えます。しかし、LLMの核心の外側にますます複雑さを構築しているだけです。
これは、現在の量子誤り訂正の研究を少し思い出させます。そこでも、システムの主要な問題に本当に取り組んでいないように感じます。外側では素晴らしい複雑さを構築していますが、おそらく研究においてこれは前進への道ではないかもしれません。
しかし、このビデオについてはこれで終わりです。パート2の終わりで、パート3は作成中です。このビデオに1つか2つの好評をいただければ、さもなければさらに複雑になりますが、今日達成したことは、新しい数学的モデルを見たことです。
ハーバード大学の仮説により、モデルやLLMが内部的にエネルギー最小化プロセスを実行していることを理解しました。このプロセスの特徴を記述でき、このエネルギー最小化は今やデータの正しい構造表現を探索しています。これは衝撃的です。
構造的なデータ表現、ニューラルネットワークアーキテクチャ、トランスフォーマーアーキテクチャ、そしてこのすべての複雑さの上でエネルギー最小化プロセスを実行し、これが正しい結果を与えるという関連性を想像できますか?これは魅力的です。
もし数学や理論物理学に少し興味があれば、AIの未来を楽しむことができるでしょう。今日は文脈内学習だけを見ましたが、LLMの事前学習においても現在多くのことが起こっています。これはおそらくさらに重要かもしれません。
なぜなら、我々はAI研究の本当の問題に取り組まない複雑さを構築しているだけであることがわかってきたからです。もし興味があれば、購読していただければ嬉しく思います。次のビデオでお会いできることを楽しみにしています。

いいなと思ったら応援しよう!