小規模モデル、よりスマートな学習：ICL

2024年12月8日 04:21

6,999 文字

マサチューセッツ工科大学が技術を戦場に直接展開すると発表したことを、コミュニティの投稿で読みました。MITは防衛契約の軍事期間を完了したとしています。12月4日のことです。そして翌日、OpenAIから2番目のサプライズがありました。2025年第1四半期に彼らの01モデルの強化学習ベースの微調整のために支払いができるようになるというものでした。
このような強化学習ベースの微調整で何が起きているのか、正確に理解したいと思いました。なぜなら、これはプリンストン大学とUCバークレーで発明され、今ではオープンソースとなっているからです。なぜ別のソースから資金を得ているこの特定の企業にお金を払う必要があるのでしょうか。私はもう彼らにお金を払わないことに決めました。
そのため、小規模言語モデルをよりスマートにする方法というトピックに突然関心を持った理由がお分かりいただけると思います。オープンソースAIモデル、そして結果としてLambdaや他のクラウドプロバイダーのクラウドインフラで実行できる小規模なAIモデルに焦点を当てるなら、小規模言語モデルをよりスマートにする方法という単純な質問に答える必要があります。知的能力を総動員して解決策を見つけましょう。
香港理工大学とその他の機関による文脈内学習に関する調査があります。トレーニングコストがゼロであることから、文脈内学習（フューショットプロンプティングとしても知られる）が注目を集め、特に小規模言語モデルの推論能力を向上させる有望なアプローチとして浮上してきました。もしご興味があれば、これは素晴らしい出版物です。
基本的な考え方は単純で、人間について考えると、これは一種のアナロジーベースの学習です。例を示し、プロンプトで与えた例に似た解決策を考え出すように言います。LLMは慎重に作成されたデモンストレーション例（1、2、5、10個）から隠れたパターンを見分け、未知のテスト問題に対して適切な改善された推論ステップを生成することが期待されます。
テキサス大学、ジョンズホプキンス大学、プリンストン大学による別の出版物では、推論領域における画期的な進歩が見られます。「ステップバイステップで考えよう」という単純なプロンプトと、ステップバイステップの推論例を組み込むことで、このアプローチにより、特に小規模言語モデルが人間のような推論プロセスをエミュレートできるようになります。
NYUによるこの出版物では、大規模言語モデルが時系列予測者として機能することを理解しました。言語モデルは、季節変動と組み合わさった線形トレンドなど、時系列分析のコンポーネントを正確に理解しているように見えます。システムは時系列予測の複雑さを何らかの形で理解しています。
しかし、エジンバラ大学と他の企業による出版物から、例に基づく推論性能は提供されるデモンストレーション例に大きく依存することにも注意が必要です。このLLMは、特に興味深いプレプリントにおいて、タスク固有の特徴とICL例の複数の側面に対して高い感度を示すことが分かりました。
これらの特徴には、デモンストレーションの量（1、3、5、あるいは100、500）、それらの順序付け、そしてラベル分布が含まれます。小規模言語モデルのICLパフォーマンスに対するラベル分布の影響は信じがたいものです。ICLが類似した論理構造を持つ推論タスクに遭遇した場合、プロンプトでの提示形式が異なると、対応する構造化されたデモンストレーション例を再構築する必要が時々生じます。未知のタスクに対して文脈内学習から最大限の利益を得るためには、フューショット例の提示形式も同じである必要があるからです。
昨日、OpenAIの01システムカードから、チェーンオブソート欺瞞モニタリングについて、私のチャンネルのコミュニティタブでもヒントを出しましたが、OpenAIは私たちに、もし嘘をついたり、幻覚を見たり、不正確な事実や規則を発明したりする場合、そのような行動は01モデルから人間のフィードバックによる強化学習中の報酬ハッキングから生じる可能性があると告げています。
これは興味深いことです。なぜなら、OpenAIが公式文書でこれを告げているということは、One modelをユーザー満足度を優先するように最適化することで、過度に同意的な、あるいは不正確な応答を提供する可能性があるということが単なる理論的可能性ではないことを理解できるからです。
これを読んで、LLMのアライメントフェーズにおける強化学習で何が起こっているのかを理解しました。LLMは特定の方法で振る舞うように強制され、それが事前学習や微調整のデータセットと整合性がない場合、大きな問題に陥ります。大規模な幻覚が見られたり、理論的には不正確な応答が生じる可能性があるからです。
つまり、特に事前学習されたLLMの品質、形式、データ構造、複雑さ、事前学習データセットの提示は、特に事前学習されたLLMと整合性のないデータセットを使用する強化学習アルゴリズムを適用する場合、最も重要です。これら2つのステップ間のトレーニングデータセットの不整合は、LLMが矛盾するデータセットをどう扱えばよいか分からないため、幻覚の増加につながる可能性があります。
事前学習されたLLMを持っていて、単にそれを微調整する場合も同じことが言えます。以前は、新しいドメイン知識にモデルを微調整できると考えていました。今日では、事前学習データセットの複雑さやドメイン構造に含まれていない場合、それは不可能であることが分かっています。微調整はニュアンスや細かい詳細を修正しますが、完全に異なるドメイン知識を微調整だけで組み込むことはできません。モデルのパフォーマンスは低下していきます。
これはまた、事前学習から微調整データセットまでのトレーニングデータセットに構造的、複雑さ、または理論的な不整合がある場合、微調整されたシステムや強化学習で調整されたシステムで幻覚が発生する理論的確率が高まることを意味します。
そして今、私の最後のビデオでGoogleの最新の視覚言語モデルであるPaLM 2について話したときに、なぜ彼らが事前学習モデルのみを提供しているのか理解できます。一部の人々は「なぜ突然事前学習モデルに戻ったのか、なぜ微調整やDPOアライメントをしないのか」と聞きましたが、彼らがやったことを、そしてドキュメントを注意深く読めば、高品質な事前学習データセットを持っていることが分かります。詳細は私のビデオで事前学習データセットについて見ることができます。
事前学習プロセスが何を含んでいたのか正確に知っており、今では特定の視覚データセットに対する微調整プロセスを開始できます。そうしなければ、VLMのパフォーマンスは低下するでしょう。ご存知の通り、Googleはレントゲンや医療応用など、特定の視覚データセットに対して微調整されたバージョンをいくつか提供しています。これらは高度に専門化された微調整システムです。
もちろん、ビデオでお見せしたように、私やHugging Faceもこれを行う方法を示す微調整ノートブックを提供しています。PaLM-aプロセッサーがあり、GoogleからはPaLM 2の30億パラメータの事前学習モデルが448x448ピクセルのみに対して提供されています。これは、業界が良い事前学習モデルを持つ必要があり、その高品質な事前学習モデルの上に特定のデータセットで構築するという洞察を理解し始めているということです。
文脈内学習に話を戻すと、これは私たちの文脈内学習にとっても本当に重要です。このビデオで示したように、ICLは微調整や他のシステムよりも優れたパフォーマンスを発揮することができ、特に教師なしICLプラスを使用すると、このシステムから本当に良いパフォーマンスを得ることができます。
これはGoogleのDeepMindからの出版物で、多数ショット文脈内学習に向かっています。文脈内学習のフューショット例の量を増やすと、品質が向上します。Googleは、強化学習と教師なし文脈内学習の両方が、特に複雑な推論タスクにおいて、多数ショット体制で効果的であることを見出しました。
これは、ICLが本当に... トレーニングデータのコストがかからず、事後トレーニングもいらず、適切なフューショット例を見つけるだけでよいということのもう一つの指標です。教師ありICLを行う必要はなく、教師なしICLを行えば、つまり解決策をプロンプトに含めずに問題の例をマシンに、小規模言語マシンに提供するだけで、モデルのパフォーマンスを大幅に向上させることができます。
数学のようなコメンタリーで、ラベルや解決策が利用できない場合でも、これがどうして可能なのかと自問するかもしれません。関連情報の存在だけで、小規模言語モデルがスキルを活用するのに役立つ可能性があり、質問と回答は、タスクが本当に新しく、事前学習データセットの一部ではなかった場合にのみ、厳密に必要となります。
良い事前学習データを持ち、教師なしICLを使用する場合、同じ複雑さ、あるいは順序が重要であることを覚えておいて、おそらく増加した複雑さの問題を提供するだけでよいのです。すべての解決策やラベルを持つ必要はありませんが、関連する追加情報の存在だけで、システムが高度な推論プロセスを生み出すのに役立つ可能性があります。これは、それ自体で驚くべきことです。
この出版物を見てみましょう。「文脈内学習の謎：解釈と分析に関する包括的な調査」と呼ばれています。より機械論的なアプローチを取っており、これも強くお勧めします。すでにバージョン3で、オリジナルの論文から1年以上経っていますが、非常に興味深いものです。ICLのパフォーマンスに対する事前学習データのプロパティの効果を分析しており、事前学習データのプロパティについて本当に深く掘り下げています。
彼らは、LLM、私たちの場合は特に小規模言語モデルが、事前学習タスクの多様性が特定の閾値を下回る場合、ICLを通じて新しいタスクを実行できないことを実証しています。先ほど申し上げたように、事前学習データセットの品質、多様性、複雑さ、そして順序付けさえも、特定のタスクに文脈内学習を使用できる良い事前学習モデルを持つために最も重要です。
彼らは、文脈内学習を推進する事前学習データの3つの重要な分布特性を発見し、特にトランスフォーマーアーキテクチャにおけるインダクションヘッドの役割を調査しました。これらが文脈内学習を実装する上で重要なコンポーネントであることを示しています。インダクションヘッドは、先行文脈を活用して、トークンパターンをコピーし伝播することで、シーケンス予測を可能にすることをご存知でしょう。
また、より深いアーキテクチャや高次のインダクションヘッドを持つモデル（小規模言語モデルでは構築が非常に複雑ですが、それでも後のアーキテクチャで単層ベースで実装を試みることができるかもしれません）は、優れた文脈内学習性能を示し、深さと学習効率の関連性を強化することも発見されました。
トランスフォーマーアーキテクチャにおいて、マルチヘッド自己注意メカニズムとは何か、そしてこれらの特別なヘッドとどのように関連しているのかについて確信が持てない場合、簡単にまとめましょう。論文で書かれている通り、インダクションヘッドは、トランスフォーマーが繰り返しパターン、隠れたパターン、あるいは意味レベルでの異なる関連性を含むデータに晒されたときの、事前学習プロセスの自然な結果として現れます。インダクションヘッドは、私たちの古典的なトランスフォーマーアーキテクチャのマルチヘッド自己注意メカニズム内で注意ヘッドが担うことができる多くの役割の1つにすぎません。
文脈内学習、特にこのインダクションヘッドの役割についてもっと学びたい場合は、2022年3月にAnthropicが発表した、トランスフォーマーアーキテクチャ内で特定の専門化が進んでいることをどのように検出できるかについての最初の主要研究の1つを見てみることをお勧めします。Anthropicは、インダクションヘッドがパターンの認識、コピー、拡張、そしてパターンのシーケンスの理解に特化した注意ヘッドとして現れることを示しました。
昨日発表されたもう1つの出版物を見てみましょう。これはGoogleのDeepMindとUCLによるもので、文脈内学習のより広いスペクトルを調査しています。彼らは一般的に大規模言語モデルについて言及していますが、私は小さな修正を加えた小規模言語モデルの側面に焦点を当てたいと思います。文脈内学習をどのように改善するかについて考えています。追加コストがゼロで、良い事前学習モデルだけが必要で、高度に専門化されたドメイン固有のものがある場合は少し微調整するだけですが、それ以外はICLだけで十分であることを覚えておいてください。
これは次のステップのための本当に興味深いアプリケーションです。彼らは、指示的ロールプレイからタスクに適応し、時系列を外挿することさえ可能だと言っています。これは文脈内学習メカニズムに新しい光を当てます。一般化の重要性が強調され、それは新しいことを学ぶ能力だけでなく、異なる提示から学び、学んだことを適用する柔軟性においても研究することができます。
これは、Googleがもちろんエージェントアプリケーション固有のものにも焦点を当てている、目標条件付きAIエージェントへのメタ学習という用語をご存じでしょう。文脈内学習は、より大きな何かの要素として分類することができます。文脈内学習は、シーケンス内の早期観察の文脈を使用して、小規模言語モデルによる予測やAIエージェントによるそのシーケンス内での後の決定を支援する能力として位置づけられます。
シーケンスの分布全体でメタ学習された方法で、私たちは文脈内学習をメタ学習インテリジェンスの傘下に置きます。シーケンスタスクを、観察のシーケンスに基づく予測や行動のシーケンスを行う任意のタスクと定義すると、もちろんロボットの友人たちのセンサー入力を含むエージェントがある場合、私たちはシーケンスタスクについて話していることになります。
異なる時間ステップ内および時間ステップ間での観察と行動の関係は、潜在的なプロセスに従って進化します。しかし、各シーケンスの潜在プロセスは、普遍的な一貫した特徴と時間や条件によって変化する可能性のある特徴の両方を持つ広い分布からサンプリングされることを私たちは知っています。
私のビデオを購読している方はお気づきでしょうが、この定義は、私たちが強化学習の体制で、特に言語モデリングにおいて、すでに複数のビデオで検討した部分観測可能マルコフ決定過程と完璧に一致します。
新しい眼鏡をかけたようなもので、文脈内学習がマルコフ決定過程と本当に結びついていることを理解し、そこでは数学的な公式やツールをすべて持っており、それらを操作することができます。そして今、私たちはこのメタ学習された文脈内学習の全スペクトルを適用しています。これは、エージェントが持つような単純なメモリから、言語的依存関係を解決するための文脈の基本的な使用、教師ありフューショット学習、そして小規模言語モデルのより複雑な文脈内適応にまで及びます。
これが美しいのは、より複雑な文脈内学習への入り口を開き、何が起こっているのかを理解できるかもしれないということです。指示に従うこと、指示学習について簡単に話したことを覚えていますか。これは、ICLのパラダイムを、フューショット学習体制における入力-出力ペアのような特定の例を超えて、モデルが明示的な指示やタスクの説明に適応する複雑なシナリオへと拡張します。
つまり、指示に従うことは、この新しい分極化で見ると、タスクの特定の入力-出力例に依存せず、小規模言語モデルが指示自体の意味に基づいて適応するということです。プロンプトで提供する従来のフューショットタスクとは異なり、適応がラベル付きデータまたはラベルなしデータを持つ特定の例、特定の順序、特定の形式に制限されるのではなく、指示に従うことで全く新しいタスクへのより動的な適応が可能になります。
そして、はい、この興奮を感じることができます。なぜなら、指示に従うことは、文脈内学習が現在の純粋なデータパターン体制を超えて、より抽象的なタスクの説明へと拡張する方法を示しているからです。これが、オープンソースの小規模言語モデルを使用し、それらのモデルでより良い推論性能を得たい場合の前進する道だと思います。
素晴らしいことに、私たちはイントロダクションを終えました。パート1の終わりです。明日は、私たちの小規模言語モデル（願わくばオープンソースで、ローカルで使用できる）のより良い推論と因果推論性能のために、文脈内学習を改善するためのこれらの新しいアイデアの実際の実装について話します。

小規模モデル、よりスマートな学習：ICL

いいなと思ったら応援しよう！