![見出し画像](https://assets.st-note.com/production/uploads/images/169285363/rectangle_large_type_2_e13f482808c724e5b4f8a5b515879351.jpeg?width=1200)
エッジデバイス上のTiny LMエージェント: スケーリングは可能か?
9,857 文字
こんばんは、コミュニティの皆さん。夜遅くですが、Tiny Language Model (小規模言語モデル)について発見したばかりです。これらは新しい事前学習方法論にとって素晴らしいものです。一緒にBERTアーキテクチャ、LLaMAアーキテクチャ、そしてSNMとMambaアーキテクチャを見ていきましょう。そして、Tiny言語モデルに焦点を当てていきます。
最初は、DeepSeek v3を使って作業していて、このモデルが大好きでしたが、ご存知の通り、このモデルは約7000億の事前学習可能なパラメータを持っており、アーキテクチャ自体を実験できるハードウェアがありませんでした。
そこで、今回は本当に小さな、私が言うところの超小型モデルを見ていきます。これは1400万パラメータのモデルです。サイズに関わらず、これはAIにおけるホットトピックだと考えています。なぜなら、このモデルのサイズはDeepSeek v3のわずか0.2%に過ぎませんが、これこそが私たちが実験でき、学習メカニズムを発見し、トレーニング方法を最適化できる領域だからです。7000億の事前学習可能パラメータを持つLLMの最適化方法を見つけることはできませんが、エッジデバイスのことを考え、数年後にはこれらの小さなデバイスの多くが初歩的なAIインテリジェンスを持つかもしれないと考えると、今日からすでにここで、堅牢な言語理解と推論能力を持つ超小型LLMのトレーニングを始めることができます。
これらは最適なサイズであり、最適化の実験を進めるのに完璧な対象です。新しい研究論文をお見せしたいと思います。彼らはここで、特にこれらの超小型言語モデルを訓練するための単純化された言語環境の作成を探求しています。彼らのアイデアはシンプルです。子供たちが言語を学ぶように、基本的な語彙、単純な構文、最初の単語や文章から始めて、これらの小型LLMでもこのシンプルさや単純化された言語環境のアイデアを何らかの形で実装できないか見ていきましょう。
スケールダウンは非常にデリケートなトピックです。シンプルな環境を実現するために、後ほどお見せしますが、彼らはLenaデータセットを作成しました。これは既存のテストデータセットを改訂してノイズを減らし、語彙サイズを2000まで制限したものです。私たちの主なタスクは、複雑なアイデアを単純化することです。なぜなら、私たちは非常に小さなモデルを扱っているため、複雑なアイデアを計算することは不可能だからです。このビデオの最後に、どのように正確にダウンスケーリングと複雑なアイデアの単純化を行うのかプロンプトをお見せします。
しかし、今のところは方法論自体に焦点を当てましょう。データに関しては比較的簡単で、データセットを改訂してよりシンプルなデータセットを作成するためのプロンプトをDeepSeekなどで使用する方法をお見せします。そして、カリキュラム学習と呼ばれるものを統合することで、さらに興味深くなります。非常にシンプルなアイデアで、モデルは最初に単純な非複雑なデータで訓練され、その後、トレーニングフェーズ、特に事前学習フェーズで、より複雑なデータ、より高度な推論構造を持つ情報に徐々に晒されていきます。
そして、これらの小型LLMのトレーニングに焦点を当て、指示追従手順を実装します。これは自律型エージェントを構築するために必要なものです。そして、エッジデバイスについて話したように、もし私たちが外に出回っているほぼすべてのガジェットに小型モデルを搭載することに成功したら、このインテリジェンスが信頼性が高く、性能が良いことを確認する必要があります。
自律型エージェントを構築することは、シンプルで高性能、実装が安価で、保守とスウォームでの調整が簡単なものを作ることが本当の課題です。そこで、自己進化型エンジンの構築にも焦点を当てます。なぜなら、自己進歩や新しいことを学ぶ実際の可能性を持たないエージェントほど悪いものはないからです。小型LLMをベースにした自己進化型エージェント、これは絶対に魅力的なトピックです。これまで私のチャンネルでは小型LLMを無視してきましたが、今回はそれを修正したいと思います。
あなたは、私も同じように考えましたが、巨大なAIシステムであるo1やo3を使って小型LLMを訓練すればいいと思うかもしれません。歴史的に見ても、知識蒸留、モデル圧縮、教師生徒学習、モデル転移など、多くの方法論があります。LLM監視下での教師あり微調整や、プロキシモデルトレーニング手順も素晴らしい方法です。
しかし、興味深いことに、これらの新しい論文を読んで、これは前進への道ではないと考えました。興味深いことに、ある著者は、より少ない複雑さを持つスリムなデータセットで小型LLMを訓練することで、学習効率が向上し、下流タスクでより良いパフォーマンスを発揮できるようになると述べています。これらの小型LLMはスリムなデータセットで訓練され、中国やシリコンバレー、あるいはモデルがどこに配置されているかに関わらず、サーバーにインターネット接続された複雑なLLMを配置する場合と比較して、エッジデバイス向けに設計された特定のタスクで同様またはさらに良いパフォーマンスを達成できることが期待されています。
これを探求し、現在の研究がどこにあるのか見ていきましょう。私たちは今、小型LLMのトレーニングデータセットと事前学習データセットの構成方法に入っていきます。特に、エージェントやモデル、小型LLMが事前学習フェーズで積極的に知識を求めることを許可する場合、これは全く単純ではありません。これは新しい形の事前学習であり、このビデオは昨日の通常のLLMの新しい事前学習方法論について話したビデオの続きです。
しかし、最大限に単純化すると、いくつかの新しい洞察があり、私は魅力的だと感じました。より低い複雑さを持つより簡単なデータで事前学習されたモデル、そして約5分後に情報密度、複雑さ、情報エントロピーを結びつけます。このアイデアは、これらの小型LLMの指示追従能力を向上させることですが、これは本当に繊細で敏感な均衡を取る必要があります。
小型LLMで作業する場合、トレードオフがあることが想像できます。トレーニングデータセットの複雑さを減らすことと、小型LLMが下流タスクで実行できることの間のトレードオフ、そして未見のデータでうまく実行できるモデルの能力を維持すること、つまり未見のデータへの一般化の間のバランスがあります。
データセットをある限界まで単純化すること(おそらばエントロピー方程式を使用して閾値を見つけることができます)と、もう一方の限界であるデータの豊かな分布を必要とすること(小型LLMが単にトレーニングデータを暗記してオーバーフィッティングを起こさないようにするため)の間にこのバランスがあります。
目標は、この事前学習データセットの構造を私たちが知っている従来のLLMの種類と整合させながら、より簡単な学習のためにデータを単純化することで、小型LLMの一般的なマスク能力を向上させることです。
これは私たちが話す論文です。2024年12月の最終日のもので、イリノイ大学の研究者たちによるものです。興味深いタイトルで、「単純な言語環境における小型言語モデルのトレーニングと評価」というものです。タイトルだけを読んでも、このアイデアが持ちうる影響に気付いていなかったかもしれません。GitHubがあり、コードがあり、データセットがあるので、自分で体験することができます。
しかし、私はここでアイデアに焦点を当てたいと思います。アイデアは、このような単純な言語環境を作成することです。著者たちはここで、言語データセットのノイズを最小化し、データセットの複雑さを最小限に抑えることで、テキスト分布の本質的な特徴を保持することを目指しています。前述したように、モデルが高度に特化されていても、異なるドメインからの様々なデータ分布を持ちたいと考えています。
ここでこの出版物からいくつかの単純な洞察を示させてください。これが出版物で、今から出版物に入ります。データセットについて、通常のLLM、マルチ700Bモデルの場合、これは何兆ものトレーニングトークンで訓練されているため、モデルが実行できる文になりますが、小型LLMにスケールダウンすると、意味的な内容からもより単純にする必要があります。
これが新しいトレーニングプロセスの結果です。この文をこの文に単純化しました。別の例を示しましょう。起業家精神とビジネス管理、これは通常の複雑な文ですが、小型LLMのために単純化する必要があります。これが小型LLMが美しく実行し、理解できる単純化されたケースです。
私たちは文の意味的複雑さを減らし、使用する語彙の量を2000トークンまで減らしました。この最小構成で新しいトレーニング手順を見つけ出し、いくつかの閾値とどのようなことに注意を払う必要があるのかを見つけ出したいと考えています。これは可能です。なぜなら、中国のどこかに配置された6850億の事前学習可能パラメータを持つモデルではないからです。
私は閾値を見つけようとすることについて話していました。情報エントロピーを使用することができ、それは素晴らしいアイデアですが、ここでは基本的な計画に焦点を当てたいと思います。この出版物に注目していただきたいと思います。大規模言語モデルの自己進化に関する調査、興味深い論文です。GitHubとすべてがここで利用可能です。
私は聞かれました。本当にこれらの論文をすべて読まなければならないのかと。いいえ、興味があれば、詳細をさらに知りたい場合は、私がこれらの論文を提供します。私は読んで、興味深く、私にとって役立つと感じたからです。しかし、これらの論文を読まなければならないというわけではありません。私は私のクレイジーなアイデアを追えるように説明しようとしています。他のYouTuberの多くが、このような抽象的なものを追わず、単一の論文だけを提示することは知っていますが、私は学際的に行き、これを探求することが好きです。
彼らがここで何をしているかというと、AIにおける自己進化型エージェントを開発する古典的なフレームワークには通常4つのステージがあります。経験の獲得、経験の洗練、更新、そして評価です。現在のモデルを見てみると、彼らはそれを少し異なる方法で行っています。なぜなら、彼らは古典的な手順を補完するものとして、継続的な改善のために新しい知識を積極的に求める小型LLMからの自己進化型エージェントを提案しているからです。
これは興味深いです。なぜなら、これらの小型LLMがインターネットに出て行く場合、通常の複雑な意味的内容を彼らの理解に合わせて変換する必要があり、これ自体が冒険です。そして、私たちは特に事前学習段階でのトレーニング手順の最適化について話しているわけではありません。
これが新しいと思うかもしれませんが、いいえ、私は驚きました。他のLLMや他のストーリー、小さなストーリー、小さな対話、ベビーLM、そしてミニGPT 2023 2024があります。最小データセットと100万から165百万のモデルサイズがあることがわかります。しかし、今日は、私が示したこの論文に焦点を当てています。なぜなら、彼らはこれをTiny LLMと呼んでおり、他のすべてのモデルからの知見を持ち、現在最高クラスの小型LLMを構築しようとしているからです。
私たちは今、1400万の事前学習可能パラメータを持つディープニューラルネットワークのアーキテクチャを見ています。これは、私たちがどのように話し、複雑さを持ち、自己表現するかという意味的・言語学的構造を見ると、関連しています。
私はスタンフォード大学のこの研究が役立つと感じました。意味的な構文木に対する意味的な構成能力のための再帰的深層モデル。気にしないでください。スタンフォードはここで再帰的ニューラルテンソルネットワークを導入し、コンピュータサイエンスで人間の言語の複雑さ評価と、複雑さを減らしながら意味的情報を保持する方法についてのアイデアを得るのに良いと思います。
これは、極端な2万語の語彙を使用してウェブデータの翻訳をフィルタリングすることによるデータ単純化が、小型モデルでの創発的能力をどのように誘導できるかを探求しています。これは小型モデルに創発的能力があるのか、特に小型モデルにおいて、という疑問自体があります。私はここに大きな疑問符を付けますが、スタンフォードの研究に従いたい場合は、読むのに素晴らしい論文です。
最初に、異なるアーキテクチャを見ると言いましたが、BERTアーキテクチャやLLaMAアーキテクチャのような自己回帰デコーダを持つTransformerアーキテクチャに慣れていますが、Mambaアーキテクチャもあります。もし新しい方なら、Mamba6がTransformerよりも優れているかどうかを説明し、Transformerとの混合エキスパートモデルをコーディングし、純粋なMambaを微調整し、DPO整列を行い、コードを示し、テスト評価を行う2つのビデオがあります。
また、古典的なMambaの実装を超えて進みたい場合のビデオもあります。自己注意をベクトル場で統合したい場合、これを行うことができます。すでに1年前に、今日Mambaと呼ばれているものをはるかに超えて進んでいたことがわかります。
まず、彼らが見たモデルを見てみましょう。Transformerのエンコーダ部分の単純なモデルで、1400万のモデルサイズ、2000の語彙サイズです。次にLLaMAデコーダの1400万、語彙サイズ2000を見ます。これが本当に実験であり、本当に単純化されたデモンストレーションですが、完全な計算の複雑さを持っていることを示すためです。
そして今、質問は、この1400万という非常に小さなサイズから、より強力なエッジデバイスや通常のLLMまでスケールすることができるかということです。巨大なモデルを見上げているのではなく、アーキテクチャをどこまで小さくできるか、本当にローカルで知能を実行するApple Watchに搭載できるAIを見ているのです。
14百万のMambaプロジェクトのハードウェア仕様について、1400万の事前学習に必要なものは興味深いと思います。彼らは各48GBの4台のNVIDIA A6000を使用しました。Mambaベースの言語モデリングに興味がある場合、これはNVIDIA、ウィスコンシン大学、プリンストン大学による優れた要約研究です。アイコンとして、彼らは本当に選択的なデータ空間モデル(Mambaなど)の最先端を提供しています。
2024年夏、純粋なSSMベースのモデルがTransformerと一致するか、時にはいくつかのタスクで上回ることを示したため、ほぼ有名になりました。特にMambaとMamba2モデルは、文脈内学習を必要とする特定のタスクでTransformerモデルに遅れを取っています。
これが、私の最後の2、3本のビデオが文脈内学習と、ディリクレエネルギー最小化のような数学的モデルを使って文脈内学習がどのように機能するか、または長文脈推論のためのTransformerアーキテクチャを持つ場合の遅延能力について理解することにも焦点を当てていた理由です。
要約として、これについてあまり詳しくないにもかかわらず、正確な参照を提供する必要があります。これは計算言語学会による著作権のある文書で、2023年6月の古い文書ですが、優れた要約だと思います。これはLLMデータ時代、ドメインカバレッジ、品質、有毒性の事前学習データのための事前学習ガイドで、著者はMIT、コーネル大学、Google Research、OpenAI、カーネギーメロン大学です。
彼らは彼らの発見とアイデアをまとめ、これは素晴らしいと思います。そして、今日私たちが検討している主要な研究の著者たちは、特に事前学習データ設計のためにこの事前学習ガイドを使用しています。そのため、このアイデアはどこから来たのかと思うかもしれませんが、これがあなたの参照文書になります。
私たちの著者たちには3つの主な質問がありました。より低い言語的複雑さを持つクリーンなデータセットでのトレーニングが、LLMと小型LLMの学習効率を向上させることができるのか、もちろんそうだと思うでしょう。次に、低複雑性データセットで事前学習され指示調整された言語モデルは、指示追従能力をより早く発達させる傾向があるのか、あるいは自律的な自己学習AIエージェントへの道でより良くなる可能性があるのかという質問でした。
そして3つ目の質問は、エッジデバイス上でリソース効率の良い縮小されたスケールを持つ場合、言語モデルアーキテクチャとトレーニング技術のより効率的な開発を可能にするかということでした。付録Bでは、興味深い洞察を提供しており、言語データセットの複雑さとスケーリングの意図、そしてそのさまざまなドメインでのデータ分布特性との関係を見つけたいと感じることができます。
彼らは、言語データセットの複雑さをデータセット内に存在するトークンの組み合わせパターンの総数として定義し、彼らが呼ぶところのナイーブな複雑さの定義を提供しています。トレーニング技術、そしてもちろん文脈ウィンドウの長さ、サイズが複雑さに影響を与え、データセットの複雑さを分析し、情報エントロピーHとの関係を調べています。
すべての変数の表記が必要な場合、これが説明です。しかし、小型LLMについて話しているので、この形式を単純な言葉に翻訳させてください。彼らが持っているのは、エントロピーの下限です。情報エントロピーの指数関数を持つ下限は、データセットのエントロピーを減らすこと、これは単にデータの分布をより予測可能にすることを意味し、次のトークン予測の自己回帰を思い出してください。データセットをより単純にすることで、その全体的な複雑さが減少し、したがって言語モデル、特に小型言語モデルが学習しやすくなります。
私はこれを疑うことはなく、これは当然のことだと言うでしょう。そして、データセットのサイズと上限について、トークンとロックトークンの指数関数を持つ上限は、データセットのサイズ、つまりトークンの数が増加するにつれて、複雑さも増加することを示しています。これは自明です。
しかし、特に彼らの定式化には多くの隠れた複雑さがあります。私は彼らがここでそれを行う理由を理解していると思います。そして、彼らの目標はスケーリングのためのデータセット複雑さを評価するための形式的な数学的尺度を提供することです。しかし、彼らの証明は、彼らの見解では、情報のエントロピーを減らすことによって言語を単純化し、それによって小さなモデルを効果的に訓練するためのデータ前処理アプローチをサポートしていますが、私はこれを疑うことはありません。これは私が期待することです。
私は、データセットを単純化すると複雑さが減少し、したがって学習が容易になるということを言うような隠れた複雑さにより興味があるかもしれません。しかし、この複雑さの証明だけでなく、論文の核心部分に戻りましょう。
著者たちは、言語データセットの完全な複雑さはテキスト分布の情報エントロピーによって決定されると述べており、目標はテキスト分布のエントロピーを減らすことによってランダム性を減らすことで言語データセットを単純化することです。これは複雑さが情報エントロピーに関連していると述べることによって目標とされているものです。しかし、これは私が、はい、もちろん、私はこれを疑わないと言うようなものです。
アプリケーションのために、一般的に言語を単純化し、語彙サイズを2Kまで大幅に制限することで、当然ながら単語分布自体に影響を与え、多くの外れ値、つまり低頻度の単語を完全に削除します。これにより、彼らはデータセット内の単語の分布を制御しています。私の言葉で言えば、アイデアは、小型モデルが分布特性をより早く学習できるということです。これについても、私はそうだと言うでしょう。
トレーニングについて、小型LLMは絶対的に能力が低いため、効果的にトレーニングするためには、トレーニングデータ自体でより少ない複雑な分布パターンを見る必要があるかもしれません。これについても、私はそう思うと言うでしょう。そのため、目標は複雑さの低い分布を持つデータセットを提供することでした。すぐにこのデータセットの構築方法をお見せしますが、意味があると思います。
パラメータ、レイヤー、複雑さから極めて制限されたAIアーキテクチャを持つ場合、高度に複雑なタスクを持つことができないのは自明だと思います。なぜなら、これらの小さなAIシステムは、ほとんどフリーパラメータを持たず、多くの異なる複雑な推論スキーマにテンソル構造を事前学習し刻印することは単純に不可能だからです。あるいは可能かもしれませんが、その場合はバックプロパゲーションを大幅に変更し、フィードバックループを行う完全に新しい方法を見つける必要があります。
著者たちの側からの結論に入ります。これは公式に発表された結論で、これは私がこの論文で見たことの結論です。公式な結論は、LLMとその最も実行可能なアプリケーションであるエージェントについて、小型モデルで効果的にテストされた戦略があり、プレプリントには小型モデル、データセット、より単純な言語環境でのエージェントに関する多くの統計データがあります。そのため、そこに行き、それを見てください。
著者たちは今、これらが潜在的により大きなモデル、より大きなデータセット、より複雑な環境でのエージェントの行動に適応できると主張しています。数学から、私たちが増加する複雑さを扱う場合、線形マッピングを期待しないでしょう。なぜなら、既知の効果が引き継ぎ、制御を取ることができるからです。
そのため、小型モデルから中型または大型モデルへの洞察の適応について、私は彼らが何をしているのか理解し、彼らが100万または1400万の事前学習可能パラメータという絶対最小限まで降りていくというこの作業は素晴らしいと思いますが、洞察を適用できるかについては、まだ多くの研究が必要だと思います。
彼らは本当に透明性があり、すべてを提供しています。付録Gで、スリムなトレーニング、スリムなGLUE、スリムな評価データセットを作成するためのプロンプトを提供しています。バックグラウンドプロンプトがあり、LLMに、あなたはプロフェッショナルな言語学者であるなどと伝え、そして一般的な要件プロンプトがあります。そして、ここに単純化プロンプトがあり、あなたのo1モデルやq1モデルに、プロンプトを単純化する方法の指示を与えます。もちろんトレーニングデータも必要です。週次の単純化のためにバックグラウンドプロンプトがあり、単純化プロンプトがあり、例1、例2、例3の例があり、出力フォーマットを定義します。
本当に簡単明瞭で、システムで見つけることができる最も重要な機能を持つ本当に強力な例を選択するように注意する必要があります。そして、見つけた場合は1つ、2つ、3つ、またはそれ以上の例を提供します。
短いビデオでしたが、小型言語モデルがあり、多くのAI研究が進行中で、これらは言語モデルの動作を探求し、モデルが全体的なAIパフォーマンスを向上させるために必要な新しい事前学習方法論、新しい事前学習データ設計を理解するための可能性を持っているということをお伝えしたかったのです。
このビデオはこれで終わりです。楽しんでいただけたと思いますし、新しい洞察、新しいアイデアを提供できたことを願っています。購読していただけると素晴らしいです。次のビデオでお会いしましょう。