![見出し画像](https://assets.st-note.com/production/uploads/images/170253892/rectangle_large_type_2_917f1258bd08c9e35c57062840871bcd.jpeg?width=1200)
400万コンテキスト実現:中国の新たなAIブレイクスルー!!
2,739 文字
この中国発の画期的な新しいトランスフォーマーアーキテクチャは、OpenAIを含む米国企業全てに実際に挑戦できる可能性があります。大規模言語モデルの最大の問題の1つは、これらのモデルをどのようにスケールさせるかということです。単にトークン数を追加し続けるだけでなく、モデルは追加したトークン数を理解しなければならず、より長いコンテキストの場合はモデルを実行するための十分な計算能力も必要です。これは、ディープラーニングのファンダメンタルなアーキテクチャであるトランスフォーマーによって引き起こされている問題です。
このトランスフォーマーモデルには、これらのモデルを実際に優れたものにする重要なコンポーネントがあります。人々がRNNの代わりにトランスフォーマーを使い始めた理由の1つはアテンションであり、そして同じアテンションが実際に問題となっていました。今日まで。
中国のMiniMax社(素晴らしい動画生成モデルで知られる企業)が、新しいアプローチを発表しました。それはライトニングアテンションと呼ばれています。彼らは新しいアプローチを発表しただけでなく、モデリング全体をオープンソース化しました。
このビデオでは、ライトニングアテンションについて私が知っていることと、特に長いコンテキストウィンドウを持つ大規模言語モデルにとって、それがなぜゲームチェンジャーなのかをお見せします。
まず、ライトニングアテンションがなぜそれほどゲームチェンジャーなのかを理解する前に、従来のトランスフォーマーの限界という部屋の中の象について議論する必要があります。トランスフォーマーの最大の問題の1つは、二次計算量の問題を抱えていることです。これは何を意味するのでしょうか。
これは、テキストの長さ、つまりトランスフォーマーに処理させる入力テキストやシーケンスの長さを増やすと、必要な計算量が指数関数的に増加することを意味します。例えば、非常に基本的な例として、3つの単語を与えた場合、例として6の計算量が必要だとします。今、4つの単語を与えると、単語数を1つ増やしただけですが、6ではなく、おそらく36くらいになります。
このように、計算要件が指数関数的に増加し、これがトランスフォーマーのスケーリングにおける最大の問題でした。多くの人々は、これがAGIへのボトルネックだと考えています。AGIが何であるかは分かりませんが、これがボトルネックだったと言えます。
企業は、このチャンネルで何度も議論してきた非常に人気のあるアーキテクチャであるMambaを含む、さまざまなアルゴリズムを試してきました。GoogleがGeminiモデルで200万のコンテキストウィンドウでこれを既に実現しているかどうかは分かりませんが、ライトニングアテンションが登場しました。
ライトニングアテンションは従来のアテンションよりも高速で、それはどのように実現されているのでしょうか。これは、トランスフォーマーの問題点である、すべてのトークンペアに対してアテンション・スコアを計算する必要性を軽減しようとしているためです。トランスフォーマーでは、与えられたすべてのトークンペアに対してアテンション・スコアを計算する必要があり、そのため二次計算量になります。
しかし、二次的にスケールする方法の代わりに、ライトニングアテンションは線形代数のトリックの新しい組み合わせを使用します。基本的な計算を二次的ではなく線形的に行います。これは、多くの計算を必要とせず、メモリにもうまく収まることを意味します。
ライトニングアテンションは、transorと呼ばれる既存の技術から借用しており、transorの最適化された実装です。非常に簡単に説明すると、ライトニングアテンションには2つの主要な要素があります。1つはこれらのアテンションをブロックに分割する方法で、イントラブロックとインターブロックがあります。
ここでイントラブロックとインターブロックが見えますが、イントラブロックとインターブロックは別々に計算されます。アルゴリズムを見ると、ライトニングアテンションのフォワードパスアルゴリズムでは、まずイントラブロックを計算し、次にインターブロックを計算し、最終的にアテンションが計算されることが分かります。
そのため、トークン数を増やしても、計算は二次的ではなく線形的になり、これがMiniMax o1がライトニングアテンションの実装に成功し、非常に強力な計算要件を持つ従来のソフトマックスベースの手法よりも優れている根本的な理由です。
ここでパラメータ数とFLOPS数の要件が分かります。新しいアーキテクチャだけでなく、このモデルは既存のモデルと十分に競争力があります。例えば、このモデルは見てわかるように、主要なモデルと同等です。
強い赤い線がMiniMax text o1モデルで、彼らが見ているベンチマークの一部は信じられないほどです。モデルをテストして確認する必要がありますが、純粋に新しいアーキテクチャの観点から見ると、このモデルはMMUにおいてClaude 3.5 Sonnetより優れています。
このモデルはGP QAではそれほど優れているわけではありませんが、数学では人間レベルと同等で、コーディングでも同等です。これは実験的なモデルではなく、400万トークンまでLLMをスケールアップできる新しいアーキテクチャを持つ、プロダクションでオープンソース化されたモデルです。
実際、彼らは「干し草の中の針」実験を行い、40億トークンでもモデルは破綻せず、検索の面で良好な性能を発揮していることを発見しました。モデルのコンテキストウィンドウを徐々に増やし、検索に問題があるかどうかを確認しましたが、ここで見られるように、長いコンテキストでも検索の深度パーセンテージに問題は発生していません。
最終的に、これは非常に優れた堅実な新しいアーキテクチャを持つモデルであり、おそらく西洋のこれらのモデルに対抗できる可能性があります。しかし、モデルをテストする必要があります。モデルをテストして、モデルがどのように機能しているかを確認するフォローアップビデオを作成する予定です。
プロダクションで修正されたバージョンのアテンション、修正されたバージョンのトランスフォーマーを手に入れたという事実だけでも、多くの人々を喜ばせており、これは私たちが2025年に待ち望んでいた瞬間かもしれません。
このモデルについて、そして一般的に中国がAIでどのように進展しているかについて、あなたの考えを教えてください。また別のビデオでお会いしましょう。ハッピープロンプティング。