![見出し画像](https://assets.st-note.com/production/uploads/images/165745507/rectangle_large_type_2_d774a4a8dd6bb082c5fe7cd520f11fe4.png?width=1200)
視覚的自己回帰モデリング
29,751 文字
相変わらず示唆に富んでる
YouTubeのテストをしています。YouTubeのテストをしています。チャンネルで音声のテストをしています。こんにちは、調子はどうですか、トンビン。YouTubeでの作業をしていますが、Xをチェックする必要があります。調子はどうですか、アイザック・ペレス。調子はどうですか、マゲティ。
このストリームはまもなく始まる予定です。今日のストリームは「視覚的自己回帰モデリング」と呼ばれています。この論文を見ていきましょう。「視覚的自己回帰モデリング:次のスケール予測による拡張可能な画像生成」です。
この論文はかなり前に公開されましたが、学会発表までにはそれなりの時間がかかるものです。これはニューラル情報処理システム会議、別名NeurIPSと呼ばれる会議で発表されました。以前はNIPSと呼ばれていましたが、それは乳首を意味するスラングだったため、今はNeurIPSと呼ばれています。これは非常に権威のある機械学習の学会の一つで、ベストペーパー賞など多くの賞があります。この論文がベストペーパー賞を受賞したということは、発表から少し時間が経っているものの、かなり優れた内容であることを示しています。
まず、アンドレが言及したドラマについて話しましょう。第一著者のKIU TIONさんは、メールアドレスを見ると北京大学の所属です。指導教官も北京大学のメールアドレスを持っています。その間にある著者全員がByteDanceのメールアドレスを持っています。この話は、Kさんが大学院生としてByteDanceでインターンシップを行い、その成果としてこの論文を発表したという、よくある話のように見えます。
shine.cnという中国のニュースサイトに記事がありました。この媒体の信頼性についてはよく分かりませんが、「ByteDanceの元インターンがNeurIPS賞を受賞、法的係争の最中に」という記事です。北京大学との共著で「視覚的自己回帰モデリング」と題された受賞論文について、TIONが第一著者として記載されています。ByteDanceとTIONの対立は、TIONが内部モデルのトレーニングを意図的に妨害したり、コードを変更して大きなリソースの無駄を引き起こしたりした疑いにより、訴訟にまで発展したとのことです。
これはどういうことでしょうか。巨大なトレーニングが行われている際、多くのエンジニアがマシンにSSH接続してモニタリングや変更を行う権限を持っています。これは単にスタートボタンを押して1ヶ月後に戻ってくるというような単純なものではありません。常に誰かが損失関数やGPU全体のメトリクスを監視し、すべてが正常に動作していることを確認する必要があります。
インターンのKIU TIONさんもトレーニングクラスターにSSHアクセスする権限を持っていましたが、「意図的な妨害」というのは意図を付加しすぎかもしれません。インターンだったので、おそらく誤って何かを削除したり変更したりして、トレーニングを台無しにしてしまっただけかもしれません。ただし、これらのトレーニングは常にチェックポイントを取っているので、問題が起きた場合は最後のチェックポイントに戻すことができます。リソースの無駄は、最後のチェックポイントからの時間と、エンジニアが修正に費やした時間程度でしょう。
1000万ドル規模の法的係争が続いているとのことですが、詳しいことは分かりません。この人物を個人的に知っているわけでもなく、ByteDanceや北京大学の内部事情にも詳しくありません。ドラマについて私が知っているのはこの程度です。
もし他に面白い話を追加できる方がいれば教えてください。しかし、このチャンネルはより技術的な内容を扱うYouTubeチャンネルなので、技術的な詳細に焦点を当てていきましょう。
VoR(視覚的自己回帰モデリング)は、画像での自己回帰学習を、次のスケール予測または次の解像度予測として扱う新しい生成パラダイムです。自己回帰学習は、言語モデルの基礎となっている考え方です。自己回帰学習の核となるアイデアは、次のトークンを予測する自己教師あり学習戦略です。
これは、前のトークンをすべて使って、可能なトークンの辞書または語彙から次のトークンを予測するという、シンプルながら深い意味を持つアプローチです。この図の上部は、まさにそれを示しています。言語には本質的な順序と一次元的な方向性があり、文章に沿って進んでいきます。
自己回帰的にXTトークンを予測する際、基本的にここにあるトークンすべてを使用します。自己回帰という用語は、このプロセスが繰り返されることを指します。「sat」という単語を予測したら、次に「by」を予測し、次に「him」を予測できます。「him」を予測する際には、これらのトークンを使用します。これが自己回帰です。
しかし、この論文では少し異なることを行っています。次のトークン予測ではなく、次のスケール予測または次の解像度予測という自己回帰を行います。
この論文の結果は256x256のImageNet画像についてのものです。これは少し古いベンチマークですが、インターンのプロジェクトとしては適切です。現実的に、インターンが巨大なデータセットで訓練したり、推論性能の限界に挑戦したりすることはありません。比較的小さなベースラインで、ハイパーパラメータの調整を行い、限られた計算予算内で実行できる範囲に制限されます。
インターンに1000万ドル規模の計算予算が与えられることはなく、小規模な予算内で作業することになります。FID(フレシェ・インセプション距離)を18から1に改善し、インセプションスコアを80から350に向上させ、推論速度を20倍速くしています。
FIDやこのような自動評価指標は、画像品質のような主観的なものには完全には適していないと考えていますが、18から1への改善は驚くべきものです。ここにグラフがありますが、見てください。DIT(拡散トランスフォーマー)やMask-GitGiganなど他のモデルと比較して、FIDの下限が1.78なのです。この論文のモデルはそれを下回っています。
FIDは少し難しい指標ですが、このスコアの低さは印象的です。これが論文が注目を集めている理由の一つでしょう。FIDについてより直感的に理解するために、別の論文から図を示します。上部左のガウシアンノイズについてFIDを評価しています。顔にガウシアンノイズを加えていくと、FIDがどのように変化するかが分かります。
FIDは距離の指標なので、その距離が大きいほど、画像が元の画像から離れていることを示します。少量のガウシアンぼかしを加えた場合、通常の顔との距離はそれほど大きくなりません。しかし、ある時点で急激な変化が起き、ガウシアンノイズを追加するとFIDが急激に上昇します。
ガウシアンノイズを加える量とFIDの増加の関係は、ノイズや破壊の種類によって異なります。例えば、画像を渦巻き状に歪ませたり、ソルト&ペッパーノイズを加えたり、画像の一部をブロックアウトしたりする場合で異なります。
これは、FIDが少しブラックボックスな指標であることを示しています。計算方法は理解できますが、これらの破壊のどれがより自然で受け入れられるのかは分かりにくいのです。このような曲線的な応答が望ましいのか、より平坦な応答が望ましいのか、ゼロから急激に高くなる応答が望ましいのか。これがFIDの意味することの難しさです。
しかし、このように低いスコアを達成したことは非常に印象的です。さらに、画像の修復、拡張、編集などのダウンストリームタスクでゼロショット汎化能力も示しています。画像生成や画像モデリングタスクにおいて、このような修復や拡張のサブタスクで機能することを示せることは、一般的に強い結果となります。
VoRは、言語モデルのスケーリング則とゼロショット汎化という2つの重要な特性を初めて実現しました。ゼロショットとは、これらのタスクのためにファインチューニングを行っていないことを指します。例えば、この赤い四角の中をコーギーに変換する修復タスクがありますが、このタスクのためにモデルをファインチューニングしていません。
通常、このような修復タスクを実行するにはモデルをファインチューニングする必要がありますが、ここではゼロショットで実行しています。つまり、タスク固有の勾配を適用していないにもかかわらず、訓練済みモデルから直接実行できています。
フープさん、こんにちは。推論速度について見るたびに、実際の使用では使用されないような数のステップを比較していることが多いと思います。その通りですね。推論速度やトレーニング速度は、もっと複雑な話になります。何と比較して、どのような環境で実行しているのかが重要です。
メモリ使用量が20倍少ないというようなこともありますが、実際に何で実行しているのかが重要です。アルゴリズムAとアルゴリズムBをCPUで比較した場合と、GPUで比較した場合では異なる結果になります。さらに、そのアルゴリズム向けに特別に設計されたGPUなのか、複数のGPUで並列実行しているのかなど、様々なハードウェアの種類があります。
推論速度は、あまりにも広い用語です。特定のハードウェアで、特定のベンチマークについて、これだけ速くなったというような、もっと具体的な表現が望ましいでしょう。単に推論速度が速くなったという包括的な表現は、あまり深く読み込まない方がいいでしょう。
自己回帰(AR)自己教師あり学習は、次のトークンを予測します。これらのモデルは、視覚的トークナイザーを使用して連続的な画像を2次元トークンのグリッドに離散化し、それを1次元シーケンスに平坦化して自己回帰学習を行います。これは、順序的な言語モデリングのプロセスを反映しています。
通常、画像を消費してエンコードし、LLMやVMなどに供給する方法は以下の通りです。オウムの画像のような画像を取り、それをパッチに分割し、これらのパッチを1次元シーケンスに並べます。この順序付けは左から右、上から下へと行われます。
これは特定のスキャン順序を使用しており、言語やテキストの本質的な順序を利用しています。テキストを書く際は左から右、上から下へと書くので、画像を2次元から1次元シーケンスに変換する際にも同じアプローチを使用しています。
しかし、これには根本的な問題があります。この帰納的事前分布は、画像に対して正しくありません。トークン1とトークン4、トークン1とトークン2の間には、トークン1とトークン3の間よりも強い関係があります。
現在、人々はこれを回避するために、例えばRoPE埋め込み(回転位置埋め込み)などを使用しています。位置埋め込みです。大規模言語モデルの高度なテクニック(回転位置埋め込み、SwiGLU MLP、RMSノーム)は使用していませんが、RoPE埋め込みが重要です。
画像を消費して1次元シーケンスに変換し、アテンション機構に供給する際に、この古典的な左から右、上から下のラスタースキャン順序を使用する場合、位置埋め込みを入れる必要があります。これは正しい方法ではないからです。このラスタースキャンは悪い帰納的事前分布を導入しているので、ニューラルネットに「いや、この1は実はこの4の真上にあるんだ」と思い出させる位置埋め込みを入れる必要があります。
これにより、ニューラルネットはこれらの位置埋め込みを使用して、異なるパッチの空間的な位置を理解できます。しかし、この論文はこのような位置埋め込みを必要としない方法で注目とアテンションを画像向けに再構成しました。非常にスマートな解決策です。
人間は通常、画像を階層的な方法で認識または作成します。この多スケール的な、粗から細への性質は、画像に対する一つの順序を示唆します。我々は画像に対する自己回帰学習を、次のスケール予測として定義します。トランスフォーマーは、前のすべてのトークンマップを条件として、次の高解像度トークンマップを予測します。
つまり、これが本質的にこの論文の内容です。画像をパッチに分割し、それらのパッチを左から右、上から下へと読み、前のパッチを使って次のパッチやトークンを自己回帰的に予測する代わりに、代わりに次のスケールまたは次の解像度を予測します。
画像全体を表す1つのトークンから始め、それを使って同じ画像全体をわずかに高い解像度で予測し、さらに高い解像度で予測し、というように続けていきます。そのため、自己回帰モデリングは1次元に平坦化された画像シーケンス空間ではなく、粗から細への解像度空間で行われます。
これを見たとき、すぐに畳み込みニューラルネットワークを思い出しました。この粗から細への帰納的事前分布は、畳み込みニューラルネットワークの背後にある考え方そのものだからです。畳み込みの仕組みを示す小さなGIFがありますが、畳み込みニューラルネットワークの基本演算である畳み込みでは、このフィルターを画像全体にストライド(滑らせて)適用していきます。
これは画像かもしれませんし、低層かもしれませんし、より高層かもしれません。これらの階層的な層があり、基本的に行っているのは、より高層の各ニューロンが、下層のこの受容野またはこの大きな領域を使って、そこの数値を得ているということです。
畳み込みでは、この粗から細へのパターンが組み込まれています。このニューロンは前の層のやや大きな領域または空間的な体積から情報を集約していると言っています。これはずっと続いていきます。
さらに遡って考えることもできます。ここで彼らは「我々は第一原理から推論してこの帰納的事前分布に到達した」と言っています。基本的に「人間がこうしているから、我々もこうしよう」と言っているのです。これはまさに畳み込みニューラルネットワークが作られた方法です。
畳み込みニューラルネットワークは当初、視覚システムを参考に設計されました。私は神経科学者ではないのでこれらの記号の意味を完全には理解していませんが、視覚システムの仕組みは以下の通りです。ピンホールカメラモデルのように考えることができます。画像が虹彩を通って入り、網膜の細胞に投影されます。
それらは信号を頭の後ろまで送ります。実際、画像は目から入り、頭の後ろまで移動します。そこにはピラミッド型のニューロンがあります。基本的に視覚皮質のニューロンはV1、V2、V3といった層を形成しています。
昔、研究者たちは猫のニューロンを調べました。猫を解剖して脳を取り出し、薄くスライスして顕微鏡で観察したのです。そしてV2の各ニューロンがV1のニューロンの小さなパッチに接続されており、V1のニューロンはLGN(外側膝状体)のニューロンのパッチに接続されていることを発見しました。
研究者たちは、脳の中にこのような解像度の階層があり、それによって画像の特徴または意味的な表現を構築していることを理解しました。つまり、このような空間的階層を持つ層が脳にあることが、畳み込みニューラルネットワークを生み出すきっかけとなったのです。
そして基本的に、それは北京大学のK・ションさんがこの次のスケールまたは次の解像度の自己回帰予測というアイデアを思いついた理由でもあります。
基本的にこれが論文の内容です。では、なぜこの論文がベストペーパー賞を受賞したのでしょうか。論文が優れているという評価には様々な側面があります。結果が良い、よく書かれている、アイデアが非常に良いなどです。この論文はそのすべてにおいて優れています。
まず、結果が非常に良く、クリーンです。よく確立されたベンチマークでFIDが非常に良好です。論文もよく書かれています。最初から最後まで読むことをお勧めします。実際にとてもよく書かれています。
多くの説明が非常に分かりやすいです。教育的な観点からも、この概念を理解するために必要な基本的な概念をどのように教えるかという点でも、よくできていると思います。
アイデア自体も非常に魅力的です。非常にシンプルな概念で、非常にシンプルな基本的な仮定から来ており、そしてそれが機能します。残差接続やスキップ接続のような論文も同様で、非常にシンプルな概念でしたが、適用したら非常にうまく機能しました。
このようなベストペーパー賞を獲得したい場合、このような戦略を取るのが良いでしょう。非常にシンプルな小さな概念を見つけ、それがうまく機能するかを確認し、もしうまく機能すれば、その論文を非常によく書くのです。
これは簡単に時間的な次元に拡張できそうですね。空間的な次元でこのような階層的な受容野を持つのと同じように、3次元空間でも同じことができます。この自己回帰モデリングの次のスケール解像度という考え方は、2次元空間に限定されません。
3次元エンコーダーや、3次元空間で畳み込みを行うものでも、同じような考え方を使用します。3次元の論文をいくつか読みましたが、オブジェクトを生成したり、ガウシアンスプラットを作成したりする場合は少し異なりますが、通常は同じようなラスタースキャンの事前分布を見かけます。
これがかなり不適切だということは直感的に分かります。このラスタースキャンパターンは好ましくなく、RoPE埋め込みでハックしないと何もできません。しかし、3Dでもこれは機能し、時間の次元でも機能します。時間バージョンを想像することもできますし、時間次元を持つ3次元空間という4次元バージョンも想像できます。
このアイデアを様々な方法で適用し、多くの異なることに応用できる可能性があります。これも受賞理由の一つでしょう。
Vは直接GPT-2トランスフォーマーアーキテクチャを利用します。Vは、Stable Diffusion 3.0やSoraのような主要な拡散システムの基盤である拡散トランスフォーマーを凌駕します。
彼らは実際にはImageNet 256x256ベンチマークを最大限に活用しようとしているわけではありません。最新の高度なトリックを多く使わずに、このような驚くべき低いFIDスコアを達成できています。
GPT-2アーキテクチャを使用し、SwiGLUのような高度な活性化関数は使用せず、RMSノーマライゼーションも使用していません。まだ改善の余地がたくさんありますが、それでも非常に良いパフォーマンスを示しています。
Stable Diffusion 3やSora、他の動画生成モデルなど、最先端のシステムの多くがまだDITを使用しているため、このVの方が優れていることを示しています。フロンティアの研究所では、このような従来のSC順序と埋め込みの代わりに、このVのようなものを探求している人々がいるはずです。
関連研究の一部をスキップして、手法の部分に直接入りましょう。少し水を飲んでから続けます。
オブジェクトをパッチの代わりにトークンレベルとして使用すべきでしょうか。単語は意味的ですがパッチはそうではないので、オブジェクトが意味的であることは単語トークンを模倣できるかもしれません。
パッチのアイデアについては、それほど重要ではありません。このパッチは実際にはベクトルに埋め込まれているからです。この論文ではVQ-VAEを使用して、この小さなパッチを何らかのベクトルに変換し、実際に重要なのはラスタースキャンの部分です。
左から右、上から下にこれらを供給している部分が問題です。それがこの論文が改善している部分です。各パッチのエンコーディングについては、この論文は何も新しいことを提案していません。実際には単純にVQ-VAEを使用しています。
VQ-VAEは従来のVQ-VAEアーキテクチャを使用してトークン化しています。画像はすでにトークン化されており、それらのトークンをアテンション機構にどのように供給し、層のスケールが上がるにつれてそれらのアテンション機構がどのように関係するかが重要です。
これは大きなVQ-VAEでもありません。すべてのスケールで共有コードブックを使用し、V=4096としています。語彙サイズ、これらの小さな画像トークンの各々は4,000の可能な値しか持ちません。
自己回帰的に次のトークンを予測する際、この場合は次のスケールトークンまたは次のパッチトークンですが、4,000の選択肢から1つを選ぶことになります。これは4,000クラスの分類問題です。基本的に、これら4,000の次の可能なコードのうちどれかを選び、自己回帰的に次のもの、次のもの、次のものと予測していきます。
次に、次のトークン予測による自己回帰モデリングの予備知識について、これは自己回帰モデリングとLLMの基本的な要約です。各トークンは語彙Vからのものであり、言語モデルでは現在10万程度のオーダーですが、この小さなImageNetでは1万のオーダーです。
桁数のオーダーで考えると、10、100、1,000、1万、10万といった具合です。言語モデルでは語彙サイズは10万程度のオーダー、このような小さなニューラルネットでは4,000です。
これは成長の余地がどれだけあるかを示しています。100万の可能なトークンを持つVQ-VAE画像エンコーディングを想像してみてください。語彙サイズ100万というのはそれほど遠い未来ではないかもしれません。
現在のトークンX(t)があり、単方向のトークン依存性の仮定があります。これは実際には、自己回帰的にトークンx x(t)を予測する際、X1からX(t-1)までのトークンのみを使用するということです。
この想定された方向性、想定されたシーケンスがあり、これは言語には非常に良い帰納的事前分布ですが、画像には良い帰納的事前分布ではありません。
パラメータθを持つ自己回帰モデルP(θ)があり、これはすべての前のX'sが与えられた時のX(t)を与えます。これは次のトークン予測として知られています。
画像は本質的に2次元の連続的な信号なので、画像をいくつかの離散的なトークンにトークン化し、単方向モデリングのためにトークンの1次元順序を定義します。離散トークンはこの可能なトークンの語彙から来て、トークンは今やシーケンスではなく2次元マップの中にあります。
H x Wのトークンを持つことになります。H x Wのピクセルを持つ画像をH x Wのトークンに変換し、これをVQ-VAEを使用して行います。このVQ-VAEを段階的に説明しましょう。まず方程式を見て、それから実際の説明図を見ていきましょう。
IMは生の画像を表します。画像をエンコーダーEに供給すると、特徴量に変換されます。その特徴量を量子化器に入れると、効果的にトークンに変換されます。特徴量に基づいてこれらのベクトルを選択し、それらのベクトルは明示的な離散コードブックで定義されます。
連続的な特徴量ベクトルが与えられた時に特定のベクトルを選ぶ方法は、ユークリッド距離(L2)を使用します。基本的に距離を見て、特徴量ベクトルに最も近いものを選びます。離散トークンを得たら、それを判別器ではなくデコーダーに供給し、デコーダーがそれを画像に戻します。
少し詳しく説明しすぎたかもしれません。GPT-01 Proは画像説明機能を持っていますので、この画像を与えて各部分を説明させることができ、実際にかなり良い説明をしてくれます。全ての異なる部分をとてもよく理解してくれました。
これは少しズルかもしれません。これは非常に有名な論文からの非常に有名な図なので、訓練データに含まれているブログ投稿やYouTubeビデオ、記事などがたくさんあり、この画像についての説明が多くあると思われます。それでも説明の質の高さには感心しました。
VQ-VAEを理解することが、V論文を理解する上で重要なので、詳しく見ていきましょう。まず画像から始まり、それがこのCNN(畳み込みネットワーク)を通過します。このCNNがこのエンコーダーEです。
このエンコーダーEを拡大して見てみましょう。エンコーダーEはこのCNNであり、エンコーダーが画像のエンコードを終えると、画像の特徴マップバージョンが得られます。これは依然として2次元ですが、深さDを持ちます。
高さx幅のピクセル空間から、3チャンネルに、そして各特徴ベクトルの次元Dに変換します。この特徴ベクトルは画像のこの空間領域に対応する受容野を持ちます。この特徴ベクトル、この特徴ベクトル、この特徴ベクトルそれぞれに対して、エンコーダーは潜在コードZeを生成します。
これは高次元のテンソルで、圧縮された高レベルの特徴を反映しています。Zeは離散的ではなく連続的なベクトルです。これらの緑の四角それぞれが、この長い細い長方形のような連続ベクトルになります。その長い細い長方形は、画像のこの部分、その部分を表現しています。
しかしここでVQ-VAEが登場します。VQ-VAEの核心は離散的なコードブックです。このコードブックには、これらのベクトルE1、E2、E3、Ekの特定の集合があります。エンコーダーから得られる各連続ベクトルに対して、コードブックの中で最も近いベクトルを見つけようとします。
これが彼らが示していることです。これらのベクトルE1、E2、E3はそれぞれこれらの紫の点の1つです。そしてこのZexは、ここにある特定の緑の点、あるいはここにある点、あるいはここにある点、あるいはここにある点かもしれません。どれに最も近いかを判断します。
これは連続的なので、この緑の点はどこにでもあり得ますが、これらの紫の点は特定の固定された点です。この緑の特徴ベクトルの代わりに、最も近いものを選びます。E2に最も近いので、ここではE2を使います。そしてここではE3、E1というように。
これらのZexを、対応するコードブックのベクトルのインデックスで置き換えていることが分かります。連続的なものを離散化しているのです。
コードブックを代表的な潜在ベクトルの辞書と考えることができます。連続的なZを直接扱う代わりに、モデルはコードブックから最も近い埋め込みベクトルを選んで量子化します。
それができたら、そのzqxをデコーダーに供給します。デコーダーはエンコーダーと非常によく似ています。エンコーダーは画像をピクセル空間から特徴空間に変換し、デコーダーは特徴空間からピクセル空間に変換します。
しかしデコーダーは、これらのベクトルではなく、最も近いコードブックベクトルを使用します。ここのベクトルをすべて最も近いものに置き換え、それをここに供給します。
これはこれとは少し異なるので、この画像はこの画像と少し異なることになります。これらの2つの画像を比較することができます。これらは同じ画像であるべきですし、できるだけ似ているようにしたいのです。
最も近いベクトルをコードブックから探し、その最終画像を得ます。これはエンコーダーに入力された画像で、これはデコーダーから出力された画像です。これはピクセル空間でのそれらの距離です。
これは画像の特徴表現の間の距離であり、LPipsや判別器損失のような知覚的損失もあります。しかし基本的に、この多成分損失は、この画像とこの画像が同じように見えるべきだということです。
これが、勾配をすべて通過させることを可能にする損失です。勾配を適用する際、このCNNとこのCNNだけでなく、このコードブックも変更します。
これらの離散的なトークンやコードブックの中の単語は、徐々に調整されます。VQ-VAEに画像を供給し続け、勾配を適用し続けると、これらの離散的なトークンは埋め込み空間全体をカバーするようになります。
最初、コードブックは均等に配置された変な適当なベクトルの集まりですが、時間とともに移動し始めます。すべてが同じ場所に収束しないようにしたいので、この埋め込み空間全体に均等に分布するようにします。
そうすることで、任意の画像を入力し、エンコーダーを通して投影し、その特定のトークンに最も近いトークンを見つけようとする時、必ずそこにコードベクトルの1つがあり、連続的なものの代わりにそれを使用することができます。
理解できましたか?誰か置いていかれましたか?
これがオートエンコーダーです。オートエンコーダーを説明する時、実際には複数の部分を説明しています。エンコーダー、デコーダー、そしてコードブックを持つこの量子化器です。
これを訓練すると - 実際には彼らは訓練していません。事前訓練されたバージョンを使用していると思います。実際、アブレーション研究でそれに言及しています。「VQ-VAEトークナイザーを改良することは、自己回帰生成モデルを強化する別の有望な方法だと期待しています」
VQ-VAEには手を加えていません。VQ-VAEはこの時点で基本的に古いものですが、依然としてとてもよく機能します。この論文はすべての問題を解決しようとしているわけではありません。
単にうまく機能する1つの小さなトリックや問題の再構成方法を示しているだけです。トークナイザーには手を加えていませんし、トランスフォーマーのアーキテクチャ自体にも手を加えていません。依然として同じGPT-2標準トランスフォーマーアーキテクチャを使用しています。
実際に変更しているのは、この基本的な帰納的事前分布だけです。左から右、上から下に移動するのか、それともこの種のマルチスケールを行うのか。私はこれを畳み込みニューラルネットワークのアテンションマップのように考えています。
これが私の脳がこれを説明したい方法です。アテンションマップの畳み込みニューラルネットワークのようなものです。
これがVQ-VAEです。これが画像をトークンのグリッドに変換する方法です。H x Wグリッド内のこれらの小さなトークンそれぞれが、この4,000の語彙から来て、この2次元グリッドに配置されています。
そして、これが論文の基本的な部分です。自然言語の文章には左から右への固有の順序がありますが、画像トークンの順序は単方向自己回帰学習のために明示的に定義する必要があります。
以前の自己回帰手法は、行優先のラスタースキャン、螺旋状、またはZ曲線順序を使用して2次元グリッドを平坦化していました。これが彼らが話していることの例です。
行スキャンが最も一般的で、ほとんどの人がこれを使用しています。左から右、上から下です。しかし、他のバリエーションも見てきました。Mambaの論文では、複数のスキャン順序を使用していました。
左から右、上から下、そして下から上、右から左の両方を別々に行い、出力を組み合わせていました。Zカーブのような、さらに高度なスキャン順序もあります。小さなZを作り、さらにZ、そしてZZといった具合です。ヒルベルト曲線もあります。
これらの順序を作る方法はたくさんありますが、どれも良くありません。根本的な問題は、どんな高度なラスター順序を使っても、画像に対して正しい種類の事前分布ではないということです。
画像特徴マップには双方向の相関があります。これは自己回帰モデルの単方向依存性の仮定と矛盾します。画像自己回帰モデリングの性質は、双方向推論を必要とするタスクでの汎化性を制限します。例えば、下部が与えられた時に画像の上部を予測することができません。
彼らが言っているのは、このようなラスタースキャンを使用する時、トランスフォーマーは常に画像の左上から最初に供給され、基本的に右下に向かって予測しようとしているということです。
上下反転や左右反転を行わない限り、画像の下部が与えられた時に上部を予測することはありません。これは望ましくない事前分布が入り込む可能性があります。
平坦化は画像特徴マップに固有の空間的局所性を破壊します。トークンQiとその直接の4つの隣接トークンは密接に相関していますが、この空間的関係は線形シーケンスXでは損なわれます。単方向制約がこれらの相関を減少させます。
これを修正するために考案したトリックは、常にこれらの位置埋め込みでしたが、より良い帰納的バイアスを考案できれば、これらの位置埋め込みは必要ありません。
これがこの論文です。より良いバイアス、より良い事前分布です。帰納的事前分布が正しい用語だと思います。
このマルチスケールについてもう少し理解を深めましょう。まだ少しぼんやりとしていて、マルチスケールが具体的に何を意味するのか、何が起こっているのかがはっきりしていません。
Vには2つの別々のトレーニング段階があります。ステージ1では、マルチスケールVQオートエンコーダーが画像をKトークンマップにエンコードし、RKマルチスケール量子化に至ります。
VAEを持ち、画像を効果的にトークンにエンコードします。基本的にこのプロセスです。ピクセル空間の画像を取り、連続ベクトルに変換します。
これらの緑の四角それぞれが、画像のこの部分の意味情報を表す多次元の連続ベクトルです。畳み込みニューラルネットワークの受容野が、2D画像のどれだけの空間が実際にこの部分でエンコードされているかを教えてくれます。
畳み込みニューラルネットワークの受容野の仕組みで、画像全体を取得することはありません。この155は実際にこの上部の角のような部分に基づいており、下部のものは本当に使用していません。
このVQ-VAEでも同様のことが起こっています。この小さな緑の四角は、下部よりも上部を表現しています。しかしそれを量子化プロセスに供給すると、可能なトークンの語彙から最も近い効果的なトークンを選びます。
これがこれらのトークンマップです。異なる解像度のトークンマップがありますが、トークンマップの中のこれらの小さな四角それぞれは、コードブックのこれらのベクトルの1つです。辞書の中の単語と考えることもできます。
これがステージ1です。デコードして、この画像とこの画像を取り、これらの画像は同じであるべきだと言います。そして勾配を適用し続け、それがこのマルチスケールVQ-VAEの訓練方法です。
ステージ1は古典的なVQ-VAEです。なぜこれが人気があるのでしょうか。完全に自己教師ありだからです。この画像にラベルや学習信号を提供する必要がありません。この画像のラベルと学習信号は、文字通り画像自体です。
VQ-VAEは訓練が非常に簡単です。ラベルが必要ないからです。バウンディングボックスは必要ありません。キャプションも何も必要ありません。文字通り画像自体が信号です。
画像自体を損失に使用します。これらの損失において、ターゲットはありません。文字通り画像とデコーダーから出力された画像だけです。そのため、VQ-VAEは非常に人気があります。そのままの状態で1000万枚の画像で訓練できるからです。
次にステージ2、トークンに対するVトランスフォーマーの訓練です。VQ-VAEを訓練し、画像を効果的にトークンに変換できるようになりました。彼らはこれを画像特徴マップFと呼んでいますが、それは単に画像の異なる部分を表すトークンに変換したという言い方です。
ここで少し5次元的な思考が必要になります。以前は、この2次元画像特徴マップがあり、それをラスターでスキャンして1次元シーケンスにしていました。1次元シーケンスになれば、次のトークン予測と自己回帰予測という以前のメンタルモデルに簡単に当てはめることができました。
しかし、この複数の階層はどのように定式化するのでしょうか?これは具体的に何を意味するのでしょうか?これ全体をモデルに供給しているのでしょうか?これらは異なる次元なのではないでしょうか?
私はこれを5次元的思考と呼んでいますが、それは異なる次元のテンソルを頭の中で視覚化し、それらがどのように変形し、互いに掛け合わさるかを理解する能力のようなものです。
行列の掛け算を頭の中で考えることは比較的簡単です。2次元の行列を2つ考え、行列の掛け算を頭の中で考える時、私は行が動き、列が動き、それぞれの要素を生成するような小さなGIFのようなものを見ているような感覚です。
ここでも同様の種類の心的視覚化が必要です。これがどのように1次元のものである自己回帰トランスフォーマーに供給されるのでしょうか?あるいは集合から集合へのものと言う人もいます。アテンションは集合から集合への写像であり、1次元シーケンスは実際には位置埋め込みから来ているだけです。
アテンション機構自体には、1次元シーケンスであることを強制するものは何もありません。実際には1つの集合から別の集合への写像であり、位置埋め込みを入れるまでは順序は重要ではありません。このモデルには位置埋め込みがないので、順序は実際には重要ではありません。
最初のトークンはクラストークンです。下の方で言及されていますが、見つけられませんでした。とにかく、最初のトークンはクラストークンです。画像の特定の空間部分ではなく、画像全体を表すトークンです。
あ、スタートトークンでした。条件付き情報を持つスタートトークンがあり、その後R1、R2からRK-1まであります。ここにR1、R2、R3があります。基本的にRの添字は、このマルチ解像度マップ内の階層を表し、R1からRKを予測するための入力として使用されます。
ここが自己回帰的な部分です。RKは基本的にRK-1までしか見ていません。以前のものだけを使用していますが、シーケンス順序での以前ではなく、このスケールの階層での以前のものを使用しています。
アテンションマスクを使用して、各RKがR≤Kまでしか注目できないようにしています。アテンションマスクは標準的ですが、例えば古典的なラスタースキャンパラダイムでは、トークン番号5を予測しようとする時、トークン番号6、7、8、Nに注目することを防ぐマスクがあります。
トークン4、3、2、1にのみ注目できます。そのため、画像の上部を下部から予測できないという根本的な問題があります。文字通り、下部を使用することを防ぐマスクがあるからです。
各RKはR≤Kにのみ注目できます。ブロック単位の因果マスクがあります。自己回帰の単位は単一のトークンではなく、トークンマップ全体です。特徴マップH×W×Cの量子化から始めます。
このCはここでのDです。これらの小さなトークンや辞書の単語、コードブックのコードそれぞれには次元dがあります。これが起こっていることです。H×Wの次元と次元Cを持つ画像マップがあります。
これをK個のマルチスケールトークンマップに量子化します。それぞれがより高い解像度HK×WKを持ち、最終的にRKは元の特徴マップの解像度H×Wに一致します。
ここでハイパーパラメータが出てきます。どのようなアーキテクチャ設計論文でもハイパーパラメータを導入することになり、ハイパーパラメータとはこのようなものです。
例えばこのλPは、知覚損失がこの埋め込み空間での特徴ベクトル間の距離と比較してどれだけ重要かを決定するハイパーパラメータです。このλPの値を人間が決める必要があります。このλGの値も人間が決める必要があります。
同様に、これらの解像度も人間が決める必要があります。250×250の画像の場合、これは128×128なのか200×200なのかというデザインの問題があります。
畳み込みニューラルネットワークでも同様です。ストライドやこの小さなカーネルのサイズ、特徴の数、層の数など、多くのハイパーパラメータがあります。同様に、ここにも多くのハイパーパラメータがあります。
マルチスケールトークンマップを行う異なる解像度など、さらに多くのパラメータがあります。これは同じ自己回帰予測です。RK-1までを使ってRKを予測します。
すべての解像度で同じVQ-VAEを使用していますか?はい、異なる解像度を得る方法は補間です。下の方に書いてあると思います。interpolateを検索してみましょう。
ここにあります。これがマルチスケールVQ-VAEを得る方法です。補間していることが分かります。解像度Kでの解像度マップRKから、より小さいものを得るために補間を使用します。理解できましたか?
可能な限り少ない新しいことを導入することで、何が改善をもたらしているかがより明確になります。確かに、良い結果を得ても700の異なるトリックを使用している論文は、それほど良い論文とは言えません。
多くの異なるトリックの蓄積によって良い結果を得ているだけだからです。しかしここでは、トリックを取り除き、より単純な事前分布を導入することで、より良い結果を得ています。
タンパク質モデルとの類似点を考えると、エンコーダーは幾何学的不変性による回転と対称性に対して不変です。その通りです。私たちはいくつかの生物学の論文を見てきました。
タンパク質やアミノ酸を扱う時、同様の状況があります。誰もがトランスフォーマーを使用したがり、そのためにデータを1次元シーケンスに変換する方法を見つける必要があります。
3次元オブジェクトであれ、2次元画像であれ、タンパク質やグラフであれ、すべての人が自分のデータを1次元シーケンスに変換する特別な魔法のような方法を見つけました。
残念ながら、それらの独立した魔法のような方法のほとんどが、少し間違っています。直感的に、このような左から右、上から下のものと同じように、少し疑わしいものです。正しくないように感じます。
タンパク質やアミノ酸の場合、アミノ酸配列は1次元シーケンスなので少し疑わしさは少ないかもしれません。しかし、科学の他の分野で、人々が物事を1次元シーケンスに平坦化してアテンション機構に供給している場合、その平坦化プロセスは改善できる可能性があります。
おそらく、これと同じような論文が書かれる可能性があります。まったく同じマルチスケールの考え方ではないかもしれませんが、同様のものです。基本的な構成要素に立ち返り、この特定のデータモダリティに対して、この単純な平坦化よりも良い事前分布は何かを考えるのです。
画像の場合、事前分布は非常に明らかにマルチスケール階層です。ストリームの始めで述べたように、マルチスケル階層という直感は、文字通り私たちの脳とニューロンの働き方から来ています。
その直感は畳み込みニューラルネットワークでもうまく機能したので、画像のような自己回帰タスクをより良く定式化する方法を考える際に、同じ直感を使用することは理にかなっています。
これらのマップの各自己回帰ユニットでは、HK×WKを持ちます。各解像度でこのKを選ぶ必要があります。最初のものは1×1ですが、2つ目は2×2になり、というように続きます。
ここに20倍速い推論速度をもたらす魔法があります。この20倍速い推論速度はどこから来たのでしょうか?HK×W×WKトークンのRKにおけるすべての分布は、RKのプレフィックスを条件として並列に生成され、K位置埋め込みマップと関連付けられます。
推論時にはKBキャッシングを使用できます。マップは必要ありません。ブロック単位の因果アテンションマスクですが、この並列処理が、これを魔法のように機能させる部分です。
畳み込みニューラルネットワークと同じように、オリジナルのImageNet畳み込みニューラルネットワークがImageNetでとてもよく機能したのは、GPUで並列処理できたからです。
GPUでは「これらを独立に行う必要はない、これはこれに依存していないので、すべてを並列に行える」と言えます。このように、数百万の画像をこのConvNetにGPUで供給し、良い結果を得ることができました。
宇宙には奇妙な関係があり、空間的な階層やマルチ解像度は本質的にGPUで並列化できるものです。ConvNetがGPUで並列化できて魔法のように機能したのと同じように、このマルチスケル階層を行う自己回帰定式化も、同じ基本的な帰納的事前分布により、同じことができます。
これはここではできません。この種の平坦化の問題は、9番を予測するまでに8番を待つ必要があり、8番を予測するまでに7番を待つ必要があり、6番を予測するまでに5番を待つ必要があり、5番を予測するまでというように続くことです。
GPUでは、9番を得るまで待っているため、これを実行できません。10番を得るために9番を待つ必要があります。1次元の平坦化により、前のものが終わるのを待つという自己回帰的な監獄に閉じ込められます。
しかしここでの方法では、マルチ解像度を使用しているため、各解像度全体を同時に実行できます。ConvNetで層全体を同時に実行できるのと同じように、その一部が他の部分に依存していないからです。
これが考える必要がある核心部分だと思います。実装の詳細に戻りましょう。標準的なデコーダーのみのトランスフォーマー、GPT-2を使用します。クラス埋め込みをスタートトークンとして使用します。
クエリとキーを単位ベクトルに正規化するのも標準的です。RoPEは使用しません。正直に言うと、RoPEは好きではありません。
回転位置埋め込みは格好良く聞こえますが、掘り下げてみると700のハイパーパラメータがあります。20の異なるハイパーパラメータをすべて箱の中に入れて振り、なんとなく魔法のような位置埋め込みベクトルが得られるというのは好きではありません。
この方法の方が良いと思います。位置埋め込みは必要なく、アーキテクチャ自体が、トークン間の関係性を誘導します。位置埋め込みに依存して、画像のどの部分からこのトークンが来たのかを教える必要はありません。
実際のものに組み込んで、同じ効果を得るためにこれらの回転位置埋め込みを後付けするのではありません。
経験的結果の一部を見ていきましょう。最後の証明に入る前に、ここの証明は論文の面白い部分の1つだからです。証明では、時間複雑度がO(n⁴)であり、ラスタースキャン順序の場合のO(n⁶)と比較されています。
これがスケーリング則の話につながります。スケーリング則、スケーリング則と言いますが、何を意味しているのでしょうか。これがより効率的で、拡散トランスフォーマーよりも画像生成にスケーラブルなモデルだと言っているのです。なぜなら、ここで行う大きさの表記法の証明により、O(n⁶)と比較してO(n⁴)だからです。
拡散トランスフォーマーと比較してGAN、拡散モデル、標準的なラスタースキャンを持つ自己回帰モデル、そして視覚的自己回帰であるこのモデルを比較した大きな表があります。FIDスコアを見ると、2.3、2.28、3.8、1.73です。インセプションスコアは265、316、323、350です。
そして、ここにもう一つ重要な部分である時間があります。この拡散モデルを見ると、7Bサイズで45秒、2Bサイズで1秒、はるかに低いFIDとなっています。
これらの結果は良好です。VORは最高のFIDとインセプションスコアを達成しただけでなく、画像生成における顕著な速度も示しています。従来の自己回帰モデルは、画像トークン数が画像解像度の二乗になるため、高い計算コストに悩まされています。
n²トークンの完全な自己回帰生成には、O(n²)のデコーディング反復とO(n⁶)の総計算量が必要です。このn⁶は絶対に厳しいです。nに9を代入すると、それを二乗することになるので、9⁶と9⁴を比較すると、9⁶の方がはるかに大きな数になります。
Vは対数nの反復のみを必要とし、最終的にO(n⁴)になります。ビジョントランスフォーマーと比べて約20倍高速であるという経験的証拠を提供します。
Vはおそらく画像生成のためのより効率的でスケーラブルなモデルです。Vトランスフォーマーサイズnに関するスケーリング則、これは標準的なものです。モデルパラメータ対テスト損失のグラフで、モデルサイズを大きくすると損失が減少します。
これがスケーリング則です。基本的に、このパラメータ数のモデルを訓練すれば、このテスト損失、つまりこの程度の性能が得られることを教えてくれます。テスト損失が低いほど、基本的により知的である、あるいはより良いということです。
これが予測可能であれば、段階的に行う必要はありません。ここまで到達できるGPUクラスターを設計し、そこに到達することを期待できます。
自己回帰大規模言語モデルのスケールアップは、テスト損失の予測可能な減少をもたらします。Xはパラメータ数Nまたはモデルサイズ、訓練トークン数またはデータセットサイズ、最適訓練計算量のいずれかです。これはデータをどれだけ多くのバッチで供給するかです。
これらのいずれかを増やすと、一般的により良いパフォーマンスが得られます。パラメータ数を同じに保ってデータセットサイズを増やすと、より良いモデルが得られます。パラメータ数とデータセットを同じに保って、より長く訓練すると、より良いモデルが得られます。
したがって、これら3つすべてに関するスケーリング則があります。12の異なるサイズにわたって、最適訓練計算量がこの法則に従うことが分かります。赤の点線がこれです。異なるサイズが見えます。
0.99に近いピアソン係数は、対数CMINと対数L、または対数CMINと対数誤差テスト損失トークン誤差率の間に強い線形関係があることを示しています。
十分なデータで訓練された場合、これらの関係は6桁の範囲で成り立ちます。より大きなVトランスフォーマーはより計算効率的です。なぜなら、同じレベルの性能により少ない計算で到達できるからです。
したがって、これは単にシンプルな概念で、より満足のいく直感的な概念であるだけでなく、このラスタースキャンよりも高速でより良いパフォーマンスを示します。2025年にこれを使用しないのは愚かであり、おそらく今でもすでに使用されていることでしょう。
いくつかの制限と将来の展望があります。VQ-VAEトークナイザーを改良することは、自己回帰生成モデルを強化する別の有望な方法だと期待しています。トークン化に関してまだ多くのトリックができます。
この階層的マルチスケール自己回帰パターンを超えて。テキストから画像への生成は現在行っていませんが、それができます。現在は高優先度で探求中です。これを3Dにも適用できます。
3Dピラミッドのようなマルチスケール動画を考えると、Vによって動画を生成するために同様の3D次のスケール予測を定式化できます。SoraのFような拡散ベースの生成器と比較して、我々の方法は時間的一貫性に固有の利点があります。
これが時間的なヒントです。皆さんの一人も言及していたように、これには様々な方向性があります。トークン化の部分を改善できるかもしれません。そこには作業の余地があります。
しかし、別の方向性として、これの応用に取り組むこともできます。この論文は単にImageNetという小さなおもちゃのベンチマークで示しているだけです。では、これを実際にテキストから画像への生成、テキストから動画への生成、画像の修復、画像の拡張など、これらの異なるタスクに適用できるでしょうか?
そして、第三の方向性は、皆さんが興奮していた方向性です。これを異なるモダリティに適用できるでしょうか?現在、非常に不満足な方法で1次元シーケンスに平坦化している他のタイプのデータモダリティにも適用できるでしょうか?
論文ではすぐに3Dを思いつきましたが、皆さんの中には時間を考えた人もいれば、タンパク質やグラフ、異なるデータ構造を考えた人もいました。これらも同様に平坦化の再考から恩恵を受けるかもしれません。
なぜこれがベストペーパーを獲得したのでしょうか?強力な結果、有望な次のステップ、よく書かれた論文、良い図表です。強力な結果と有望な次のステップは、ある意味で運だと言えるかもしれません。
K・ションさんがインターンシップをしている時、李威王教授から何つかのアイデアをもらい、その中からランダムに1つを選んだと考えてみましょう。500IQの天才だからこのアイデアを選んだわけではないでしょう。
正しいアイデアを選ぶことは、多くの場合運だと考えています。次のステップはそのアイデアから自然に導かれます。これはある意味で運に基づいています。
しかし、よく書かれた論文と良い図表は技術に基づいています。アイデアを選んでそれがうまく機能しなくても、非常によく書かれた論文と良い図表があれば、それでも良い論文になります。
しかし、ベストペーパーを獲得するには、両方が必要です。運と技術の両方が必要です。良い論文を書き、良い図表を作る必要があります。この図は素晴らしいですね。
しかし、運も必要です。これが現在の機械学習会議の現実です。非常に競争が激しいため、アイデアの運に当たる必要があり、選んだアイデアが魔法のようにうまく機能する必要があります。
これがここで起こったことです。このようにやってみたらどうかと考え、それが魔法のようにうまく機能し、以前よりもはるかに単純だったのです。しかし、事前にそれを知ることはできませんでした。
これを試みて、うまくいかなかった可能性もあり、誰もこの人のことを覚えていない可能性もありました。しかし、そういうものなのです。
ヤン・ルクンはこの賞を見て脳卒中を起こしたのではないでしょうか。彼は畳み込みニューラルネットワークの非常に初期の段階にいましたが、オリジナルの畳み込みニューラルネットワークの人ではないと思います。
しかし、彼は一生この種の事前分布を理解してきました。ヤン・ルクンは、異なる解像度があり、解像度の階層があり、低解像度では少し大きな受容野が高解像度での小さな受容野に対応するという、この空間的な関係性を非常によく理解しています。
彼にとって、誰かが出てきて基本的にそれを再作成したり、まったく同じ事前分布を少し異なる方法で再導出したりするのは、非常にシンプルなアイデアのように感じられたはずです。
おそらく彼の学生の誰かがこれを行って良い結果を得なかったことに腹を立てているのでしょう。彼の論文にはすでにこの事前分布が含まれているからです。
コンピュータービジョンの分野の誰もが、このマルチスケール解像度のように考えています。しかし、この人がすべてを正しい順序で配置することに成功したのです。
テキスト生成の例について...皆さんは他のことについて話しているかもしれませんね。
LLMが道の終わりではないというルクンの意見は正しいかもしれません...道の終わりとは何を意味するのでしょうか?
トランスフォーマーアーキテクチャと言語モデル、現在我々が行っているすべてのことは、AGIとASIに到達するには十分すぎるほどだと思います。
このデモをプレイしていましたが、これは良い導入になりました。このデモは文字通り無料です。これは世界全体を変えるでしょう。
これは、すべての市場、すべての国、すべての人々、コンピューターとの相互作用の方法を実質的に変えるのに十分です。世界に根本的な変化をもたらすために、ARモデルアーキテクチャスペースや深層学習一般における新しいイノベーションは必要ありません。
我々はすでにそこにいます。私にとって、ヤン・ルクンは少し...変化を見るためにもう100倍の改善が必要だと考えているようです。しかし私にとっては、変化は現在我々が持っているものだけでも起こるでしょう。
世界が完全に変わるところまで到達するのに十分です。そこで重要なのは、ある時点で人間がもはや進歩を推進しなくなるということです。
ルクンが持っているこの考え、いくつかの欠けているピースがあるという考えは...人間がそれらの欠けているピースを発見することはないでしょう。LLMがそれを発見するでしょう。
01 Proのようなものが何らかのエージェントループで実行され、これのようなものを発見し、それがASIをもたらすということは、ルクンにとってどれだけ不満足なことでしょう。しかし、我々はVRメタバースの中でビデオゲームをプレイすることに忙しすぎて気にもとめないでしょう。
意味が通じたかどうか分かりませんが...蚊はASIかAGIでしょうか?どちらでもないと思います。意識はありますが、一般的と見なされるために必要な問題をどれだけ解決する必要があるのでしょうか?
AGIは人工一般知能で、重要な言葉は一般性です。基本的にどれだけ多くの異なるタスクを実行できるかということです。人工超知能は、超知能であることを意味します。つまり、非常に強力であることを意味します。
ASIであってもAGIでない可能性があります。DeepMindの囲碁AIを考えてみましょう。囲碁において人間よりもはるかに優れているという意味で超知能ですが、一般知能ではありません。
「スマーフは青いですか?」や「エッフェル塔はパリにありますか?」といったランダムな質問をすることさえできません。囲碁AIにそのような質問を定式化することすらできません。
私にとって、AGIはすでに起こりました。AGIはChatGPTでした。ChatGPTに医学的な質問をし、詩を作り、そして...それは一般性の定義を満たすのに十分な異なるタイプのタスクです。
しかし、人々が本当に期待しているのは、一般的でもある超知能のようなものだと思います。そしてそれに非常に近づいていると思います。このような01 Proのようなものは、一般的で超知能的です。01 Proより数学が得意な人は、おそらく全人類の1%だけでしょう。01 Proより化学が得意な人もおそらく1%未満です。01 Proより詩が得意な人も1%未満でしょう。
基本的にあらゆるタスクで人間を凌駕し始めているのです。これが人々がAGIと定義しているものだと思います。しかし、非常に具体的に言えば、私にとってAGIはChatGPTで達成されました。
「すべてで人間を凌駕するまでゴールポストを動かし続ける」というのはその通りです。蚊は蚊を作ることができます。あなたは蚊を作ることができますか?では、どのくらい考えるか見てみましょう。蚊の作り方...
ここに行きましょう。なぜなら、これはかなりクールだと思ったからです。これは論文の最後の証明です。基本的に、時間複雑度がO(n⁶)ではなくO(n⁴)であると言っているのです。
トークンの依存関係を、VQ-GANエンコーダーの最後の自己注意層のアテンションスコアの正規化されたヒートマップでプロットしています。蚊の絵を描きましたが、ここに戻りましょう。
これはクールだと思います。なぜなら、このレイヤーでは最初、これにはまったく注目していないことを示しているからです。非常にローカライズされた、何らかの対角的なパターンがあります。なぜそうなるのかはわかりませんが、ここでは注目していて、ここでは注目していないことがわかります。
そして上層に行くにつれて、全体に注目し始めます。これは畳み込みニューラルネットワーク内でさえ、非常に似ています。階層を上がるにつれて、それらの層の各ニューロンは、画像全体の受容野を持つ概念を表現しています。
特に最上層に到達すると、上部のニューロンは事実上画像のすべての部分を表現していますが、より高い意味的なレベルでです。一方、下層に行くと、より空間的に制限された概念、この角の一部や上部の一部だけを表現しています。
「AGIから1000のイノベーションが必要」とは思いません...AIスタジオ.google.comを試してみるべきです。ストリームリアルタイムを押し、画面を共有し、これを開きます。アプリケーションのオーディオキャプチャをオンにします。皆さんは私の声を2回聞くかもしれません。
画面を共有し、これを開きます。この時間複雑度の証明を理解するのを手伝ってくれますか?計算複雑度、時間複雑度をオンにします...
申し訳ありません。もう一度試してみましょう。ハードリフレッシュして、画面を共有します。式17のこの証明を理解するのを手伝ってくれますか?自己回帰生成の時間複雑度について...
もう一度試してみましょう。証明を理解するのを手伝ってくれますか?なぜ私を無視するのでしょうか...もう一度試してみますが、うまくいかなければ...なんてこった、Google...
この証明を理解するのを手伝ってくれますか?何か間違いが起きました...ストリーミングしているからかもしれません。または、私が何度も更新したので、ページを4回更新したボットだと思われているのかもしれません。
しかし、うまく機能していて、これをある程度理解していました。GPT-01 Proモードにスクリーンショットを与えましたが、これもかなり良かったです。
これらは本当にクリーンで、ほとんどより良い直感を得始めています。要するに、O(n⁶)は基本的なO(L²)を変更することから来ているのではありません。
これは通常、トランスフォーマーやMamba論文など、トランスフォーマーについて話すあらゆる論文で見られます。このL²注意複雑度のためです。
これは、n²の連続的な自己回帰ステップにその二次複雑度を適用することから来ています。各ステップは徐々に増加するシーケンス長を持ち、最終的にn²トークンになります。
O(n⁶)が来る場所は以下の通りです。最初のトークンでは、前の概念がないので複雑度は無視できます。このラスタースキャンの平坦化順序を使用している場合、この最初のトークンの複雑度は01です。
2番目のトークンに到達すると、1と1、1と2、2と2、1と2と2の間の注意マップを作る必要があります。つまり、全体の二乗です。それがO(2²)です。
3に到達すると、O(3²)になります。以降同様です。最後のトークンまで、O(i²)です。これらをすべて足し合わせると、トークンiからn²まで合計します。nはここでトークンの数なので、画像のサイズは実質的にnです。
このような複雑度計算をする時、すべてを丸めます。高さが幅より少し大きいとか言うのではなく、高さと幅は同じで、画像のサイズを定義する数nがあるとします。
実質的にそこのピクセル数です。これらをすべて足し合わせると、実際にこの二乗和の公式を使用して、この総和をここの表現に変換できます。これをすべて展開すると、支配的な項はn⁶になります。
Vの場合、まずこの解像度シーケンスを定義する必要があります。これは私が話していたハイパーパラメータです。最初の解像度のH×W、2番目の解像度のH×W、3番目の解像度のH×Wがあるのではなく、これらのすべてを得ることができるこのハイパーパーメータaを定式化します。
12の異なるハイパーパラメータを、このメタハイパーパラメータ1つに減らします。そこからこれらの他のハイパーパラメータを導出できます。
これをここに代入します。これは同じi²、N²です。これはKまで行きます。Kの解像度マップがあるからです。N²の総トークン数ではなく。そしてこれを見てください。ハイパーパラメータをこの特定の方法で定式化することで、幾何級数を得ます。
これは幾何級数なので、この定式化をここで得ることができ、次にここで得て、そこで得ることができます。
私はスーパーマシーな数学者ではありません。レベル1の数学者だと言えます。この人は間違いなくレベル4かレベル5の数学者です。これらの多くのハイパーパラメータからこれへ、そしてこれからこれへのジャンプには、知識が必要です。
これを見て、明らかにこれはこれで、明らかにこれはこれで、明らかにこれはこれだと分かる必要があります。これは、初項aR、公比R、項数Kの幾何級数の和です。これをどうやって頭の中で思いついたのでしょうか。
すべての自己回帰生成を合計し、これらすべてを一緒に入れると、支配的な項はここでn⁴になります。
したがって、標準的な自己回帰のラスタースキャンパターンではO(n⁶)、VではO(n⁴)となり、これが20倍速い理由です。複雑すぎますか?試してみましょうか...
同じ語彙をすべての解像度で持つのは直感的ではありませんね。私も少し変に感じました。異なる解像度に対して異なるコードブックを持つと思っていましたが、ここには私が完全には理解していない魔法があります。
それは全く問題ありません。何度も言っていますが、時にはこれらのことを直感的に理解することはできません。あなたは本当に、大型動物を狩り、20人程度の他の無毛の類人猿とともに小さなコミュニティで生きることを意図された無毛の類人猿なのです。
多次元テンソルとベクトルがどのように相互作用するか、なぜある方法で機能し、別の方法では機能しないのかという、これらの非常に不可解な概念を理解できることは、本当に意味をなすのでしょうか?
時には、なぜものごとがこのように機能し、別の方法では機能しないのかを必ずしも完全に理解できないことを、完全に受け入れる必要があります。解像度スケール全体でコンテキストが拡張されているからですか?
そう思います。私の直感では、同じ概念の異なるレベルを持つことができるからです。オウムという語彙の単語がありますが、その同じオウムのより細かい解像度バージョンであるオウムのくちばしという語彙もあります。
しかし、オウムのくちばしの語彙の単語は...分かりません。これを説明しようとしていますが、なぜ共有コードブックが別々のコードブックよりも良いのか、本当には理解していません。
増加するピクセル数のように考えてください。R4のトークンをすべて一度に予測するのはどうすればよいですか?前のトークンに基づいて、それとも1つずつトークンを予測するのですか?
いいえ、それができる理由は、2D空間のトークンに依存しているのではなく、この階層的な空間のトークンに依存しているからです。
この標準的な平坦化された1次元の場合、トークン番号6を自己回帰的に予測するにはトークン番号5が必要です。しかしこの階層的な空間では、自己回帰を行っていても、このR4の部分を予測するために、このR4の部分は必要ありません。
R1、R2、R3だけが必要です。R4のこの部分を予測するためにR4のこの部分が必要で、R4のこの部分を予測するためにR4のこの部分が必要、というようにする必要はありません。
基本的に、R4のすべての部分を並列に実行できます。なぜなら、それらはすべてR1、R2、R3にのみ依存し、R4の他の部分には依存していないからです。
コードブックを視覚的に見てみたいですね。画像の層を見るように、対角線のトークンなど。そうですね、おそらくそれができるでしょう。コードブックの各単語を取り、顕著性マップを使用したり、説明可能性のアイデアを使用したりして、ベクトルを逆向きに進め、何が活性化しているかを見ることができます。
そうすることで、この語彙の各小さなトークンが実際に何を表現しているのかについて、少し機械的な解釈が得られるかもしれません。しかし、以前と同じような奇妙なモーフィーな見た目のものが出てくるだけで、理解するのが難しいと思います。
バニラVQ-VAEアーキテクチャを使用します。これはフレックスだと思います。ここでは何も fancy なことはしていません。GPT-2アーキテクチャを使用しています。トークナイザーはOpen Imagesで訓練されています。
これは非常に簡単です。なぜなら自己教師ありのタスクだからです。画像自体がターゲットだからです。標準的なデコーダーのみのトランスフォーマー、GPT-2用のアーキテクチャです。クラス埋め込みをスタートトークンとして使用します。
人間の入力を待っています。クエリとキーを単位ベクトルに正規化します。RoPEのような高度なテクニックは使用しません。RoPEは個人的に好きではありません。正直に言うと、回転位置埋め込みは格好良く聞こえますが、掘り下げてみると700のハイパーパラメータがあり、20の異なるパラメータを箱に入れて振って、なんとなく魔法のような位置埋め込みベクトルが得られるというのは好きではありません。
この方法の方が良いと思います。位置埋め込みは必要なく、アーキテクチャ自体がトークン間の関係を誘導するのです。このトークンが画像のどこから来たのかを教えるために位置埋め込みに依存する必要はありません。実際のものに組み込んで、同じ効果を得るために回転位置埋め込みを後付けするのではないのです。
経験的結果を見ていきましょう。最後の証明に入る前に、ここの証明は論文の面白い部分の1つです。証明では、時間複雑度がO(n⁶)に比べてO(n⁴)であると言っています。
これがスケーリング則の話につながります。スケーリング則、スケーリング則と言いますが、何を意味しているのでしょうか。基本的に、ここで行う大きさの表記法の証明により、これが拡散トランスフォーマーよりも効率的でスケーラブルな画像生成モデルだと言っているのです。O(n⁶)と比較してO(n⁴)だからです。
比較の大きな表があります。拡散トランスフォーマーと比較してGAN、拡散モデル、標準的な自己回帰モデル、そして視覚的自己回帰モデルを比較しています。FIDスコアを見ると、2.3、2.28、3.8、1.73です。インセプションスコアは265、316、323、350です。
そして、ここに重要な時間の部分があります。この拡散モデルを見ると、7Bサイズで45秒、2Bサイズで1秒、はるかに低いFIDとなっています。
これらの結果は良好です。VORは最高のFIDとインセプションスコアを達成しただけでなく、画像生成における顕著な速度も示しています。従来の自己回帰モデルは、画像トークン数が画像解像度の二乗になるため、高い計算コストに悩まされています。
n²トークンの完全な自己回帰生成には、O(n²)のデコーディング反復とO(n⁶)の総計算量が必要です。このn⁶は絶対に厳しいです。これは、画像サイズnを9とすると、その6乗となり、O(n⁴)のモデルの9⁴と比べて、9⁶ははるかに大きな数になります。
Vは対数nの反復のみを必要とし、最終的にO(n⁴)になります。ビジョントランスフォーマーと比べて約20倍高速であるという経験的証拠を提供しています。
これは画像生成のためのより効率的でスケーラブルなモデルの可能性があります。Vトランスフォーマーサイズnに関するスケーリング則を見ると、これは標準的なものです。モデルパラメータ対テスト損失のグラフで、モデルサイズを大きくすると損失が減少します。
これがスケーリング則です。基本的に、このパラメータ数のモデルを訓練すれば、このテスト損失、つまりこの程度の性能が得られることを教えてくれます。テスト損失が低いほど、基本的により知的である、あるいはより良いということです。
これが予測可能であれば、段階的に行う必要はありません。ここまで到達できるGPUクラスターを設計し、そこに到達することを期待できます。
自己回帰大規模言語モデルのスケールアップは、テスト損失の予測可能な減少をもたらします。これは、パラメータ数N、訓練トークン数、あるいは最適訓練計算量のいずれかを増やすことで達成されます。これは、データをどれだけ多くのバッチで供給するかを示しています。
これらの要素のいずれかを増やすと、一般的により良いパフォーマンスが得られます。パラメータ数を同じに保ってデータセットサイズを増やすと、より良いモデルが得られます。パラメータ数とデータセットを同じに保って、より長く訓練すると、より良いモデルが得られます。
したがって、これら3つすべてに関するスケーリング則があります。12の異なるサイズにわたって、最適訓練計算量がこの法則に従うことが分かります。赤の点線で示されています。
0.99に近いピアソン係数は、対数CMINと対数L、または対数CMINと対数誤差テスト損失トークン誤差率の間に強い線形関係があることを示しています。
十分なデータで訓練された場合、これらの関係は6桁の範囲で成り立ちます。より大きなVトランスフォーマーはより計算効率的です。なぜなら、同じレベルの性能により少ない計算で到達できるからです。
したがって、これは単にシンプルな概念で、より満足のいく直感的な概念であるだけでなく、このラスタースキャンよりも高速でより良いパフォーマンスを示します。2025年にこれを使用しないのは愚かであり、おそらく今でもすでに使用されていることでしょう。