Flux.1の位置エンコーディング
Flux.1はいろんな解像度に対応していたので、調べてみました。
Rotary Positional Embeddings (RoPE) Flux.1ではRoPEという最近のLLMでもよく使われている手法を使っています。RoPEでは、attention中にquery, keyを位置に応じて回転します。位置が近いと同じように回転するので内積は変わりませんが、位置が遠いと回転方向がばらばらになって、内積が小さくなります。そのため近い位置のトークンにより注意を引くようになります