この記事では、トランスフォーマーのアテンションの仕組みの中心となる概念、クエリ(Query)・キー(Key)・バリュー(Value)を見ていきます。ようやく自己アテンションの解説に手が届きます。
では、さっそく始めましょう。
アテンションの概要
RNNのエンコーダ・デコーダでもアテンションの仕組みがありました。それはエンコーダから出力された隠れ状態(文脈)とデコーダ内の隠れ状態との関係を計算して、エンコーダからどの隠れ状態をより多く取り込むのかを計算する手法でした。また、計算としては、ニューラルネットワーク(関連論文)やベクトルの内積(関連論文)などを使います。