見出し画像

Multi-head Attentionの考え方

数式で理解しようとすると良くわからなくなるため,Multi-head Attentionの考え方をイラストにしてみた.

まずはSingle-head attentionについて,これはKeyとQueryの内積を計算することによって大域的な類似度を抽出している.次元数が高くなると,次元ごとの小さな特徴が無視されやすいという欠点をもつ.イラストにしてみると以下のようなものとなる.

画像1

一方,Multi-head attentionは(トークン,次元)のベクトルを次元ごとに切り取ることによりトークン間の類似度を考慮できるように改良したattentionである.次元ごとに切り取られた行列をheadと呼ぶ.これにより,single-head attentionの次元ごとの小さな特徴が無視されるという欠点を解消できると考えられている.

画像2

しかしながら,実際にこれを計算してみると同じ役割のheadが増えてしまうため,多様性を向上させる損失関数を加えて性能向上させる手法も提案されている[J. Li+, EMNLP2018] [P.Y. Huang+, EMNLP2019]

この記事が気に入ったらサポートをしてみませんか?