トランスフォーマーの論文を読む⑥多頭
前回に引き続き、今回も論文を読みながらアテンションの仕組みを解説します。特に、Multi-Head Attention(マルチヘッド・アテンション、多頭アテンション)にフォーカスします。
多頭アテンションは、前回解説した「スケールされた内積アテンション」を複数使うことで、トークン間の様々な関係性に基づいたアテンションの処理を行います。
この辺りまで読み進めると、クエリ、キー、バリューに関して、その意味がより明確になってきます。
この記事が気に入ったらチップで応援してみませんか?