見出し画像

トランスフォーマーの論文を読む⑥多頭

前回に引き続き、今回も論文を読みながらアテンションの仕組みを解説します。特に、Multi-Head Attention(マルチヘッド・アテンション、多頭アテンション)にフォーカスします。

多頭アテンションは、前回解説した「スケールされた内積アテンション」を複数使うことで、トークン間の様々な関係性に基づいたアテンションの処理を行います。

この辺りまで読み進めると、クエリ、キー、バリューに関して、その意味がより明確になってきます。


ここから先は

11,611字 / 14画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらチップで応援してみませんか?