本当にアテンション層だけあればいいのか?:フィードフォワード層の重要性
お疲れ様です。
最近、ChatGPTをはじめとするLLM(大規模言語モデル)と日々対話を重ねる中で、LLMの根幹にあるTransformerアーキテクチャについて興味を持ち、少し調べてみました。
LLMは主にTransformerアーキテクチャのデコーダ部分を基にした構造を採用しており、アテンション層とフィードフォワード層を何層も積み重ねた構造となっています。
特にアテンション層の提案は非常に画期的であり、この技術によってLLMの分野は大きな進展を遂げました。
しかし、アテンション層の仕組みを詳しく確認すると、基本的に線形変換のみを行っていることがわかります。
一方で、非線形変換を行うのは主にフィードフォワード層のRelu関数です。
ニューラルネットワーク全般において、非線形変換がモデルの表現力を大幅に向上させる要素となっていることを考えると、アテンション層は確かに革新的な技術ではありますが、非線形変換を担うフィードフォワード層がなければ、ここまで汎用的かつ強力なモデルは実現できなかったのではないかと思います。
実際、モデル全体におけるパラメータ数を見ても、アテンション層よりもフィードフォワード層のほうが多いです(一般的にアテンション層のパラメータ数が20~30%に対してフィードフォワード層のパラメータ数は60~70%です)。
そのため、アテンション層に注目しがちですが、「フィードフォワード層があってこそのアテンション層である」という視点を持つことも大切だと感じました。
2017年に登場した「Attention is all you need (Attention さえあればいい)」というタイトルが、少し誤解を招く表現になっているなと思います。
最後までお読みいただき、ありがとうございました。
この記事が気に入ったらサポートをしてみませんか?