
LLMの学習で調整するパラメータは、マルチヘッドアテンション層よりもフィードフォワード層の方が多い
お疲れ様です。
日々、ChatGPTをはじめとするLLMとの対話を繰り返しています。
先日参加したAIセミナーで知ったのですが、LLMモデルの重みの内訳を確認すると、マルチヘッドアテンションで調整すべき重みよりも、フィードフォワード層で調整すべき重みの方が多いそうです。
多くのLLMはTransformerアーキテクチャをベースとしており、その構造はマルチヘッドアテンション機構とフィードフォワード層を何層も積み重ねたものになっています。
LLMのアーキテクチャにもよりますが、一般的にはフィードフォワード層で調整すべきパラメータが全体の60~70%を占める一方で、マルチヘッドアテンション機構におけるパラメータは20~30%程度にとどまるそうです。
この理由は、ざっくりいうと、フィードフォワード層では各トークンの埋め込みベクトルの数倍に相当する隠れ層を挟む構造になっているため、調整すべきパラメータが多くなるからだそうです。
Transformerアーキテクチャでは、マルチヘッドアテンション機構の導入が画期的だったため、私自身も自然とその部分に多くのパラメータがあると思い込んでいたのですが、実際にはフィードフォワード層の方がパラメータ数が多いんですね。
Transformerアーキテクチャについて、また少し詳しくなれて嬉しく思います。
最後までお読みいただきありがとうございました。