はじめに
大規模言語モデル(LLM)にファインチューニングで新たな知識を入れられないか、検討しています。
そろそろ論文を書くモードに入ってきたので、preprintなどを読みながら、周辺状況を整理中です。
本記事は、その一環の勉強メモです。
最近気になっているのは、「知識は全結合層に蓄積されている」という仮説です。この点について、調べていきます。
(参考)
今週、ファインチューニング関連でPFNのインターン記事が公開されていました。丁寧に解説されており、非常に参考になります。
「知識は全結合層に蓄積されている」という仮説
背景
これが本当なのか、調べる必要があります。
プレプリントの中身
こちらの記事によると、出典(?)は以下のプレプリントのようです。これを読んでいきます。
google上では130回以上、引用されているので、それなりに定評のあるpreprintと言えます。
Claude 2に読んでもらう
まずは、昨日くらいから話題のClaude 2にpdfを丸投げして、Q&Aに回答してもらいます。
少し原文を読む
原文も流し読みしました。
要するに、全結合層を色々と制御・分析しながら、様々なタスクを解く感じの研究のようです。
以下、ConclusionをGPT-4で日訳した文章です。
まとめ
「知識は全結合層に蓄積される」という表現は、ややラジカルで、
少なくともこの論文では「全結合層は知識獲得において重要」という程度
の、もう少しマイルドな主張をしているように見受けられました。
備考
・他の論文についても調査が必要そうです
・BERTと最近の大規模言語モデルの違いについても、考慮する必要はありそうです。
参考: 2つ目の論文
上記の論文において、feed-forward層の前提情報(key, valueとして機能する)として引用されていたプレプリント(Geva et al., 2020)についても読んでみました。
Claude2に読ませて質問しました。
こちらの論文は、知識云々と言うよりは、transformer内部の動作について調べた研究のようです。
DiscussionとConclusionをGPT-4で日訳しました。