
【論文瞬読】層を超える特徴の流れ:大規模言語モデル解釈と操作の新手法
こんにちは!株式会社AI Nestです。
今回は「Analyze Feature Flow to Enhance Interpretation and Steering in Language Models」という論文を取り上げ、大規模言語モデル(LLM)の内部でどのように特徴が生成・伝播し、さらにその情報を利用してモデル出力を直接操作する新たなアプローチについて詳しく解説します。
この研究は、従来の単一層解析に代わり、複数層にわたる特徴の流れ(フロー)を追跡し、内部回路のような因果構造を明らかにすることで、モデルの解釈性と制御性を飛躍的に向上させる点が注目されます。
タイトル:Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
URL:[アーカイブの概要へのリンク]
所属:1T-Tech, Moscow Institute of Physics and Technology
著者:Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov

SAEを用いて各層間で特徴をマッチングし、
流れグラフを構築するプロセスの全体像を示す
研究概要と既存手法の限界
従来の大規模言語モデルの解析手法は、主に1層または残差ストリームに依存しており、内部でどのように情報が伝達・変換されるのかという詳細な理解に限界がありました。
本論文では、以下のような問題点を指摘し、新たな解析手法を提案しています。
内部情報の不透明性:従来は、モデル内部の特徴がどのように生成され、層を超えて伝播するのか明確ではありませんでした。
単一層解析の限界:一層単位での解析では、特徴の進化過程や因果関係を捉えるのが困難であったため、より包括的な手法が求められていました。
モデル操作の難しさ:生成されたテキストのテーマや性質を意図的に制御する(steering)ための直接的な手法が不足していました。
これらの問題に対し、論文は**スパースオートエンコーダ(SAE)**を活用し、各層の特徴同士をコサイン類似度によりマッピングする新手法を導入。これにより、各層の特徴の起源や変換の過程が「流れグラフ」として可視化され、さらにそれを基にしてモデルの出力を精密に操作するための基盤が構築されました。
提案手法の詳細
特徴マッチングと流れグラフの構築
本研究の革新的な点は、各層においてSAEが抽出する解釈可能な特徴(feature)の埋め込みを、コサイン類似度により比較し、層間の対応付けを行うところにあります。具体的には、各層のSAEデコーダの各列ベクトル同士を比較し、最も類似度の高いペアを対応付けることで、特徴が前層からどのように引き継がれているのか、または新たに生成されたのかを判別します。
このプロセスにより、以下のような情報が明らかになります。
特徴の起源:例えば、Residualストリームからの直接の伝播か、MLPやAttentionモジュールで新たに生成されたかが判別可能。
因果関係の推定:ある層の特徴が前駆体の特徴に依存している場合、前駆体を介入することで後続の特徴も変化するという因果関係が示唆されます。

各層での特徴の生成・変換の様子を示し、
論文で提案されている手法の流れを視覚的に表現する
モデルの操作(Steering)の応用
提案手法のもう一つの大きな貢献は、流れグラフに基づいてモデルの内部特徴に対する介入(steering)が可能になる点です。具体的には、流れグラフからターゲットとなる特徴群を選び、その活性値を調整することで、生成されるテキストのテーマや内容を意図的に強調・抑制できます。
この操作は、以下のような実用的応用が考えられます。
有害コンテンツの抑制:特定の不適切なテーマに関連する特徴を減少させることで、モデルの出力を安全なものにする。
専門的な文書生成:特定の分野に関連する用語や概念を強調し、専門性の高い文書を生成する。
生成テキストの制御:ユーザーの意図に合わせたテーマ設定を可能にし、よりカスタマイズされた出力が得られる。
実験と評価
本論文では、Gemma 2 2BやLlama Scopeといった複数の言語モデルおよび、FineWeb、TinyStories、AutoMathText、PythonGithubCodeといった多様なデータセットを用いて実験が行われました。実験は大きく3つの観点から評価されています。
1. 特徴の起源解析
各層で活性化された特徴が、どのモジュール(Residual、MLP、Attention)から生成されたのかを解析しました。結果として、初期層では「From nowhere」や「From RES」といった分類が多く見られ、層が深くなるにつれて新たな特徴がMLPやAttentionを通じて生成される傾向が明らかになりました。

層ごとにどのモジュールからの特徴が多いかがわかる
2. デアクティベーション実験
ターゲット特徴の前駆体となる特徴を選び、その部分を介入により抑制する実験が行われました。実験結果から、コサイン類似度で最も類似度の高い前駆体(top1)が、ランダムに選んだ場合に比べてより効果的にターゲット特徴の活性を減少させることが示されました。
この実験により、特徴間の因果関係が実際に存在することが確認され、流れグラフがモデル内部の計算回路として機能していることが実証されました。

各手法間の効果の差が視覚的に示される
3. モデルステアリング実験
最後に、流れグラフを利用して実際に生成テキストのテーマを操作する実験が行われました。累積的な介入方法が、単一層への介入に比べて、より効果的にテキストのテーマを強調または抑制できることが確認されました。この結果は、モデル内部の特徴伝播を理解し、その情報を制御することの有用性を裏付けています。

テキストのテーマの強調度やコヒーレンスの変化が示される
議論と今後の展望
本研究の成果は、以下の点で今後の大規模言語モデルの開発に大きな示唆を与えます。
内部回路の解明:特徴の流れを追跡することで、モデル内部の情報伝達の因果関係や「回路構造」が明らかとなり、モデルの自己修復能力など、未知の内部メカニズムの理解につながります。
高度なモデル制御:流れグラフに基づいた介入は、モデル出力の細かい調整や、特定のテーマの抑制・強調を可能にします。これにより、安全性や専門性を高めた生成が期待できます。
今後の研究課題:本手法の適用範囲をさらに広げ、他のモデルアーキテクチャへの応用、及びより複雑な因果関係の解明に向けた研究が必要です。また、内部特徴の解釈精度を向上させるための新たな手法の開発も期待されます。
まとめ
本論文は、スパースオートエンコーダ(SAE)を活用した層間特徴のマッピング手法を提案し、モデル内部の因果関係や特徴の進化過程を「流れグラフ」として可視化することで、言語モデルの解釈性と操作性を大きく向上させる新たなアプローチを示しました。
この手法は、従来の単一層解析の限界を克服し、モデル操作(steering)の実用的な応用を実現する可能性を秘めています。
今後、さらなる研究と応用展開により、より透明性の高い、安全なAIシステムの実現が期待されます。