![見出し画像](https://assets.st-note.com/production/uploads/images/161442262/rectangle_large_type_2_fb5c963ae08e1bcbd6852f0ec73c82ec.png?width=1200)
LLMニュースまとめ[2024年10月20日~10月26日]
2024年10月20日~10月26日のLLM関連のニュースとして有名なもの、個人的に刺さったもの6点を以下にまとめる。
1. SPARE
LLMの知識選択(パラメトリックな知識かコンテキストか)を効率的に制御する方法であるSPARE(Sparse Auto-Encoder-based Representation Engineering)を提案。知識の矛盾検出して、パラメトリックな知識を抑制することで知識選択を正確に実施。
2. Knowledge Unlearning and Editing via Mechanistic Localization
モデルの内部で特定の知識を保持している部分を見つけ出し、その部分の重みを調整することで、知識の編集や忘却を行うMechanistic Localizationを提案。
3. Automatically Interpreting
SAEの潜在特徴に対する自然言語の説明を自動生成し、その質を評価するためのオープンソースのパイプラインを構築。
モデルの潜在機能を特定するためにDETECTION, FUZZING, SURPRISAL, EMBEDDING,INTERVENTION SCORINGの5つの手法を実施。
(特定の潜在機能(SAE latent)を活性化しているかどうかをシーケンス単位で検出するDETECTION、トークン単位で検出するFUZZING、活性部分が情報価値の観点からどれだけ意外かを表すSURPRISAL、クエリとドキュメント間の類似性を使用するEMBEDDING、特定の特徴に介入した際のモデルの出力への影響を評価するINTERVENTION SCORING)
![](https://assets.st-note.com/img/1731497482-IWfKi5UnhRVYoc6BEZmT1X8H.png)
4. HalluEditBench
知識編集が実際に幻覚を修正できるかを確認するためにHalluEditBenchを提案。以下の評価指標でモデルの知識編集を評価。
Efficacy: 修正後に幻覚がどれだけ正確に修正されたかを評価。
Generalization: 同じ知識の異なる質問に対して、編集した知識がどれだけ応答できるか。
Portability: 編集された知識が他の関連する質問にもどれだけ影響を及ぼすか。
Locality: 編集が無関係な知識に与える影響を評価。
Robustness: 編集された知識が外部からの影響(例えば「答えが間違っている」と言われた場合など)に対してどれだけ耐えられるか。
5. ShifTed Rotray position embeddING(STRING)
訓練中に学習した位置情報を利用して、推論時に効果的に情報を集めるShifTed Rotray position embeddING(STRING)を提案。STRINGによりロングコンテキストに対するLLM(ex. Llama3.1, Qwen2)の性能が向上。
6. Improve VLM CoT Reasoning
VLMのCoT推論を改善するための手法を提案。VLMのファインチューニングのために193,000のCoTデータセットを作成してファインチューニングを行い、DPOで強化学習。