LLMニュースまとめ[2024年10月27日~11月2日]

2024年11月21日 23:39

2024年10月27日~11月2日のLLM関連のニュースとして有名なもの、個人的に刺さったもの9点を以下にまとめる。

1. ROCKET-1

オープンワールド環境でのインタラクションを向上させるために、Visionモデルと言語のモデルを活用したROCKET-1という手法を提案。
言語を使ったタスクを指示だけでなく、過去の視覚情報から得られたオブジェクトのセグメンテーションを利用し、どのオブジェクトとどの取り扱うかかを指示するvisual-temporal context promptingを提案。

2. GPT-4o System Card

OpenAIのGPT-4oシステムカードには、GPT-4oモデルの安全性評価とリスク軽減策を詳細に記述されている。サイバーセキュリティ、生物学的脅威、説得力、モデルの自律性の各カテゴリで「低」から「中」のリスク評価を受けており、特に説得力のカテゴリでは「中」の評価を受けているため、生成されたコンテンツの影響力に注意が必要である。

3. Survey of SLM

Small Language Modelsのサーベイ。

アーキテクチャ
- パラメータを削減しつつ効率を最適化する手法(ex. TinyBERT)
- 知識蒸留を利用した手法(ex.BabyLLaMA)
- 効率的なAttention(ex.Reformer)
- NAS(ex. MoblieLLM)
トレーニング
- 混合精度トレーニング（ex.BFLOAT16）
- 分散トレーニング(Zero)
- PEFT
- データ拡張(ex. AugGPT)
モデル圧縮
- ブルーニング
- 量子化

4. CLEAR

「機械的忘却（Machine Unlearning）」用のベンチマーク「CLEAR」を提案。CLEARは200人の架空の個人と3,700枚の画像を含んでいる。
10種類の忘却手法を評価した結果、単純なL1正則化がモデルの性能を維持しつつ、忘却の質を改善することを示した。

5. OpenWebVoyager

マルチモーダルなウェブエージェントを構築するOpenWebVoyagerを提案。
エージェントは「模倣学習」という手法を用いて基本的なウェブナビゲーションのスキルを学んだ後に、探索-フィードバック-最適化サイクルを経て、Webのタスク成功率を向上させた。フィードバックはGPT-4oが提供。

6. Task Vectors are Cross-Modal

VisionモデルとLanguageモデルがタスクをどのように内部表現としてエンコードするかを調査し、異なるモダリティや仕様においても類似のタスクベクトルが生成されることを示した。またどちらのモデルでも、入力フェーズ、タスクフェーズ、出力フェーズの順に内部で処理されていることがわかった。

7. LLM Memory in Logical Reasoning

LLMが論理的推論タスクにおいてどの程度記憶に依存しているかを調査。モデルは訓練データに含まれる論理的推論タスクは完璧に正答するが、一部変更を加えられると誤答してしまうことから、記憶に依存している部分があることが判明。ただし訓練データが増える（記憶が増える）につれて、一般化能力も向上することが観察された。つまり、モデルは記憶と推論能力の間に複雑な相互作用があることを示している。

8. Fast vs Slow Thinking

遅い思考（詳細な思考過程, Detailed CoT）では、層間の勾配が安定し、正しい応答と無関係な応答を区別するのに役立つことが示された。

9. Self-Lengthen

LLMの長文生成のためのフレームワーク「Self-Lengthen」を提案。Self-Lengthenは、生成器と拡張器の二つの役割を持ち、生成器が初期応答を生成し、拡張器がそれを分割して拡張することで、モデルが長い応答を生成できるように訓練される。