LLMニュースまとめ[2024年8月12日~8月18日]
2024年8月12日~8月18日のLLM関連のニュースとして有名なもの、個人的に刺さったもの12点を以下にまとめる。
1. The AI Scientist
AIエージェントが、独自の研究実施、研究結果整理、論文執筆を一貫して実施。
2. Grok-2
LMSYS Chatbot ArenaでClaude 3.5 SonnetとGPT-4-Turboを凌駕
3. LongWriter
20Kの単語以上の一貫した出力が可能なAgentWriteを提案。AgentWriteは長い生成タスクを複数のサブタスク(plan + write)に分解し、分割統治アプローチで生成する。DPOで学習。
4. EfficientRAG
RAGにおいて最初の質問に回答するのに十分な情報を収集するための手法。
チャンクにラベルとタグを付けるためのオートエンコーダLMを学習し、<Terminate>または<Continue>としてタグ付け。
フィルターモデルで、元のクエリとアノテーションに基づいて、ネクストホップのクエリーを形成。
上記より、全てのチャンクが<Terminate>としてタグ付けされるか、最大反復回数に達するまで繰り返し実行する。
5. RAGChecker
RAGの検索・生成モジュールの評価のための詳細な評価フレームワーク。
6. HybridRAG
GraphRAGとVectorRAGを組み合わせた手法
7. rStar
人間のような推論アクションを用いたモンテカルロ木探索による生成と、SLM(小規模言語モデル)の検証を組み合わせることで性能を改善。
https://arxiv.org/pdf/2408.06195
8. Scaling LLM Test-Time Compute Optimally
LLMにおける推論時間計算のスケーリング挙動の調査。
プロンプトごとに計算量最適化を行うことが有効。
9. MedGraphRAG
グラフ検索拡張生成(RAG)による医療分野のLLMのパフォーマンス向上のためのAIフレームワーク。
MedGraphRAGは標準的な手法よりも文脈を記録する。単に文書を固定サイズのセクションや断片に分割するのではなく、意味的内容を考慮するため、コンテキストの保存がよりうまくいく。医学のような領域では、正しい情報検索と応答作成は文脈の完全な把握に依存するため、MedGraphRAGは極めて重要である。
10. Survey of NL2QL
NL2SQL(自然言語クエリ(NL)をSQLクエリに変換)のサーベイ。
11. Gemma Scope
Gemma 2Bと9Bの全レイヤーとサブレイヤー、およびGemma 2の一部をスパースオートエンコーダ(SAE)で訓練し公開(対話型のデモ:Neuronpediaも利用可能)。
SAEは内部表現の解析や解釈に役立つ。
12. Analyzing the Relationship between Pre-Training and Fine-Tuning
事前学習とファインチューニングの関係を分析。
潜在的な改善
事前学習を続けると、ファインチューニング後に効果が現れる隠れた改善がある
弱点の改善:
事前学習で苦手だったタスクほど、ファインチューニングで大きく改善する
知識の忘却
ファインチューニングで性能は上がるが、以前持っていた知識を忘れることがある
プロンプトへの敏感さ
ファインチューニング後、評価に使う質問の形式に敏感になる
この問題は、さらに事前学習を続けることで緩和できる
この記事が気に入ったらサポートをしてみませんか?