見出し画像

LLMニュースまとめ[2024年9月23日~9月29日]

2024年9月23日~9月29日のLLM関連のニュースとして有名なもの、個人的に刺さったもの8点を以下にまとめる。


1. Were RNNs All We Needed?

従来のRNN(LSTMやGRU)よりもパラメータ数が少なく、計算効率が高い「minLSTM」と「minGRU」を提案。


2. LLMs Know More Than They Show

LLMの内部状態において、正しい答えを示すトークンに情報が強くエンコードいる特性を利用することで誤り検出系のタスクの精度が大幅に向上。

またLLMの内部表現とアウトプットに不一致があることも明らかになった。


3. Archon

複数のLLMおよび推論技術を統合するフレームワークであるArchonを提案。
以下のようにLLMを層状に並べて生成や評価、ランク付けなどを行うことで出力品質を向上。

https://arxiv.org/pdf/2409.15254


4. RATIONALYST

推論の過程を改善するために、事前学習されたデータから抽出した「合理的な理由」(rationales)を利用してLLMをファインチューニング。


5. FRAMES

RAGの評価を統一的に行うための新しいデータセット「FRAMES」を提案。事実の正確性、情報の検索能力、そして複雑な推論を必要とする質問に対する応答の生成能力をマルチホップの質問で評価。


6. Not All LLM Reasoners Are Created Equal

ほとんどのLLMは、個別の問題を解く場合と比べて、連鎖的な問題に対して推論精度の低下。特に小型でコスト効率の良いモデルでその傾向が顕著。LLMは表面的なパターン認識に依存している可能性があり、実際の理解が不足していることが示唆。


7. MaskLLM

MaskLLMという学習可能なプルーニング手法を提案し、LLMにおける半構造化スパース性を実現。


8. LangGPT&Minstrel

構造的なプロンプトデザインフレームワーク「LangGPT」およびプロンプト作成エージェントである「Minstrel」を提案し、有効なプロンプトの自動生成を実現。


いいなと思ったら応援しよう!