LLMニュースまとめ[2024年10月13日~10月19日]

2024年11月11日 16:16

2024年10月13日~10月19日のLLM関連のニュースとして有名なもの、個人的に刺さったもの8点を以下にまとめる。

1. StructRAG

知識集約型推論タスクにおいて、散在する情報を効果的に構造化し、LLMsの推論能力を向上させる新しいフレームワーク「StructRAG」を提案。

2. VITask: From Generalist to Specialist VLM

VLMのタスク特化型適応性を向上させる新しいフレームワーク「VITask」を提案。VITaskでは(1)Exemplar Prompting (EP)によって特定タスクの特徴を学び(2)Response Distribution Aliginment(RDA)でVLMの応答分布を調整し、(3)Constristive Response Tuning(CRT)で正しい画像-応答ペアのランキングを最適化を行う。

3. Multi-Agent Collaborative Data Selection

効率的な事前学習のためのマルチエージェントを用いたデータ選択方法を提案。
各エージェントは、データの質、トピック、ドメインなどの異なる観点からデータにスコアを付けし、エージェントがこれらのスコアを集約し、最終的なデータ選択を行う。このプロセスを、トレーニングの進行に応じて動的に調整することで更なる効率化を図る。

4. Animate-X

新しいキャラクターアニメーションフレームワークであるAnimate-Xを提案。さまざまなキャラクタータイプに対するアニメーション生成の一般化を目指す。
Animate-Xは、潜在拡散モデル（LDM）に基づいており、暗黙的（Implicit Pose Indicator, IPI）および明示的（Explicit Pose Indicator, EPI）な方法で動きの特徴を抽出し、アニメーション生成の精度を向上させる。

5. VIF-RAG

RAGの指示追従能力を向上させるための新しい手法であるVIF-RAGを提案。

事前にスクラッチで作成した基本的な指示と、それらを基に複雑な指示を合成するためのルールを開発する。これにより、シンプルな指示から複雑な指示を自動的に生成し、指示の質を検証するためのコードを生成する。

6. TPO

LLMに思考能力を付与するための新しい訓練手法「Thought Preference Optimization（TPO）」を提案。

TPOでは、モデルに思考を生成させるためのプロンプトを与え、生成された出力を評価するための「ジャッジモデル」を使用する。ジャッジモデルは、応答の質を評価し、最も良いものと最も悪いものを選び出す。これにより、モデルはどの思考が良い応答を生むかを学習し、次のトレーニングサイクルでその知識を活用する。

7. Agent-as-a-Judge

エージェントがエージェントを評価する新しいアプローチを提案。
LLM-as-a-Judgeよりも評価精度が高く、人間の評価とほぼ同様の精度かつ人間の評価に比べて一貫性が高い。またタスク解決の過程全体で評価可能なため、エージェントシステムの細かい改善点を抽出することが可能。

プロジェクトの構造や依存関係をグラフ形式で管理するモジュール、コードやデータの意味を理解し、関連する情報やコードスニペットを迅速に検索するモジュール、33種類のデータ形式（コード、画像、動画、ドキュメントなど）を解析するモジュール、過去の評価結果を保持するモジュール、タスク解決に必要な次の行動を計画し、プロジェクト目標に基づいてアクションを調整するモジュールなどが存在している。

https://github.com/metauto-ai/agent-as-a-judge

8. MobA

モバイルタスク自動化システムであるMobAを提案。MobAではグローバルエージェント（GA）が高レベルのタスク計画を行い、ローカルエージェント（LA）が具体的なアクションを実行することで、複雑なモバイルタスクの効率的な自動化を実現。