LLMニュースまとめ[2024年9月16日~9月22日]
2024年9月16日~9月22日のLLM関連のニュースとして有名なもの、個人的に刺さったもの11点を以下にまとめる。
1. Molmo
Molmo: オープンソースのマルチモーダルAI
OpenAIのGPT-4oやGoogleのGemini 1.5 Proなどの最先端のAIに匹敵する性能を持ちながら、モデルのサイズは非常に小さい。
2. AlphaChip
AlphaChip: Google DeepMindが開発したAIシステムで、コンピューターチップの設計を自動化・最適化するために作られた
3. LLMs Still Can’t Plan
OpenAIの新しいモデルo1は、計画力を測るPlanBenchというベンチマークでのパフォーマンスが大幅に改善されているものの、依然として複雑な問題に対してはロバスト性が不足しており、完全な計画力を有していないと主張。
4. Scaled-up Instructable Model Become Less Reliable
タスクの難しさ、タスク回避、プロンプトの安定性の関係を調査し、以下のことを発見。
初期のモデルはよく質問の回答を回避したが、新しいモデルは間違った答えを自信を持って出すことが増えている
新しいAIモデルには、「必ず正解する」または「間違えても人間がすぐに気づける」という安全な領域がない
特に難しい質問では、人間も見逃しがちな間違いが増えている
質問の言い換えに対する安定性は向上しているが、まだ完全ではない
つまりAIを使う人間が「AIはここまでは確実にできる」という判断が難しくなっている。
5. Logic-of-Thought
入力から拡張論理情報を生成することで性能を向上。具体的には以下3ステップ。
Logic Extraction:入力文から論理情報を抽出
Logic Extension:抽出した情報を論理拡張
Logic Translation:論理を自然言語に変換
https://arxiv.org/abs/2409.17539
6. RAG and Beyond
RAGにおいて、ユーザーのクエリを(1)明示的事実を尋ねるクエリ、(2)暗黙的事実を尋ねるクエリ、(3)解釈可能な根拠を必要とするクエリ、(4)隠れた根拠を探すクエリの4つのレベルに分類し、それぞれの課題と解決策を提案。
例えば、明示的事実を尋ねるクエリにはRAGが効果的であり、暗黙的事実を尋ねるクエリには反復的RAGやグラフ構造を用いたアプローチが適しており、それ以外のクエリはより高度なデータ統合と推論能力が必要とされる。
7. Small Language Models Survey
アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムにまたがる小規模言語モデル(SLM)に関する包括的な調査
8. Ferret
Ferret:大規模な言語モデル(LLM)を連合学習で効率的にファインチューニングするための方法。
https://arxiv.org/abs/2409.06277
9. NVLM
NVLM:視覚と言語の両方において卓越した性能を持つマルチモーダルLLMNVLM 1.0の最大の特徴は、三つの異なるアーキテクチャを持つモデルファミリーである点。(デコーダーのみの「NVLM-D」、クロスアテンションベースの「NVLM-X」、そして両方の長所を組み合わせた「NVLM-H」というハイブリッドアーキテクチャ)
10. Promptriever
Promptriever: 指示に基づいて動作する情報検索モデル
Promptrieverは、MS MARCOデータセットから生成した約50万のインスタンスを含む新しい指示トレーニングセットを使用して訓練。
モデルの特長の一つは、指示に基づいて関連性を動的に調整できる点。
11. limits of agency in agent-based models
AgentTorchというエージェントベースモデル(ABM)フレームワークを提案し、特に大規模な人口シミュレーションにおける大規模言語モデル(LLM)の利用可能性を探求。COVID-19パンデミックをケーススタディとして、8.4百万のエージェントを用いて、隔離行動や雇用行動が健康や経済に与える影響をシミュレーション。
具体的には、LLMを使ってエージェントの行動を決定する際に、個々のエージェントの特性や環境の状況を考慮したプロンプトを与える。このプロンプトに基づいて、エージェントは「自宅に隔離するか?」といった質問に対して「はい」または「いいえ」と答え、その理由を述べる。
エージェントの行動は、年齢や性別、地域、収入などのデモグラフィック情報や、感染者数の変化、経済的支援の有無などの要因によって変わる。
AgentTorchはオープンソースプロジェクトとして、政策決定や科学的発見に活用されている。