LLMニュースまとめ[2024年9月9日~9月15日]
2024年9月8日~9月15日のLLM関連のニュースとして有名なもの、個人的に刺さったもの9点を以下にまとめる。
1. Moshi
Moshi: speech-text基盤モデルかつ、リアルタイムの全二重音声対話システム
Moshiは「Inner Monologue」という手法を導入しており、これは音声トークンを生成する前に、時間に合わせたテキストトークンを予測している。この方法により、生成される音声の言語的な質が大幅に向上する。
2. Qwen2.5-Coder
Qwen2.5-Coder:CodeQwen1.5の改良版のコード特化型モデル
5.5兆トークン以上のデータで事前学習され、インストラクションデータを用いたファインチューニングによりコード生成のみならず、補完、推論、修正などのタスクで最先端の性能を達成。
3. Diagram of Thought (DoT)
Diagram of Thought (DoT):大規模言語モデルにおける反復的推論を有向非巡回グラフ(DAG)としてモデル化するフレームワーク
4. To CoT or not to CoT?
CoTは主に数学や論理的推論のタスクで強いパフォーマンス向上を示したが、他のタスクではほとんど効果が見られなかった。特に、数式や記号操作を含む問題において、CoTの効果が顕著であった。
5. Evaluation of Quantized Instruction-Tuned LLMs
LLMの性能を、さまざまな量子化手法(GPTQ、AWQ、SmoothQuant、FP8)を用いて評価。
判明したことは以下。
より大きなLLMをより小さなFP16 LLMと同じようなサイズに量子化すると、幻覚検出と指示追従を除き、ほとんどのベンチマークで一般に性能が向上
性能は量子化方法、モデルサイズ、ビット幅の違いによって大きく異なり、ウェイトのみの方法ではより大きなモデルでより良い結果が得られることが多い
タスクの難易度は量子化による精度劣化に大きな影響を与えない
MT-Benchの評価方法では、最近の高性能LLMの識別力は限られている
6. Iterative of Thought (IoT)
Iterative of Thought (IoT): LLMの応答を動的に改善する手法
IoTは以下3つで構成。
1. Inner Dialogue Agent(IDA):文脈に応じたプロンプトを生成する役割を担う。
2. LLM Agent(LLMA):IDAが生成したプロンプトを処理し、応答を洗練させる。
3. 反復プロンプティングループ:IDAとLLMAの間での対話を実現し、応答を改善する。
IoTは、LLMが自らの判断で反復を終了するかどうかを決定するAutonomous Iteration of Thought(AIoT)と、あらかじめ回数が決められているGuided Iteration of Thought(GIoT)がある。
7. MathPrompt: Math Jailbreaking Prompts
MathPrompt: LLMのジェイルブレイク方法
具体的には、危険な自然言語のプロンプトを数学の問題に変換し、その数学的な表現を使ってLLMに入力することでジェイルブレイク。
8. Paper Copilot
Paper Copilot: 研究者向けにパーソナライズされた学術支援を提供する自己進化型のLLMシステム
Paper Copilotはユーザーの研究プロファイルを生成し、ユーザーとのインタラクションを通じて学習し、過去の質問や回答を蓄積することでユーザーに対してより適切な情報を提供。また毎日最新の論文を自動的に取得し、データベースを更新する。この機能により、ユーザーは常に最新の情報にアクセスできる。
9. LLaMa-Omni
LLaMA-Omni: LLMを用いたAI音声対話システム