モデルマージングの最新動向：大規模言語モデルの融合技術の全貌

2024年8月16日 21:19

モデルマージングは、複数の異なる機械学習モデルを融合し、より汎用的で強力なモデルを構築するための技術として注目されています。この手法は、特に大規模言語モデル（LLM）やマルチモーダル大規模言語モデル（MLLM）において、計算資源を節約しつつも性能を向上させるために広く応用されています。本記事では、モデルマージングに関する最新の研究を詳細に紹介し、技術的な方法論や応用例を網羅的に解説します。

論文：

モデルマージングの概要

モデルマージングは、複数の異なる能力を持つモデルのパラメータを統合し、元のトレーニングデータや高価な計算を必要とせずに、強化された統合モデルを構築する手法です。この手法は、特にアンサンブル学習と比較して効率的で、パラメータレベルで統合が行われるため、推論時の計算コストが抑えられます。モデルマージングは、トレーニングデータにアクセスすることなく、既存のモデルの能力を最大限に活用できる点で、機械学習分野で急速に注目を集めています。

モデルマージングの方法論

この論文では、モデルマージングの方法論を前処理（Pre-Merging）と統合中（During-Merging）の2つのフェーズに分類しています。

1. 前処理フェーズ

線形化微調整（Linearization Fine-tuning）
モデルの統合を容易にするために、線形化された空間で微調整を行う方法です。Ortiz-Jimenezらによって提案された手法で、異なるモデルの重みを入力空間と重み空間で解きほぐし、相互の干渉を防ぐことを目的としています。部分的な層のみを線形化する手法も提案されており、Transformerアーキテクチャにおいても効率的な線形化が試みられています。
アーキテクチャ変換（Architecture Transformation）
統合すべきモデルが異なるアーキテクチャを持つ場合、それらを同一のアーキテクチャに変換する必要があります。GAN CocktailやFuseChatなどがこの手法を用いており、異なるモデルの知識を共有しやすくするために構造を揃えることで、統合後のモデルの性能を高めています。
重みの整列（Weight Alignment）
モデル統合の前に、各モデルの重みを整列させる手法です。深層ニューラルネットワークの線形モード接続性（LMC）の特性を利用し、複数のモデルの局所的な最小点を結ぶパスに沿って重みを整列させることで、統合されたモデルの性能を向上させます。Optimal TransportやGit re-basinといった技術がこの整列を実現しています。

2. 統合中フェーズ

基本的な統合方法（Basic Merging Methods）
複数のモデルの重みを単純に平均化する方法です。Task Arithmeticでは、タスクベクトルの概念を導入し、複数のタスクを実行するための統合モデルを構築するために、タスクベクトルを加算する手法が提案されています。
重み付き統合（Weighted-based Merging Methods）
モデルごとの重要性に応じて重みを設定し統合する手法です。進化的アルゴリズムやベイズ最適化、勾配降下法などを用いて、統合の最適な係数を探索するアプローチが取られています。層やモジュールごとに異なる重み付けを行うことで、より細かな制御が可能になります。
サブスペースベースの統合（Subspace-based Merging Methods）
モデルを疎なサブスペースに変換して統合する手法です。TIES-MergingやDAREは、各モデルのパラメータのうち重要度が高い部分のみを残し、タスク間の干渉を最小限に抑えた統合を行っています。
ルーティングベースの統合（Routing-based Merging Methods）
入力サンプルやタスクに応じて、動的にモデルの統合を行う手法です。SMEARやWeight-Ensembling MoEなどがこのアプローチを採用し、推論時に動的にモデルを統合することで、柔軟性の高いモデル構築を目指しています。
事後キャリブレーション（Post-calibration based Methods）
統合後のモデルにおける表現バイアスを軽減するために、表現の修正を行う手法です。これにより、個別モデルとのズレを調整し、統合モデルの性能を安定させます。

モデルマージングの応用例

モデルマージングは、LLMやMLLMをはじめ、さまざまな機械学習分野で応用されています。

1. 大規模言語モデル（LLM）

人間の価値観に対するアライメント
LLMは、ユーザーの期待に応じてより安全で役立つ応答を生成するために、モデルマージングを活用することができます。ExPOやDogeRMなどの手法は、小規模なデータセットでアライメントされたモデルを統合し、より強力なLLMを構築しています。
毒性削減（Detoxification）
LLMが生成するテキストの毒性を軽減するために、モデルマージングが利用されています。Task ArithmeticやPEMは、毒性データで微調整されたモデルを否定ベクトルとして統合することで、毒性を減少させつつ、言語の流暢さを維持する手法を提案しています。
知識の消去（Knowledge Unlearning）
法的要件や倫理的懸念から、LLMが特定のデータを忘れる必要がある場合、モデルマージングは効果的な解決策となります。Task ArithmeticやStable Sequential Unlearningは、特定の知識を忘れるために、ターゲットモデルに対して負の微調整を適用しています。
トレーニングの高速化
チェックポイントの統合により、LLMのトレーニング時間を短縮することが可能です。LAWAやCheckpoint Mergingは、トレーニング途中のチェックポイントを統合することで、モデルの収束を加速させる手法を提案しています。
専門家モデルの統合
複数の専門領域に特化したLLMを統合することで、複雑なタスクに対応する統合モデルが構築できます。Task ArithmeticやRobust Weight Signaturesなどの手法は、異なるスタイルや専門知識を持つモデルを統合し、より強力なモデルを実現しています。

2. マルチモーダル大規模言語モデル（MLLM）

モーダル融合
MLLMにおいて、異なるモダリティに特化したモデルを統合することで、単一のモデルで多様なモダリティを処理できるようになります。JAMやDAMCなどがこのアプローチを採用しており、テキスト・画像・音声といった複数のモダリティを統合しています。
クロスモーダル知識の伝達
モデルマージングを

通じて、あるモダリティで学習した知識を別のモダリティに移行させる手法も提案されています。MAMは、高リソースモダリティから低リソースモダリティへの知識移行を実現しています。

3. 画像生成モデル

スタイルの混合
異なるスタイルを持つ画像生成モデルを統合することで、ユーザーが指定した複数のスタイルを組み合わせた画像を生成することが可能です。Diffusion SoupやMaxFusionなどが、この手法を用いて、ゼロショットでのスタイル混合を実現しています。
トレーニングコストの削減
生成モデルのトレーニングは非常に高コストですが、モデルマージングにより、トレーニングコストを大幅に削減できます。LCSCは、トレーニング途中の軌跡を組み合わせることで、効率的に高品質な生成モデルを構築する手法を提案しています。
忠実性の向上
テキストから画像への生成モデルにおいて、指示された詳細なセマンティクスを忠実に再現するために、異なるスキルを持つモデルを統合する手法がSELMAによって提案されています。

残された課題と未来の方向性

モデルマージング技術には多くの可能性がある一方で、以下のような課題も残されています。

性能ギャップの克服
統合されたモデルと独立したモデルとの間には性能差が生じることがあります。特に、多数のモデルやタスクを統合する際に、このギャップを埋めることが重要です。
理論的な深掘り
モデルマージングの有効性やその理論的背景は、まだ十分に理解されていません。今後の研究では、統合の成功条件やその理論的根拠についてのさらなる探求が求められます。
信頼性の確保
知的財産権の保護や攻撃の防御といった観点から、信頼性の高いモデルマージング手法の開発が急務です。
効率的な統合手法
モデルマージングは、しばしば高いメモリ消費や計算コストを伴います。今後は、より効率的な統合手法の開発が期待されます。

まとめ

モデルマージングは、複数のモデルを統合することで、多様な能力を持つモデルを効率的に構築するための強力な手法です。この論文では、最新のモデルマージング技術について、方法論や応用事例を詳細に解説し、残された課題についても言及しました。今後、この技術がさらに発展し、より多くの実用的なシナリオで重要な役割を果たすことが期待されます。