見出し画像

LLMの継続学習における論文紹介[Cohere論文紹介No.1]

論文名

Investigating Continual Pretraining in Large Language Models: Insights and Implications

arXivリンク

https://arxiv.org/pdf/2402.17400.pdf

ひとこと要約

LLMの継続学習においてドメインの内容や順序などについて調査。ドメインを類似度順で継続学習した方がドメイン特化させやすく、ドメインをランダムな順序で継続学習した方がLLMの性能・知識の蓄積が改善する。


メモ

モデル

  • 広範なコーパス(書籍コーパスやウェブコンテンツ)の事前学習済みLLM を用意。

    • (1) WebTextで学習されたデコーダのみのモデル(GPT2-small、GPT2-medium、GPT2-large、GPT2-xlarge)

    • (2) Wikipediaで学習されたエンコーダ-デコーダモデル(RoBERTa-base、RoBERTa-large)

タスク

  • WikipediaとSemantic Scholar (S2ORC)データベースから収集された236のドメインをカバーするMassively Multi-Domain Dataset(M2D2)データセットを使用。

  • コーパス

    • L1ドメイン

      • S2ORC:L1ドメインはコンピュータサイエンスや物理学などの広範な学術研究分野

      • Wikipedia:主要カテゴリ

    • L2ドメイン

      • S2ORCコーパス分野内の特定のarXiv

      • Wikipedia:各L1ドメイン内のカテゴリページ

バランスと計算効率を保つために、5GBを超えるドメインは除外し、最終的に159のドメインを使用。

継続学習

  • タスク順序

    • (i) similar-order: 学習ドメインを類似度に基づいて順序付け

    • (ii) random-order: 学習ドメインの順序をランダム化。

結果

  • 後続の学習ドメインの類似度が高い場合にのみ、継続的事前学習が標準のファインチューニングよりも優れている

    • 学習するドメインの順番が似ているほど、直近の過去のドメインに対してポジティブなバックワード転移。つまり、関連性の高い領域を順番に学習することで、モデルは過去の知識を保持しやすくなる。

  • 学習順序をランダム化した方が、ドメイン類似順に学習するよりも平均パープレキシティが低く、知識の蓄積が見られる。さらに過去のドメインに対して平均的にポジティブなバックワード転移とフォワード推移が見られた。これは、多様な領域を学習することで、モデルが過去の知識を柔軟に適用できるようになることを示唆。

    • より長く継続的学習するとフォワード転移が改善され、LLMの一般化能力が向上される

  • 継続学習により、質問応答などのダウンストリームタスクのパフォーマンスが向上。

  • 学習が長期に及ぶと、バックワード転移のパフォーマンスは徐々に低下し、忘却をしやすくなる。これはモデルの知識を統合する能力に限界があり、新しい情報を取り入れるほど過去の知識が失われやすくなるためと考えられ、知識飽和と呼ばれる。

    • 学習初期のドメインを忘却しやすい

用語

  • バックワード転移

    • 新しいタスクやドメインを学習することが、事前に学習したタスクやドメインでのパフォーマンスに影響すること

  • フォワード転移

    • 過去の学習経験が新しいタスクの習得やパフォーマンスに影響すること


この記事が気に入ったらサポートをしてみませんか?