LLMの学習データの刈り込みに関する論文紹介[Cohere論文紹介No.2]
論文名
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
arXivリンク
https://arxiv.org/pdf/2309.04564.pdf
ひとこと要約
LLMの学習データの質を3つの評価指標で評価し、データを刈り込むことでLLMの性能を上げられることを明らかにした。またシンプルな指標であるPerplexityによる学習データの刈り込みが最も効果的だった。
メモ
方法
Perplexity、EL2N(Error L2-Norm)、Memorizationを用いて刈り込み。
Perplexity:言語モデルがある文章をどの程度自然だと判断するかを表す指標
Perplexityが低い文章ほど(以下例だと文章A)、モデルの学習に有用であると仮定
文章A: 美味しいリンゴを食べました。
文章B: 美味しい靴を食べました。
EL2N(Error L2-Norm):モデルの学習初期段階での予測誤差の大きさを表す指標
EL2Nが大きい文章ほど(以下例だと文章D)、モデルの学習に重要であると仮定
文章C: 猫は動物の一種です。
文章D: 量子コンピュータは、量子力学の原理を利用した計算機です。
Memorization:モデルが文章をどの程度逐語的に記憶しているかを表す指標
Memorizationが低い文章(以下例だと文章F)は、モデルがまだ十分に学習していない可能性があるため、学習に重要であると仮定
文章E: Aさんの住所は東京都新宿区西新宿1-2-3です。
文章F: 人工知能は、コンピュータに人間のような知的な振る舞いをさせる技術の総称です。
データを刈り込む割合は、10%、30%、50%、70%とし、スコアの上位/中位/下位からデータを選択
124Mパラメータと1.5Bパラメータの言語モデルを用いて、CommonCrawlデータセットから抽出したデータで学習
GLUEベンチマークの6つのタスクの汎化性能を評価
結果
Perplexityによる刈り込みはEL2NやMemorizationよりも高精度
Perplexityの分布の中位から50%のデータを選択して学習するのが最も効果的
Perplexityが最も低い下位10%のデータを学習に使うと、モデルの性能が大きく低下。Perplexityが最も高い上位10%のデータを学習に使うと、モデルの性能がやや低下。どちらもモデルが言語の一般的な特徴を捉えられなくなるためだと考えられる。
ただし学習データを変えると上記結果が変わる可能性
1.5Bパラメータの大規模モデルにおいても有効性を確認