2 OLMo 2 Furious
URL:
http://arxiv.org/abs/2501.00656v1
Authors:
Team OLMo, Pete Walsh, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Shane Arora, Akshita Bhagia, Yuling Gu, Shengyi Huang, Matt Jordan, Nathan Lambert, Dustin Schwenk, Oyvind Tafjord, Taira Anderson, David Atkinson, Faeze Brahman, Christopher Clark, Pradeep Dasigi, Nouha Dziri, Michal Guerquin, Hamish Ivison, Pang Wei Koh, Jiacheng Liu, Saumya Malik, William Merrill, Lester James V. Miranda, Jacob Morrison, Tyler Murray, Crystal Nam, Valentina Pyatkin, Aman Rangapur, Michael Schmitz, Sam Skjonsberg, David Wadden, Christopher Wilhelm, Michael Wilson, Luke Zettlemoyer, Ali Farhadi, Noah A. Smith, Hannaneh Hajishirzi
Published:
December 31, 2024
Summary
研究目的:
数学関連のデータの質を評価し、最も高品質なサブセットを選択するために、複数のマイクロアニール(小規模なアニーリング実験)を実施する。
用いたデータ:
OpenWebMathの数学関連と非数学関連の例、Metamath、CodeSearchNet、GSM8Kのトレーニングスプリットなど、合成教科書や既存のデータベースからのデータ。
手法:
FastText分類器を使用して数学関連のデータのみを選択。
数学データの小規模なサブセットに焦点を当てたアニーリング実験を行い、学習率を適切なペースで線形に下げながらトレーニングする。
マイクロアニールの結果を用いて、データソースごとの品質を評価し、数学能力を評価するためにGSM8Kの問題を開発セットとして使用。
結果:
合計130Bトークンで19回のマイクロアニールを実施し、全体で3回の50Bトークンアニーリング実験よりも少ない計算リソースで改善が見られた。
トレーニング後の10Bトークン未満で結果が可視化され、より細かなデータソース解像度での改善が示された。
研究目的
マイクロアニールの目的:
数学関連のデータの質を評価し、最も高品質なサブセットを選択するために、複数のマイクロアニールを実施します。これにより、全体的なアニーリング実験に比べてコストを大幅に削減しつつ、データソースごとの詳細な改善点を把握できます。
マイクロアニールの手順:
評価したい数学ソースまたは小規模な数学ソースコレクションを特定します。
数学ソースからと同じ量のデータを一般のデータミックス(例:DCLM)から収集し、高品質なウェブテキストとドメイン固有の数学データの混合を実現します。
この50/50の混合データをアニーリング実験として訓練し、適切な速度で学習率を線形に下げます。
マイクロアニールの実施回数と規模:
合計で19回のマイクロアニールを実施し、総トークン数は130Bトークンに達します。これは、完全な50Bトークンのアニーリング実験3回分に満たない量です。
コストの観点:
19回のマイクロアニールの総計算コストは、3回の50Bトークンのアニーリング実験を行うコストよりも少なく、7Bモデル用のスーピング成分と比較しても低コストです。
データソース解像度の改善:
マイクロアニールを通じて、10Bトークン以下の訓練で見える形でデータソースごとの改善が確認でき、より細かい解像度での品質向上が期待できます。
用いたデータ
OpenWebMathのフィルター:
OpenWebMathの例から数学関連と非数学関連のデータを分類し、FastText分類器を用いて合成教科書に適用し、数学関連のデータのみを保持します。このフィルターは後のステップでもMetamathやCodeSearchNetに適用されています。
Metamath:
Metamathは数学の定理と証明を集めたデータベースです。この研究では、OpenWebMathのフィルターをMetamathに適用して、より関連性の高い数学データを抽出しています。
CodeSearchNet:
プログラムコードと対応するドキュメントがペアになっているデータセットです。このデータセットからも、OpenWebMathのフィルターを通じて数学に関連するコードの部分を選択的に使用しています。
GSM8Kのトレーニングスプリット:
GSM8Kは数学の問題を集めたデータセットで、そのトレーニングスプリットを使用しています。このデータは、数学データの品質を評価するためのミクロアニーリングという手法によってさらに選択され、高品質なサブセットが選ばれています。
手法
データフィルタリング:
このプロセスでは、FastText分類器を使用して、数学関連のデータとそれ以外のデータを区別します。FastTextはテキストデータをベクトル化し、それを基に機械学習モデルが分類を行うため、特定のドメインに特化したデータの選択が可能になります。このフィルタリングにより、数学関連の内容のみを抽出し、モデルが特定の専門知識を学習するのに役立ちます。
マイクロアニール:
マイクロアニールは、小規模なデータセットに対してアニーリング手法(徐々に学習率を下げる手法)を適用することで、数学データの質を評価する実験です。この方法では、数学データと一般的なウェブテキストデータを50/50の割合で混合し、その混合データに対して学習を進めます。学習率を線形に下げることで、モデルがデータを効率的に学習し、過学習を防ぐのに役立ちます。
データ評価:
マイクロアニールの結果を用いて各データソースの品質を評価します。特に、数学の能力を評価するためには、GSM8Kという数学問題集を開発セットとして使用しています。GSM8Kの問題を使って、モデルがどの程度数学的な問題を解けるかを測定し、それに基づいてデータソースの質を判断します。この評価を通じて、最終的なトレーニングデータセットの質を向上させることが可能です。
結果
マイクロアニールの効果:
この論文では、マイクロアニールとは、特定の小さなデータセットに焦点を当てたアニーリング実験のことを指します。合計で130Bトークンを使用して19回のマイクロアニールを実施し、これにより、通常のアニーリング実験3回分(合計150Bトークン)と比較しても少ない計算リソースでデータの品質改善が見られました。これは、特定のデータセットに特化することで、より効率的に学習と改善を図ることができることを示しています。
データソース解像度の向上:
マイクロアニールを通じて、トレーニング後の10Bトークン未満で早期に結果を可視化することが可能となりました。これは、全体のデータセットではなく、特定の小規模なデータソースに焦点を当てることで、より細かな解像度でデータソースの品質を評価し改善することができることを意味します。結果として、データソースごとの性能の違いをより明確に把握し、それに基づいて最適化を行うことができるようになります。