Meta Llama 3の紹介
2024年4月19日にMetaは、8Bおよび70Bの事前訓練済みおよびインストラクションチューニングされた大規模言語モデル(LLM)のMeta Llama 3を開発し、リリースしました。
性能
8Bおよび70BパラメータのLlama 3モデルは、Llama 2を大きく上回り、同様のパラメータ数のモデルと比較して最先端の性能を達成しています。
既存のベンチマーク
新しい評価データセット
Llama 3の開発において、新しい高品質の人間による評価データセットが開発されました。この評価データセットには、アドバイスを求める、ブレインストーミング、分類、クローズドクエスチョンの回答、コーディング、クリエイティブライティング、抽出、キャラクターやペルソナの役割を演じる、オープンクエスチョンの回答、推論、書き換え、要約の12の主要なユースケースをカバーする1,800のプロンプトが含まれています。この評価データセットでのモデルの偶発的な過学習を防ぐために、Metaのモデリングチームでもアクセスすることが出来ないそうです。
アーキテクチャ
トークナイザーの語彙サイズ
Llama 2では32Kトークンの語彙を持つトークナイザーを使用
Llama 3では128Kトークンの語彙を持つトークナイザーを使用
Grouped Query Attention (GQA)の採用
Llama 2では70BサイズのみGQAを採用
Llama 3では8Bおよび70BのサイズでGQAを採用
コンテキストの長さ
Llama 2ではコンテキストの長さは4,096トークン
Llama 3ではコンテキストの長さは8,192トークン
トレーニングデータ
Llama 3は、すべて公開されているソースから収集された15T以上のトークンで事前学習されています。Llama 2で使用されたもの(2Tトークン)の7倍の大きさであり、コードも4倍含まれています。Llama 3の事前学習データセットの5%以上が30言語以上をカバーする高品質の非英語データで構成されています。
事前学習のスケールアップ
下流のベンチマーク評価のための詳細なスケーリング法則を一連で開発しました。これらのスケーリング法則により、最適なデータミックスを選択し、トレーニング計算の最適な使用方法について知識に基づいた決定を行うことができます。スケーリング法則により、実際にモデルを学習する前に、最大のモデルが主要なタスクでのパフォーマンスを予測することができます。
例えば、8Bパラメータモデルに対するChinchilla最適なトレーニング計算量は約200Bトークンに相当しますが、モデルのパフォーマンスは、モデルが2桁多くのデータでトレーニングされた後も改善し続けることがわかりました。私たちの8Bおよび70Bパラメータモデルは、15Tトークンまでトレーニングした後も対数線形に改善し続けました。
より大きなパラメータ数を持つモデルの方が効率良くパフォーマンスを出すことが出来るが、推論時に小さいモデルの方が効率的ということで、モデルのサイズは大きくしなかったそうです。
インストラクションファインチューニング
Supervised Fine-Tuning (SFT)、Rejection Sampling、Proximal Policy Optimization (PPO)、Direct Policy Optimization (DPO)を組み合わせた事後学習を行いました。
SFTで使用されるプロンプトの品質や、PPOとDPOで使用される優先順位のランキングは、整合性の取れたモデルのパフォーマンスに大きな影響を与えます。
モデル品質の大幅な向上は、このデータを慎重に選定し、人間のアノテーターが提供したアノテーションの品質を何度も確認することで実現されました。
次はLlama 3 400B?
最大のモデルは400B以上のパラメータを持ち、まだ学習中だそうです。
数ヶ月のうちに、マルチモダリティ、複数言語での会話能力、より長いコンテキストウィンドウ、全体的に強化された機能を備えた複数の新しいモデルをリリースする予定らしいです。
この記事が気に入ったらサポートをしてみませんか?