Metaの大規模言語モデルLlama2が7月19日にリリースされました!
論文の「Llama 2: Open Foundation and Fine-Tuned Chat Models」を斜め読みしたので、ファインチューニングの章の量が多いので事前学習までとライセンスについて紹介します。
はじめに
目次からですが、45pからのAppendixを抜いて、半分ぐらい安全性について議論されているように思えました。図1は論文の目次のスクショですが、4のSafetyで20pから31pまでの合計12pあり、安全性についての気合いを感じます。
論文内で、データセットについての話も安全性とかかなり出てきます。
1.イントロダクションから
プロダクトのChatGPTなどのLLMに比べ、オープンなFalconなどのLLMは性能的に及ばないことが記載されていました。理由としては、人間の嗜好に会うような微調整がされていないと言及されていました。
図2は論文から他のLLMと性能比較した結果ですが、一番上の行でChatGPTにも性能で勝っていると示しています。
提供されるモデルはLlama 2とLlama 2-Chatです。パラメータは7B、13B、 70Bのパラメータ数です。Llama 2は以前のLlama 1からバージョンアップしており、事前学習コーパスのサイズを40%増やし、2kから4kのコンテキスト長とグループ化されたクエリーアテンション(GQA)を適用してます。 34Bについては学習したようですが、モデルの公開はされていないです。
2.事前学習から
2.1 事前学習データ
事前学習のデータでは、Metaのデータは含まれておらず、パブリックなデータを利用しています。個人データを入れないように学習しようという意思を感じます。
2.3 Llama2 事前学習モデルの評価
図2はLlama 2、Llama 1、MPTやFalconのオープンソースのLLMモデルとの性能比較です。8個の評価指標で比較しています。図から前のLlama 1からかなり性能アップしたことが理解できます。特にLlama 2 70BはLlama 1 65Bと比較して、MMLUとBBHの結果をそれぞれ5ポイント、8ポイント性能向上しています。
Llama内の比較でないモデルでも、Falconでは同サイズのモデルで全てのカテゴリの性能がLlama 2の方が性能が高いです。
ライセンス
商用利用
気になる方も多いと思うので、Llama 2のライセンスについて紹介します。
論文中であると、A custom commercial licenseというライセンスで利用可能であると紹介されていました。
リンク先のLlama 2 Community License Agreementを確認します。
製品の月間アクティブユーザーが7億人以上でない限り、商用利用が可能なようです。これについては、自分自身が間違えた認識をしているかもしれないので、詳細についてはAIに強い弁護士などにご相談ください。
出力の利用
Llama 2の出力を利用したLLM開発が可能かどうか確認します。Llama 2 Community License Agreementの1-vに記載があったので紹介します。
OpenAIのTerms of useの2-(c)-(iii)箇所と同様に、出力を利用しての基本的なLLMの開発はできないという認識です。気になる一文としては、Llama 2とその派生物を除くという箇所があるため、Llama 2の出力を利用してLlama 2の学習は可能ということでしょうか?これについても、自分自身が間違えた認識をしているかもしれないので詳しい方、教えてください。
Llama 2 論文斜め読み②ではファインチューニングのデータ周りや方法について簡単に紹介します。