MPT-7B - オープンで商用利用可能なLLM
以下の記事が面白かったので、簡単にまとめました。
1. MPT-7B
「MPT-7B」は、「MosaicML」が開発した、テキストとコードの1Tトークンでゼロから学習したLLMです。オープンソースで、商用利用可能で、LLAMA-7Bと同等の品質を持ちます。約20万ドル、人間介入なし、9.5日間、MosaicMLプラットフォームで学習しています。
2. モデル一覧
ベースモデルに加えて、3つのファインチューニングモデルも提供しています。
2-1. MPT-7B (ベースモデル)
「MPT-7B」は、6.7Bパラメータを持つベースモデルです。MosaicMLのデータチームが収集したテキストとコードの1Tトークンで学習しました。
2-2. MPT-7B-StoryWriter-65k+
「MPT-7B-StoryWriter-65k+」は、非常に長いコンテキスト長が利用可能なモデルです。books3データセットのフィルタリングされたフィクションサブセットを使い、65kトークンのコンテキスト長で「MPT-7B」をファインチューニングしています。
2-3. MPT-7B-Instruct
「MPT-7B-Instruct」は、Instructionモデルです。Databricks Dolly-15kとAnthropicのデータセットから派生したMosaicLMのデータセットで「MPT-7B」をファインチューニングしました。
2-4. MPT-7B-Chat
「MPT-7B-Chat」は、チャットモデルです。ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless、Evol-Instructで「MPT-7B」をファインチューニングしています。
3. 独自のカスタムMPTの学習とデプロイ
「MosaicMLプラットフォーム」で独自のMPTモデルの学習とデプロイを行うには、以下からサインアップします。