![見出し画像](https://assets.st-note.com/production/uploads/images/104823158/rectangle_large_type_2_fd3b660f96b738de623a73ee9997ed86.png?width=1200)
MPT-7B - オープンで商用利用可能なLLM
以下の記事が面白かったので、簡単にまとめました。
・Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
1. MPT-7B
「MPT-7B」は、「MosaicML」が開発した、テキストとコードの1Tトークンでゼロから学習したLLMです。オープンソースで、商用利用可能で、LLAMA-7Bと同等の品質を持ちます。約20万ドル、人間介入なし、9.5日間、MosaicMLプラットフォームで学習しています。
2. モデル一覧
ベースモデルに加えて、3つのファインチューニングモデルも提供しています。
2-1. MPT-7B (ベースモデル)
「MPT-7B」は、6.7Bパラメータを持つベースモデルです。MosaicMLのデータチームが収集したテキストとコードの1Tトークンで学習しました。
・ライセンス : Apache-2.0 (商用利用可)
2-2. MPT-7B-StoryWriter-65k+
「MPT-7B-StoryWriter-65k+」は、非常に長いコンテキスト長が利用可能なモデルです。books3データセットのフィルタリングされたフィクションサブセットを使い、65kトークンのコンテキスト長で「MPT-7B」をファインチューニングしています。
・ライセンス : Apache-2.0 (商用利用可)
2-3. MPT-7B-Instruct
「MPT-7B-Instruct」は、Instructionモデルです。Databricks Dolly-15kとAnthropicのデータセットから派生したMosaicLMのデータセットで「MPT-7B」をファインチューニングしました。
・ライセンス : CC-By-SA-3.0 (商用利用可)
2-4. MPT-7B-Chat
「MPT-7B-Chat」は、チャットモデルです。ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless、Evol-Instructで「MPT-7B」をファインチューニングしています。
・ライセンス : CC-By-NC-SA-4.0 (非商用のみ)
3. 独自のカスタムMPTの学習とデプロイ
「MosaicMLプラットフォーム」で独自のMPTモデルの学習とデプロイを行うには、以下からサインアップします。