見出し画像

MPT-7B - オープンで商用利用可能なLLM

以下の記事が面白かったので、簡単にまとめました。

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs

1. MPT-7B

MPT-7B」は、「MosaicML」が開発した、テキストとコードの1Tトークンでゼロから学習したLLMです。オープンソースで、商用利用可能で、LLAMA-7Bと同等の品質を持ちます。約20万ドル、人間介入なし、9.5日間、MosaicMLプラットフォームで学習しています。

2. モデル一覧

ベースモデルに加えて、3つのファインチューニングモデルも提供しています。

2-1. MPT-7B (ベースモデル)

MPT-7B」は、6.7Bパラメータを持つベースモデルです。MosaicMLのデータチームが収集したテキストとコードの1Tトークンで学習しました。

・ライセンス : Apache-2.0 (商用利用可)

2-2. MPT-7B-StoryWriter-65k+

MPT-7B-StoryWriter-65k+」は、非常に長いコンテキスト長が利用可能なモデルです。books3データセットのフィルタリングされたフィクションサブセットを使い、65kトークンのコンテキスト長で「MPT-7B」をファインチューニングしています。

・ライセンス : Apache-2.0 (商用利用可)

2-3. MPT-7B-Instruct

MPT-7B-Instruct」は、Instructionモデルです。Databricks Dolly-15kAnthropicのデータセットから派生したMosaicLMのデータセットで「MPT-7B」をファインチューニングしました。

・ライセンス : CC-By-SA-3.0 (商用利用可)

2-4. MPT-7B-Chat

MPT-7B-Chat」は、チャットモデルです。ShareGPT-VicunaHC3AlpacaHelpful and HarmlessEvol-Instructで「MPT-7B」をファインチューニングしています。

・ライセンス : CC-By-NC-SA-4.0 (非商用のみ)

3. 独自のカスタムMPTの学習とデプロイ

「MosaicMLプラットフォーム」で独自のMPTモデルの学習デプロイを行うには、以下からサインアップします。

関連



いいなと思ったら応援しよう!