MPT-7B - オープンで商用利用可能なLLM

2023年5月6日 09:53

以下の記事が面白かったので、簡単にまとめました。

・Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs

1. MPT-7B

「MPT-7B」は、「MosaicML」が開発した、テキストとコードの1Tトークンでゼロから学習したLLMです。オープンソースで、商用利用可能で、LLAMA-7Bと同等の品質を持ちます。約20万ドル、人間介入なし、9.5日間、MosaicMLプラットフォームで学習しています。

ベースモデルに加えて、3つのファインチューニングモデルも提供しています。

「MPT-7B」は、6.7Bパラメータを持つベースモデルです。MosaicMLのデータチームが収集したテキストとコードの1Tトークンで学習しました。

・ライセンス : Apache-2.0 (商用利用可)

「MPT-7B-StoryWriter-65k+」は、非常に長いコンテキスト長が利用可能なモデルです。books3データセットのフィルタリングされたフィクションサブセットを使い、65kトークンのコンテキスト長で「MPT-7B」をファインチューニングしています。

・ライセンス : Apache-2.0 (商用利用可)

「MPT-7B-Instruct」は、Instructionモデルです。Databricks Dolly-15kとAnthropicのデータセットから派生したMosaicLMのデータセットで「MPT-7B」をファインチューニングしました。

・ライセンス : CC-By-SA-3.0 (商用利用可)

「MPT-7B-Chat」は、チャットモデルです。ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless、Evol-Instructで「MPT-7B」をファインチューニングしています。

・ライセンス : CC-By-NC-SA-4.0 (非商用のみ)

「MosaicMLプラットフォーム」で独自のMPTモデルの学習とデプロイを行うには、以下からサインアップします。