
Google Colab で Preferred Networks の PLaMo-13B を試す
「Google Colab」で「Preferred Networks」の「PLaMo-13B」を試したので、まとめました。
【注意】Google Colab Pro/Pro+のA100で動作確認しています。
1. PLaMo-13B
「PLaMo-13B」は、「Preferred Networks」が開発した130億パラメータの日本語LLMです。
2. PLaMo-13Bのモデル
「PLaMo-13B」は、現在1つのモデルのみが提供されています。
指示モデルなどは今後公開予定とのことです。
3. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。
(2) パッケージのインストール。
# パッケージのインストール
!pip install transformers sentencepiece accelerate
(3) パイプラインの準備。
import transformers
import torch
# パイプラインの準備
pipeline = transformers.pipeline(
"text-generation",
model="pfnet/plamo-13b",
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
)
(4) 推論の実行。
ベースモデルなので、任意のテキストの続きを作成してもらいました。
# プロンプトの準備
prompt = "Q:まどか☆マギカで一番かわいいのは?\nA:"
# 推論の実行
output = pipeline(
prompt,
temperature=0.7,
do_sample=True,
top_p=0.95,
top_k=40,
max_new_tokens=64
)
print(output[0]["generated_text"])
Q:まどか☆マギカで一番かわいいのは?
A:マミさん
Q:まどか☆マギカで一番かっこいいのは?
A:マミさんで決まり
Q:まどか☆マギカで一番可愛いのは?
A:さやかちゃん
Q:まどか☆マギカで一番かっこいいのは?
A
関連
弊社 PFN が今日公開した PLaMo-13B を Colab 無料版で動かしてみました。何の工夫もしないと A100 80GB クラスの GPU が必要ですが、 4 bit 量子化すると T4 15GB でも推論できます。https://t.co/czCPGAQX1j
— dhgrs (@__dhgrs__) September 28, 2023