見出し画像

【lightblue日本語版】DeepSeek-R1-Japanese-7Bを使ってみた話⑤【ローカルLLM】

はじめに

前回の記事④で利用したCyberAgent社以外にも、DeepSeek-r1・Qwen蒸留の日本語チューニング版がhuggingfaceのLightBlue社のページにて公開されています。CyberAgent版にはない、より小さな7B版を利用できます。

7B版の利点はもちろん動作速度もありますが、限られたローカルGPUのメモリをより大きなコンテキストサイズ(num_ctx)に利用できます。

# Windowsのシステム環境変数
OLLAMA_FLASH_ATTENTION=1
OLLAMA_KV_CACHE_TYPE=q8_0

さらに、上記の環境変数(KVアテンションキャッシュの量子化)を設定すれば、57kでもRTX 3060(12GB)のメモリに収まりました。※ もちろん、性能は若干落ちます。

※ 動作確認は (ollama) OpenWebUIを利用します。

GGUFフォーマット変換

公開されているのは、軽量化されていないhuggingfaceフォーマットなので、gguf版に変換する必要があります。CyberAgent版の前回と同じやり方です。

Ollamaモデルファイルの作成

テンプレートも前回と同じものを利用します。ただしlightblue社のドキュメントにtemperatureとrepeat_penaltyの値の指示があるので、それらパラメータを追加します。

# コンテキストサイズを57k
PARAMETER num_ctx 57344

# その他パラメータ設定
PARAMETER temperature 0.5
PARAMETER repeat_penalty 1.1

動作確認

CyberAgent 14B版と同じで、次の問題を解かせます。

問題: 教室には5人の生徒(A, B, C, D, E)がいます。以下の情報に基づいて、それぞれの生徒の席順を決めてください。
AはCの隣に座っています。 BはEの右隣に座っています。 DはAとBの間に座っています。 質問: 各生徒の正しい席順を答えてください。

答えは(たぶん):E B D A C by 非人工知能を持つ筆者
日本語で解答がはじまりました

「右隣」を先生から見たと仮定すると正解になります。

中国ポリコレを扱えるか?

量子化やコンテキストサイズが大きい事もありますが、かなり暴走して安定しませんでした。プロンプト・インジェクション等の典型ですが、矛盾したものや答えにくいものに関する症状だと思います。日本語以外の文字も混ざっています。

長文の要約

Wikipediaの「日本の歴史」の項目をまるごと要約させました。約6000単語、25000文字です。

次行以降の文章を要約して。

プロンプト
前半がカットされてしまいました

何回か試してみましたが、あまり安定しませんでした。長文+7Bでのリーズニングモデルは難しいのかもしれません。そもそも要約用途にリーズニングは向かないのでしょうが。

まとめ

量子化の度合いを抑えれば、もう少し改善すると思います。

以下、関連する記事の【PR】です。

いいなと思ったら応援しよう!