
【lightblue日本語版】DeepSeek-R1-Japanese-7Bを使ってみた話⑤【ローカルLLM】
はじめに
前回の記事④で利用したCyberAgent社以外にも、DeepSeek-r1・Qwen蒸留の日本語チューニング版がhuggingfaceのLightBlue社のページにて公開されています。CyberAgent版にはない、より小さな7B版を利用できます。
7B版の利点はもちろん動作速度もありますが、限られたローカルGPUのメモリをより大きなコンテキストサイズ(num_ctx)に利用できます。
# Windowsのシステム環境変数
OLLAMA_FLASH_ATTENTION=1
OLLAMA_KV_CACHE_TYPE=q8_0
さらに、上記の環境変数(KVアテンションキャッシュの量子化)を設定すれば、57kでもRTX 3060(12GB)のメモリに収まりました。※ もちろん、性能は若干落ちます。
※ 動作確認は (ollama) OpenWebUIを利用します。
GGUFフォーマット変換
公開されているのは、軽量化されていないhuggingfaceフォーマットなので、gguf版に変換する必要があります。CyberAgent版の前回と同じやり方です。
Ollamaモデルファイルの作成
テンプレートも前回と同じものを利用します。ただしlightblue社のドキュメントにtemperatureとrepeat_penaltyの値の指示があるので、それらパラメータを追加します。
# コンテキストサイズを57k
PARAMETER num_ctx 57344
# その他パラメータ設定
PARAMETER temperature 0.5
PARAMETER repeat_penalty 1.1
動作確認
CyberAgent 14B版と同じで、次の問題を解かせます。
問題: 教室には5人の生徒(A, B, C, D, E)がいます。以下の情報に基づいて、それぞれの生徒の席順を決めてください。
AはCの隣に座っています。 BはEの右隣に座っています。 DはAとBの間に座っています。 質問: 各生徒の正しい席順を答えてください。


「右隣」を先生から見たと仮定すると正解になります。
中国ポリコレを扱えるか?

量子化やコンテキストサイズが大きい事もありますが、かなり暴走して安定しませんでした。プロンプト・インジェクション等の典型ですが、矛盾したものや答えにくいものに関する症状だと思います。日本語以外の文字も混ざっています。
長文の要約
Wikipediaの「日本の歴史」の項目をまるごと要約させました。約6000単語、25000文字です。
次行以降の文章を要約して。

何回か試してみましたが、あまり安定しませんでした。長文+7Bでのリーズニングモデルは難しいのかもしれません。そもそも要約用途にリーズニングは向かないのでしょうが。
まとめ
量子化の度合いを抑えれば、もう少し改善すると思います。
以下、関連する記事の【PR】です。