はじめに
OllamaでDeepseek-r1モデルが利用可能になったのでレビューです。
DeepSeek-R1は中国DeepSeek社が開発したLLMで、先進的な技術で設計され、ChatGPT-4oやOpenAI o1モデルに匹敵・超えるという触れ込みで登場したモデルです。
特にOpenAIと異なり技術資料も公開されダウンロード可能なオープンソース(ウェイト)になっています。さらにトークンあたりの演算効率がOpenAIのモデルと比べて格段に良いため、格安で運用できる利点があるとの事です。
ただし、オープンソースとしてダウンロードできる本物のDeepSeek-r1モデルは671Bなので、ローカルでは実行できません。Qwen2モデルに蒸留(reasoning+Chain of Thoughtの知識転移チューニング)したなんちゃってDeepseek-r1-14Bモデルを試してみます。
※ ollama + OpenWebUIで利用したレビューです
導入
ollama pull deepseek-r1:14b
Model
architecture qwen2
parameters 14.8B
context length 131072
embedding length 5120
quantization Q4_K_M
Parameters
stop "<|begin▁of▁sentence|>"
stop "<|end▁of▁sentence|>"
stop "<|User|>"
stop "<|Assistant|>"
License
MIT License
Copyright (c) 2023 DeepSeek
動作確認
まずは小手調べです。(中国の)ポリコレを正しく扱えるか確認します。
優秀です。日本語もちゃんと表示できています。
最初の<think>の中国語での思考過程の後に応答を行うようです。
内容自体は良く記述出来ていると思いますが、思考部は仕方がないとしても、本文にいろんな文字が混ざってしまっています。
翻訳を試す
上記中国語<think></think>部の日本語訳を試します。
比較として、Qwen2.5(14b)で翻訳します。
中国語は全く分からないため、どちらが正しいのかはわかりませんが、同程度またはQwen2.5の方が優れているような印象です。
まとめ
他のアーキテクチャに蒸留した小さなdeepseek-r1モデルは、日本語LLMとしての実用性はあまりなさそうです。
(蒸留としての)論理的思考の性能は良いのかもしれませんが、単純な日本語LLM性能に関しては、Qwen2.5の方が圧倒的に良さそうですね。
②へつづく
以下、関連する記事の【PR】です。