見出し画像

DeepSeek R1 Distill LLMsをローカルで使用する方法!

3,742 文字

WindowsでもMacでもLinuxでも、このガイドを使えばDeepSeek R1を使用できます。現時点で最高のオープンソース推論モデルとされるDeepSeek R1ですが、非常に大規模なモデルを使用する代わりに、会社は蒸留モデルをいくつかリリースしています。他のモデルを使用してDeepSeek R1の出力を取得し、それらのモデルを微調整したものです。今回はまさにこれをローカルで使用していきます。
ここで注意点として、これは100%本来のDeepSeek R1ではなく、DeepSeek R1の蒸留モデルであるということです。このチュートリアルでは、LM Studioというものを使用します。LM Studioを使用する理由は、初心者にとって非常に使いやすいからです。LM Studioにアクセスしてダウンロードするだけで、あとは私がこの動画で示す手順に従うだけです。YouTubeの説明欄にLM StudioのWebサイトリンクを掲載しておきます。LM Studioを使用したことがない方のために、LM Studioのチュートリアルもいくつか掲載しておきましたので、そちらから始めることができます。
LM Studioを初めてインストールすると、このようなインターフェースが表示されます。チャット、開発者、マイモデル、探索の機能があります。LM Studioの良いところは、モデルとチャットができるだけでなく、エンドポイントとしてモデルを使用することもできる点です。関数呼び出しもサポートしており、OpenAI互換のエンドポイントとしてモデルを公開することもできます。質問があれば、コメント欄でお知らせください。できる限り回答させていただきます。
これがチャットウィンドウですが、チャットを始める前にモデルをダウンロードする必要があります。まず確認すべき重要な点は、LM Studioの最新バージョンを使用していることです。この録画時点での最新バージョンは0.3.7 build 2です。リリースノートを見ると、DeepSeek R1をサポートしていることがわかります。
最新バージョンを確認したら、探索タブに移動します。探索タブにはDeepSeek R1蒸留モデルが表示されます。Quin 7Bパラメータモデルの蒸留バージョンとLlama 8Bパラメータモデルの蒸留バージョンがあります。今回はQuin 7Bパラメータモデルの蒸留バージョンであるDeepSeek R1蒸留 Quin 7Bを使用します。Hugging Faceでモデルカードを確認すれば、より詳細な情報を得ることができます。また、このモデルがどのような情報を持っているかなどの技術的詳細もここで確認できます。
ダウンロードをクリックします。これは5GBのダウンロードなので、完了までに時間がかかります。ダウンロードが開始されました。この5GBのモデルのダウンロードが完了したら、使用を開始できます。もう一つ重要な点として、GGUFとMLXの両方を有効にしておく必要があります。特にMacの場合、MLXモデルが計算速度の面で追加の利点を提供する可能性がありますが、LinuxとWindowsの場合は、単にGGUFモデルを使用するだけで構いません。
ここでタグや詳細を確認でき、どのようなモデルなのかがわかります。モデルのダウンロードが完了したら、すぐに使用を開始できます。ダウンロードが完了したので、ここをクリックしてモデルを読み込むか、チャットタブに移動してモデルを使用することができます。最も簡単な方法は、モデルを読み込むをクリックすることです。ただし、もう一度閉じて開き、最初から完全に説明します。
モデルを読み込んだ後は、質問を始めることができます。このバーは、モデルが現在のセッションに読み込まれているかどうかを示しています。バーが完全に読み込まれるまで待ってください。システムプロンプトを変更したり、トークンのコンテキストウィンドウを増やしたりしたい場合は、これをクリックすると、設定できるシステムプロンプトが表示されます。JSONなどの構造化された出力が必要な場合も、ここで設定できます。私はそのままにしておきます。
下部では、システム使用率、RAMとCPUの使用率も確認できます。この時点でモデルは正常に読み込まれています。閉じたい場合は取り出しをクリックできますが、今は閉じずに質問をしてみましょう。これを閉じて、簡単な質問をしてみます。「3+4+5を計算できますか?」
トークンには2種類あります。1つは思考トークンで、モデルが内部モノローグを行うプロセスです。そして最終的に出力が得られます。LM Studioは将来的に思考トークンをスキップし、UIで異なる表示方法を採用するかもしれません。問題を解くために自身と対話する思考トークンが表示され、最終的に解答が得られます。これはLaTeX形式なので、レンダリングして表示したい場合はLaTeXレンダラーに貼り付けることができます。
LM Studioを完全に閉じて、モデルの読み込み方法を説明します。LM Studioを閉じて終了します。この時点で単にLM Studioを呼び出します。LM Studioが利用可能になったら、本来ならモデルを取り出しておくべきでしたが、それをしませんでした。LM Studioがここにあるので、既存のチャットは保存されています。チャットに移動して新しいチャットをクリックし、モデルを読み込みます。LM Studioにある
モデルのリストが表示されます。DeepSeek R1蒸留 Quin 7Bを選択します。メモリ容量に応じてコンテキストウィンドウを長くしたい場合など、実行したい設定の情報がすべて表示されます。メモリの最適化もできますが、私はそのままLM Studioでモデルを読み込みます。
モデルが読み込まれているのが確認できます。読み込みが完了したら、モデルとチャットを開始できます。このケースではビジョン言語モデルではないと思いますが、もしそうであれば添付ファイルをアップロードすることもできます。現時点では単純なモデルなので、質問をするだけです。「人類が火星でどのくらい生存できるか確率を調べてくれますか?」イーロン・マスクに関するジョークを聞くべきでしたが、やめておきましょう。
モデルが考えているのがわかります。内部モノローグを行っています。人類が火星でどのくらい生存できるか調べる必要があるようです。この内部モノローグを経て、最終的に答えが返ってきます。
その間に注目すべきもう一つの重要な点として、開発者タブを見ると、DeepSeek R1蒸留 Quin 7Bが現在実行中であることがわかります。これらのモデルをOpenAI互換のエンドポイントとして利用することもできます。これが重要な理由は、ローカルコンピュータでMVPとして何かを開発し、後でサーバーにデプロイする場合に、同じコードを保持したままLocalHostエンドポイントを変更するだけで、必要なことをすべて実行できるからです。
モデルの提供も非常に簡単で分かりやすいです。これらはモデルがすでに利用可能なエンドポイントで、モデルは提供の準備ができています。サーバーは停止していますが、開始することができます。このエンドポイントで、モデルにアクセスして応答を得ることができます。マイモデルでは、すべてのモデルを確認できます。
今回扱ったのはQuin 7Bパラメータモデルですが、Quin 14Bパラメータモデルを入手することもできます。DeepSeek R1蒸留モデルには異なるバージョンがあります。これらを使用することができます。これらのモデルをGGUFに変換する作業を積極的に行ってきたbosiに大きな感謝を捧げます。また、このモデルを使用可能にしてくれたLM Studioチームにも感謝します。
ここでトークン数が確認できます。33トークン/秒というのはかなり高速です。合計991トークンで、最初のトークンにかかった時間は、すべての思考を終えた後、最終的な答えが得られるまでの時間です。大気圧などの情報は不要です。
最後に、新しいチャットを開始したい場合は、3つのドットをクリックして既存のチャットを削除できます。これが、Quin 7Bパラメータモデルの蒸留バージョンであるDeepSeek R1蒸留モデルをローカルのコンピュータで使用する方法です。
GPUは必要なく、非常に強力なマシンも必要ありません。私は7Bを使用していますが、1.5Bパラメータモデルを使用することもできます。DeepSeek R1蒸留には異なるバージョンがあるので、自分のRAMに合うものを使用し、プライバシーを気にすることなくローカルでモデルを楽しむことができます。
この場合、LM Studioが何か不正なことを行っていない限り(そのようなことはないと思いますが)、データはどこにも送信されません。ご視聴ありがとうございました。また別の動画でお会いしましょう。ハッピーPRデー。

いいなと思ったら応援しよう!