日本語対応の大規模言語モデル(LLM)をローカル環境で試す:VRAM 8GBの挑戦
はじめに
通常、私は無料のChatGPT3.5を利用してテキスト生成を行っていますが、時にはローカル環境での作業が必要な場合もあります。しかし、私が使用しているデバイスのVRAMは8GBしかありません。そこで、4bit量子化したGPTQモデルを活用して、8GB VRAMのローカル環境で大規模言語モデル(LLM)を動作させる方法を模索しました。
方法
LLMの選定
8GB VRAMで実行できるLLMは、4bit量子化したGPTQモデルのパラメータ数が7Bか13Bに限られます。通常のモデル(今回はELYZA-japanese-Llama-2-13bをテストしました)では、VRAMメモリエラーが発生して実行できませんでした。GPTQモデルは、元のモデルから性能をなるべく落とさずに量子化する技術です。今回はTheBloke/Xwin-LM-13B-v0.2-GPTQというモデルを使用しました。量子化していない元のデータのベンチマークは以下の通りです。
モデルは以下で公開されています。
text-generation-webuiを導入している方は、いつものやり方でダウンロード可能です。お持ちでない方は、ターミナルからの操作になります。huggingface-hubというPythonライブラリを用いた方法で、以下を実行するだけです。
pip3 install huggingface-hub
mkdir Xwin-LM-13B-v0.2-GPTQ
huggingface-cli download TheBloke/Xwin-LM-13B-v0.2-GPTQ --local-dir Xwin-LM-13B-v0.2-GPTQ --local-dir-use-symlinks False
プログラムの実行
テストでは以下のプログラムを実行し、生成時間と内容を確認しました。
ここから先は
2,637字
¥ 300
鬱病と難病により離職しました。皆様のサポートが私の新たな一歩を支える力になります。よろしければご支援お願いいたします。