【ローカルLLM】Mixtral-8x7bをllama.cppで試す
2023/12/12:llama.cppで「Mixtral-8x7b」のGGUF量子化モデルを試しました(現時点でまだmergeされていないのでbranchを利用)。
「Mixtral-8x7b」はMistralがリリースしたMoE(Mixture of Experts)構造のLLMです。
英語+欧州主要言語に対応しており、それらの言語でのベンチマークスコアはGPT-3.5&Llama-2-70Bに匹敵ないし上回ります。
Mistralと同様に日本語性能は微妙なようです。
今回はGoogle Colabで「Mixtral-8x7B-Instruct-v0.1-Q4_K_M-GGUF(4bit量子化版)」の推論を試しました。
# llama.cppのmixtralブランチをクローン(mergeが済んだら「-b mixtral」不要)
!git clone -b mixtral https://github.com/ggerganov/llama.cpp
%cd llama.cpp
!make
#!make LLAMA_CUBLAS=1 #GPUオフロードする場合
# モデルのダウンロード(Q4_K_M-GGUF)
!wget https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF/resolve/main/mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf -P ./models/
# Q4_K_Mモデルで推論
!./main -m ./models/mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf \
--prompt "I believe the meaning of life is" \
--n-predict 512 --threads 8 #--n-gpu-layers 999 #GPUオフロードする場合
4bit量子化でも26GBほどあります。Colab ProのCPUオンリー+ハイメモリで実行してみました。GPUのみで推論するならA100が必要です。