Llama.cpp で Llama-3.1-70B-Japanese-Instruct-2407 を試す
「Llama.cpp」で「mmnga/Llama-3.1-70B-Japanese-Instruct-2407」(Q8_0)を試したのでまとめました。
1. Llama-3.1-70B-Japanese-Instruct-2407
「Llama-3.1-70B-Japanese-Instruct-2407」は、「meta-llama/Meta-Llama-3.1-70B-Instruct」をベースにした日本語の継続的事前学習済みモデルです。
2. Llama.cppでの実行
「M3 Max 128GB」での実行手順は、次のとおりです。
(1) Llama.cppをクローンしてビルド。
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make -j
(2) モデルのダウンロード。
今回はQ8_0を使います。モデルサイズが大きいため分割されています。
(3) モデルの結合して、llama.cppフォルダに配置。
cat Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf.a Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf.b > Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf
(4) llama.cppの実行。
./llama-cli -m 'Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf' -p 'あなたは日本語を話すアシスタントです' -n 1024 -c 1024 -cnv
(5) プロンプト(>)が表示されたらメッセージを入力。
llama_print_timings: load time = 2973.59 ms
llama_print_timings: sample time = 39.45 ms / 839 runs ( 0.05 ms per token, 21265.27 tokens per second)
llama_print_timings: prompt eval time = 13944.21 ms / 87 tokens ( 160.28 ms per token, 6.24 tokens per second)
llama_print_timings: eval time = 178562.63 ms / 836 runs ( 213.59 ms per token, 4.68 tokens per second)
llama_print_timings: total time = 657329.91 ms / 923 tokens
この記事が気に入ったらサポートをしてみませんか?