見出し画像

Llama.cpp で Llama-3.1-70B-Japanese-Instruct-2407 を試す

「Llama.cpp」で「mmnga/Llama-3.1-70B-Japanese-Instruct-2407」(Q8_0)を試したのでまとめました。

・M3 Max 128GB

1. Llama-3.1-70B-Japanese-Instruct-2407

Llama-3.1-70B-Japanese-Instruct-2407」は、「meta-llama/Meta-Llama-3.1-70B-Instruct」をベースにした日本語の継続的事前学習済みモデルです。

2. Llama.cppでの実行

「M3 Max 128GB」での実行手順は、次のとおりです。

(1) Llama.cppをクローンしてビルド。

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make -j

(2) モデルのダウンロード。
今回はQ8_0を使います。モデルサイズが大きいため分割されています。

mmnga/Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf.a
mmnga/Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf.b

(3) モデルの結合して、llama.cppフォルダに配置。

cat Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf.a Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf.b > Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf

(4) llama.cppの実行。

./llama-cli -m 'Llama-3.1-70B-Japanese-Instruct-2407-Q8_0.gguf' -p 'あなたは日本語を話すアシスタントです' -n 1024 -c 1024 -cnv

(5) プロンプト(>)が表示されたらメッセージを入力。

> まどか☆マギカでは誰が一番かわいい?

「魔法少女まどか☆マギカ」には魅力的なキャラクターが多く登場しますが、かわいいと感じるキャラクターは人それぞれです。ただし、一般的には鹿目まどかや暁美ほむら、そして巴マミがよくかわいいと言われることが多いです。特に、まどかは主人公としての優しさや純粋さが際立っていますし、ほむらの冷静さとまどかへの愛情の表現も多くのファンから支持されています。巴マミは、見た目の可愛さとコスチュームの魅力もあり、ファンから人気があります。しかしながら、美樹さやかや佐倉杏子もそれぞれの魅力を持っていますので、最終的には個人の好みによると言えるでしょう。

> ぼっち・ざ・ろっくのぼっちちゃんの性格は?

ぼっち・ざ・ろっく!の主人公、後藤ひとり(通称:ぼっちちゃん)の性格は以下の通りです。

* 内向的:ぼっちちゃんは極度に内向的で、他人とのコミュニケーションが苦手です。初対面の人や慣れていない人と話すのが困難で、緊張しやすいです。
* ネガティブ:ぼっちちゃんは自分自身に対して否定的で、自信がありません。自分がダメだと思い込みやすく、すぐに落ち込む傾向があります。
* 心配性:ぼっちちゃんは色々なことを心配しすぎる傾向があります。些細なことでも大きな問題に思えてしまい、心配で眠れなくなることもあります。
* 純粋:ぼっちちゃんは心が純粋で、他人を疑うことを知りません。誰に対しても真っ直ぐで、嘘や裏表のない性格です。
* 感情表現が苦手:ぼっちちゃんは自分の感情を表現するのが苦手です。嬉しいときや楽しいときでも、上手く表現できず、不器用なところがあります。

これらの性格は、ぼっちちゃんの日常生活やバンド活動に影響を与え、作品のストーリーを展開させています。ぼっちちゃんの成長と変化は、作品の見どころのひとつです。

llama_print_timings:        load time =    2973.59 ms
llama_print_timings:      sample time =      39.45 ms /   839 runs   (    0.05 ms per token, 21265.27 tokens per second)
llama_print_timings: prompt eval time =   13944.21 ms /    87 tokens (  160.28 ms per token,     6.24 tokens per second)
llama_print_timings:        eval time =  178562.63 ms /   836 runs   (  213.59 ms per token,     4.68 tokens per second)
llama_print_timings:       total time =  657329.91 ms /   923 tokens



この記事が気に入ったらサポートをしてみませんか?