
Photo by
hiiro_archive153
MacStudio(M2MAX96GBユニファイドメモリ)の推論能力
推論能力を測定してみました。
gradioで、モデル切り替えて遊べる環境を作ります!
こちらのリポジトリにgradioのソースコードを置いておきます
https://github.com/flymywife/LLMSpeedTester
Meta-Llama-3-8B-Instruct.Qa_K_M.gguf

Elapsed time: 27.71 seconds
Tokens per second: 18.05
27.71秒返答に時間がかかり
1秒につき18.05token生成できているらしいです
返答速度と計算が合わない気もしますね
codellama-34b-instruct.Q4_K_M.gguf

Elapsed time: 50.44 seconds
Tokens per second: 9.91
Meta-Llama-3-70B-Instruct-Q4_K_M.gguf

Elapsed time: 33.66 seconds
Tokens per second: 6.45
こんな感じでした!
ちなみに生成しているときも常にメモリがほぼ使われていませんでした
何か設定しないとユニファイドメモリは使われないっぽいですね

というかGPUが全く使われてなかったです。
色々調べてみたらllama.cppをクローンして色々設定して使わないとGPUを使えないみたいです。
次はMacでllama.cppを使ってGPUを使う記事を書いてみます。