MacStudio（M2MAX96GBユニファイドメモリ）の推論能力

2024年5月5日 17:20

推論能力を測定してみました。
gradioで、モデル切り替えて遊べる環境を作ります！
こちらのリポジトリにgradioのソースコードを置いておきます
https://github.com/flymywife/LLMSpeedTester

Elapsed time: 27.71 seconds
Tokens per second: 18.05

27.71秒返答に時間がかかり
1秒につき18.05token生成できているらしいです
返答速度と計算が合わない気もしますね

Elapsed time: 50.44 seconds
Tokens per second: 9.91

Elapsed time: 33.66 seconds
Tokens per second: 6.45

こんな感じでした！

ちなみに生成しているときも常にメモリがほぼ使われていませんでした
何か設定しないとユニファイドメモリは使われないっぽいですね

というかGPUが全く使われてなかったです。
色々調べてみたらllama.cppをクローンして色々設定して使わないとGPUを使えないみたいです。
次はMacでllama.cppを使ってGPUを使う記事を書いてみます。

いいなと思ったら応援しよう！