Metalによるllama2 13B chatの高速実行
実行環境
Macbook Pro 16 M1 Max 32 core gpu
npakaさんの記事ではmetal利用の高速化の影響が確認できなかったとのことでしたが私の環境ではmetalを使った方が高速化したので報告しておきます。
llama.cppのリポジトリはクローン済の前提でバージョン的には下記のコミットのあたりを含む最新バージョンです
llama-2-13b-chat.ggmlv3.q4_0.binのWeightはwgetでダウンロード済。
ビルドとかも野良スクリ