【llama.cpp】CPUとRAM、どっちが重要?
llama.cppのCPUオンリーの推論について
CPUでもテキスト生成自体は意外にスムーズ。なのに、最初にコンテキストを読み込むのがGPUと比べて遅いのが気になる。
ちょっと調べたところ、以下のポストが非常に詳しかった。
CPUにおけるLLama.cppの高速化(超抄訳)
「CPU推論のボトルネックはCPUじゃなくてメモリの性能」と聞くものの、最初のプロンプト処理の速さはCPU次第らしい。
GPUと差がつきやすいのはこっち。メモリに余裕があるなら読み込んだままにしておけばいいだけ、という気もする。
このポストは6か月前のものなので、llama.cppのアップデートにより事情が変わっている部分はありそう。
例えばスレッド数(-t)を調整してプロンプト処理が速くなったという記述があるが、いまllama.cppのREADMEを見ると-tは物理コア数に一致させておくよう推奨されている。
自分の環境(8 core, hyperthreading)だと-t 8でも-t 14でも特に変化なし。
あと、同じllama.cppをローダーに使っていてもUIによってプロンプト処理速度が違うという話も見かけた。
Text-Generation-WebUIはllama.cppのプロンプト処理が遅いという最近の書き込み。LM Studioの方が早い?要確認。