LLMってメモリー帯域も大事だったのね

 何アタノマエのこといってんだコイツと思われた事でしょうが..

 手持ちのWindowsはXeon E5-2643 x 2ソケットで動作させてまして、主に家中のPCやmacのバックアップをしたり、VMWareでWindowsを8台くらい動作させてActive Domain のテストなんかをしてます。
 CPUのスペックは 3.4GHz の6コアなので合計12コア。
 HyperThreadは切ってます。HTのセキュリティバグ対策です。もうインテルから対応パッチでないし。
 LLMは普段の開発に使っているM1 Maxで SwallowとかLLama3とか動作させて、怪しい質問に答えてもらっています。

ローカルでChatGPT4超え!?

 その名もCommand-R +。107Bですよ。1,070億パラメーター!
 いやいやわかってますよ。ChatGPT4超えといっても
・英語で
・fp16で動作させた時に
・一部の機能で
という残念な条件付きであることは。
 でもさ、GPT4超えなんて夢があるじゃーん?半分ほどバカになるとはいえQ8に量子化したのをローカルで動作させて、あれやこれやイケナイ質問してみたいじゃーん?

 ところがですね手持ちのM1 Max 64GbyteだとQ2でギリギリなんですよ。
 しかもQ2なのでさすがにおバカさんなのよ。これなら70BのLLama3とかのほうがずっと頭いい。
 M3 Maxのmacに買い換えたいなぁと思ったもののAIが強化されたM4が出るという事じゃあーりませんか。今は超円安だし流石に時期が悪い
(1$ = 154円)

メモリーさえあれば?

 足りないのはメモリーなので、Windows Serverにメモリどんどこ積んで256GByteくらいにすれば速度はともかく、動くにはうごくんじゃないかなーと考えました。レジスタードECCメモリーといえどもDDR4の2400なんて低性能、在庫処分なのか1枚 32GByteで1万円くらいで売ってる。
 よーし8枚買っちゃうぞ。いやまて8万円だぞ?
 まずは一度CPUで動作させたらどんなもんかなーと試してみました

CPUが全く働かない。原因はメモリーの速度

 試したのはSwallowの70B。macだと数文字/秒でるので普通です。混んでるCopilotよりいい感じで動作します。
 これをWindowsのLMStudioで動作させてみるとですね、全然CPUが働かないんですよ。ちゃんとスレッド数も12に指定しました。
 それでも利用率が最大でも60%くらい。
 クロックはターボが効いて3.7GHzになってます。
 どうやらメモリーの帯域速度が足りない!らしいのです!!
 こんなの初めてぇぇ

 ちなみに出力速度はというと、4秒に1文字くらい。おっそ。
 「こんにちは、日本一高い山は?」で最初の1文字がでるのに1分くらい。
 さすがにこれは使い物にならない。
 最新のDDR5 8666となっても4倍にはならないしまだ売ってないし。
 といってnVidia H200 4枚とかマンション並みの値段になっちゃうし、個人でLLMはmac一択だよなー

という事でWindowsの電源を落としましたとさ。

おしまい

いいなと思ったら応援しよう!