LLMってメモリー帯域も大事だったのね
何アタノマエのこといってんだコイツと思われた事でしょうが..
手持ちのWindowsはXeon E5-2643 x 2ソケットで動作させてまして、主に家中のPCやmacのバックアップをしたり、VMWareでWindowsを8台くらい動作させてActive Domain のテストなんかをしてます。
CPUのスペックは 3.4GHz の6コアなので合計12コア。
HyperThreadは切ってます。HTのセキュリティバグ対策です。もうインテルから対応パッチでないし。
LLMは普段の開発に使っているM1 Maxで SwallowとかLLama3とか動作させて、怪しい質問に答えてもらっています。
ローカルでChatGPT4超え!?
その名もCommand-R +。107Bですよ。1,070億パラメーター!
いやいやわかってますよ。ChatGPT4超えといっても
・英語で
・fp16で動作させた時に
・一部の機能で
という残念な条件付きであることは。
でもさ、GPT4超えなんて夢があるじゃーん?半分ほどバカになるとはいえQ8に量子化したのをローカルで動作させて、あれやこれやイケナイ質問してみたいじゃーん?
ところがですね手持ちのM1 Max 64GbyteだとQ2でギリギリなんですよ。
しかもQ2なのでさすがにおバカさんなのよ。これなら70BのLLama3とかのほうがずっと頭いい。
M3 Maxのmacに買い換えたいなぁと思ったもののAIが強化されたM4が出るという事じゃあーりませんか。今は超円安だし流石に時期が悪い
(1$ = 154円)
メモリーさえあれば?
足りないのはメモリーなので、Windows Serverにメモリどんどこ積んで256GByteくらいにすれば速度はともかく、動くにはうごくんじゃないかなーと考えました。レジスタードECCメモリーといえどもDDR4の2400なんて低性能、在庫処分なのか1枚 32GByteで1万円くらいで売ってる。
よーし8枚買っちゃうぞ。いやまて8万円だぞ?
まずは一度CPUで動作させたらどんなもんかなーと試してみました
CPUが全く働かない。原因はメモリーの速度
試したのはSwallowの70B。macだと数文字/秒でるので普通です。混んでるCopilotよりいい感じで動作します。
これをWindowsのLMStudioで動作させてみるとですね、全然CPUが働かないんですよ。ちゃんとスレッド数も12に指定しました。
それでも利用率が最大でも60%くらい。
クロックはターボが効いて3.7GHzになってます。
どうやらメモリーの帯域速度が足りない!らしいのです!!
こんなの初めてぇぇ
ちなみに出力速度はというと、4秒に1文字くらい。おっそ。
「こんにちは、日本一高い山は?」で最初の1文字がでるのに1分くらい。
さすがにこれは使い物にならない。
最新のDDR5 8666となっても4倍にはならないしまだ売ってないし。
といってnVidia H200 4枚とかマンション並みの値段になっちゃうし、個人でLLMはmac一択だよなー
という事でWindowsの電源を落としましたとさ。
おしまい