LLMってメモリー帯域も大事だったのね

2024年4月24日 23:29

　何アタノマエのこといってんだコイツと思われた事でしょうが..

　手持ちのWindowsはXeon E5-2643 x 2ソケットで動作させてまして、主に家中のPCやmacのバックアップをしたり、VMWareでWindowsを8台くらい動作させてActive Domain のテストなんかをしてます。
　CPUのスペックは 3.4GHz の6コアなので合計12コア。
　HyperThreadは切ってます。HTのセキュリティバグ対策です。もうインテルから対応パッチでないし。
　LLMは普段の開発に使っているM1 Maxで SwallowとかLLama3とか動作させて、怪しい質問に答えてもらっています。

ローカルでChatGPT4超え！？

　その名もCommand-R +。107Bですよ。1,070億パラメーター！
　いやいやわかってますよ。ChatGPT4超えといっても
・英語で
・fp16で動作させた時に
・一部の機能で
という残念な条件付きであることは。
　でもさ、GPT4超えなんて夢があるじゃーん？半分ほどバカになるとはいえQ8に量子化したのをローカルで動作させて、あれやこれやイケナイ質問してみたいじゃーん？

　ところがですね手持ちのM1 Max 64GbyteだとQ2でギリギリなんですよ。
　しかもQ2なのでさすがにおバカさんなのよ。これなら70BのLLama3とかのほうがずっと頭いい。
　M3 Maxのmacに買い換えたいなぁと思ったもののAIが強化されたM4が出るという事じゃあーりませんか。今は超円安だし流石に時期が悪い
(1$ = 154円)

メモリーさえあれば？

　足りないのはメモリーなので、Windows Serverにメモリどんどこ積んで256GByteくらいにすれば速度はともかく、動くにはうごくんじゃないかなーと考えました。レジスタードECCメモリーといえどもDDR4の2400なんて低性能、在庫処分なのか1枚 32GByteで1万円くらいで売ってる。
　よーし8枚買っちゃうぞ。いやまて8万円だぞ？
　まずは一度CPUで動作させたらどんなもんかなーと試してみました

CPUが全く働かない。原因はメモリーの速度

　試したのはSwallowの70B。macだと数文字/秒でるので普通です。混んでるCopilotよりいい感じで動作します。
　これをWindowsのLMStudioで動作させてみるとですね、全然CPUが働かないんですよ。ちゃんとスレッド数も12に指定しました。
　それでも利用率が最大でも60%くらい。
　クロックはターボが効いて3.7GHzになってます。
　どうやらメモリーの帯域速度が足りない！らしいのです！！
　こんなの初めてぇぇ

　ちなみに出力速度はというと、4秒に1文字くらい。おっそ。
　「こんにちは、日本一高い山は？」で最初の1文字がでるのに1分くらい。
　さすがにこれは使い物にならない。
　最新のDDR5 8666となっても4倍にはならないしまだ売ってないし。
　といってnVidia H200 4枚とかマンション並みの値段になっちゃうし、個人でLLMはmac一択だよなー

という事でWindowsの電源を落としましたとさ。

おしまい

LLMってメモリー帯域も大事だったのね

ローカルでChatGPT4超え！？

メモリーさえあれば？

CPUが全く働かない。原因はメモリーの速度

いいなと思ったら応援しよう！