シュッとLLM を 2ビット量子化できるらしい QuIP というのをチラ見した
ちゃっす(/・ω・)/
なんか量子化というタイトルにつられて論文をシュッとチラ見してみたわよ(/・ω・)/
という話。
今回のやつは結構歯ごたえがあって難しかったので ChatGPT 先生に聞いただけですのであしからず(/・ω・)/
基本自分用のメモなので詳細には書かないですわよ(/・ω・)/
というわけで
対象はこちら
QuIP: 2-Bit Quantization of Large Language Models With Guarantees
そもそも量子化ってなんなん?( ・ω・)
ってなると思いますのでちょいと簡単に書いておくと
LLM って最新のつよつよモデルはすごーく大きいサイズなので簡単に動かせないの( ・ω・)
なので、なんとか軽くしましょうや(/・ω・)/
みたいな感じ
量子化自体は今までもいろいろと手法があって GPTQ (この論文では OPTQ と言われている?)とかがありますのよ(/・ω・)/
で、量子化はでっかいのを小さくするので軽量化と精度がトレードオフになっちゃうわけですわな(/・ω・)/
なので、いかにして元の精度を保ちつつ軽量化できるか、、、というのがミソなわけでござる(/・ω・)/
で、この QuIP という手法では何が今までと違うの?( ・ω・)
というのを平たく言うと
前処理工程において各重みの重要性を考えずに全体的にいい感じの軽量化を図る。
その後、後処理工程において、全体的に見てエラーが最小になるように調整を図る。
ってな部分ですな(/・ω・)/
量子化する際は重要な重みは高精度で残しつつそれ以外を軽くする、、、みたいなアプローチが基本だと思うのだけれど QuIP は重要性はあまり気にせず最適化しつつ、全体的なエラーが最小化するようにしてる感じね( ・ω・)
んで、本文中では OPTQ とか他の手法に比べて結果良かったらしい(/・ω・)/
GitHub にコードもあるので気になる人は論文と一緒に見てみるといいかも(/・ω・)/
ということでシュッと書いて満足したのでおしまい。
ChatGPT 先生とのやり取りも備忘として残しておこう。
https://chat.openai.com/share/0ebc571c-c6b7-4447-b4ba-0dd63dde512b