LoRAよりいいらしいLISA
LISAという手法がLoRAより高性能らしく、場合によってはフルパラメータチューニングに匹敵するという
https://arxiv.org/pdf/2403.17919.pdf 以下、図版は全てこの論文から
Llama2-70Bにおける比較
確かに、Llama2-70B-FT(フルパラメータチューニング)よりもLISAの方が成績が良くなっている。
その上、メモリー消費量はLoRAより低い
驚異的なのは、ウェイトに対して勾配(gradient)、最適化(optimizer)に使うメモリが劇的に少ないこと。
しかも、推論速度も速い
学習も速いし推論も速い。
こんないいことずくめのことがあっていいのか。
しかしそんないいことずくめのことが時々起きるのがこの業界の面白いところである。
これにいち早く対応したのがLMFlowというフレームワークだ。
で、これは例によって中国のAIコミュニティで作られたものなので日本語対応にやや難がある。そこでFreeAIでは日本語対応する方法をまとめた。
今のところ学習はうまく行ってる模様。
ちゃんと動くといいなー(この一ヶ月BitNetで疲れたので)