
商用LLMに肉薄する「vicuna-33b-v1.3」と、チャットLLM用のベンチマーク手法の話題
今まで13bサイズが最大だった Vicuna の33bのウェイトが公開されました。
また、主要なモデルとのベンチマーク結果も公表されています。
ベンチマーク結果

ここで、見慣れないMT-benchという評価指標がありますが、Vicuna-33Bのブログ報告によれば、人間の好みにより則したチャットボットLLM のベンチマークとのことです。大規模言語モデル(LLM)のパフォーマンスを評価するためのいくつかのベンチマークが存在しますが、これらのベンチマークはLLMの人間の好みを評価する際に不十分である可能性があると指摘しています。従来のベンチマークは、LLMに対して閉じた形式の質問を行い、簡潔な出力(例えば、選択肢)を求めることが多いです。しかし、これはLLMベースのチャットアシスタントの典型的な使用ケースを反映していません。
このギャップを埋めるために、リーダーボードの更新では、Chatbot Arena Eloシステムに加えて、新たなベンチマークとしてMT-Benchを追加したとのこと。
MMLU
従来手法としてLLM の評価に広く用いられているベンチマーク。
MT-bench
モデルの会話能力と指示に従う能力を評価するために設計された、80 の高品質なマルチターン質問を含む、慎重に厳選されたベンチマーク用データセットでの評価。これらの質問は、複数ターンの対話におけるモデルの会話フローと指示に従う能力を評価するよう調整されている。
1ターン目の会話だと良い成績を示すモデルも、2ターン目の会話になると大きく成績を落とすモデルがほとんど。しかしGPT-4は2ターン目でも性能が落ちず、2ターン目で大きく成績をおとすオープンソースモデルと大きな性能ギャップがある。
Arena Elo
Chatbot Arenaでのベンチマーク。ユーザーがチャットボットに任意の質問を投げかけ、好みの回答に投票する、クラウドソーシングのバトルプラットフォームです。詳細はnpakaさんの記事を参照ください。

Vicuna-33b-v1.3の試食
ベンチマークの話題の後になんですが、わたしのロマンとしてローカルPCでモデルを動かしてみます。Text generation web UIのモデルタブのダウンロードにlmsys/vicuna-33b-v1.3を指定します。さすがに33Bサイズともなると、ファイル容量は60GB弱にもなりファイルのダウンロードも時間がかかりますが、Load-in-4bitオプションをつけるとギリギリ動きました。
動作環境
Windows11
GPU RTX 3090(メモリ24GB)
Model loader: Transformers / load-in-4bit
Instruction tmplate: Vicuna-v1.1


まとめ・感想
LLMが高性能になるにしたがって、その評価方法も改善が進んでいま
今回gpt-4との大きなギャップが定量的にも、具体的に浮き彫りになったことで、オープンソースのLLM開発も進展も加速するのではないかと期待します。
最後までお読みいただき、ありがとうございました。