【ローカルLLM】Llama-2とVicuna v1.5の日本語チャット能力を比べてみる
Llama派生モデル「Vicuna」の新モデルが、V1.5としてリリースされた。今回、7Bと13BのベースモデルがLlama-1からLlama-2に置き換わっている。
もともとVicunaは、Llama系モデルの中では日本語能力が高いと言われていた。Vicunaの学習データは「ShareGPT」由来の多言語データセットで、そこに日本語データも含まれているためと思われる。
一方、オリジナルのLlama-2自体も、Llama-1/Alpacaに比べれば日本語が改善していて、一問一答型のタスクではわりと良好な出力が得られる。ただ、チャットでは支離滅裂な日本語が頻出し、ちょっと実用に耐えない印象(70Bモデル以外)。
そこで、Llama-2ベースに変わったVicuna v1.5を試し、日本語チャット能力がどれくらい向上しているか簡単に確認した。
結果
13Bのモデル同士で、「Vicuna v1.5」を、Llama-2-ChatやVicuna v1.3と比較した。
「Llama-2-Chat」と比較すると、日本語はかなり流暢化。勝手な造語表現はかなり減少し、Llama-2特有の不自然な繰り返し(repetition)も、Vicuna v1.5では見られない。
「Vicuna v1.3(前モデル)」と比較すると、プロンプトや文脈の理解度、和訳の精度が向上、説明も詳細。ただ、挨拶などの日常表現は前モデルの方が自然かも。
出力例
text-generation-webUIで、パラメータ(LLaMA-Precise)とコンテキスト(「あなたはAIアシスタントです。」)を揃えたうえで、チャットモードでテキスト生成。
「Vicuna v1.5 13B」は、Transfomerで4-bitでロードして使用した。「Llama-2-Chat 13B」と「Vicuna v1.3 13B」はGPTQの4-bitモデルをExllamaでロード。