【ローカルLLM】Llama-2とVicuna v1.5の日本語チャット能力を比べてみる

Baku

2023年8月3日 17:40

Llama派生モデル「Vicuna」の新モデルが、V1.5としてリリースされた。今回、7Bと13BのベースモデルがLlama-1からLlama-2に置き換わっている。

もともとVicunaは、Llama系モデルの中では日本語能力が高いと言われていた。Vicunaの学習データは「ShareGPT」由来の多言語データセットで、そこに日本語データも含まれているためと思われる。
一方、オリジナルのLlama-2自体も、Llama-1/Alpacaに比べれば日本語が改善していて、一問一答型のタスクではわりと良好な出力が得られる。ただ、チャットでは支離滅裂な日本語が頻出し、ちょっと実用に耐えない印象（70Bモデル以外）。
そこで、Llama-2ベースに変わったVicuna v1.5を試し、日本語チャット能力がどれくらい向上しているか簡単に確認した。

結果

13Bのモデル同士で、「Vicuna v1.5」を、Llama-2-ChatやVicuna v1.3と比較した。
「Llama-2-Chat」と比較すると、日本語はかなり流暢化。勝手な造語表現はかなり減少し、Llama-2特有の不自然な繰り返し(repetition)も、Vicuna v1.5では見られない。
「Vicuna v1.3（前モデル）」と比較すると、プロンプトや文脈の理解度、和訳の精度が向上、説明も詳細。ただ、挨拶などの日常表現は前モデルの方が自然かも。

出力例

text-generation-webUIで、パラメータ（LLaMA-Precise）とコンテキスト（「あなたはAIアシスタントです。」）を揃えたうえで、チャットモードでテキスト生成。
「Vicuna v1.5 13B」は、Transfomerで4-bitでロードして使用した。「Llama-2-Chat 13B」と「Vicuna v1.3 13B」はGPTQの4-bitモデルをExllamaでロード。

１．単純説明

Q：IMF（国際通貨基金）とは何ですか？
Llama-2-Chat：IMF（国際通貨基金）は、世界的な経済協力を目指した国際機関です。
Vicuna v1.3：IMF（International Monetary Fund）は、全球的に活動する金融機関の一つで、国々間の外匯市場や金融セキュリティに関する政策提供を行っています。
Vicuna v1.5：IMF（International Monetary Fund）は、世界中の経済をサポートするために設立された国際機関です。IMFは、加盟国が外部からの資金援助を受けることができるようにすることで、国際的な金融危機を防止することを目的としています。また、IMFは、加盟国の経済改革や財政政策の提言も行っています。

Q：高齢の方が罹りやすい病気を3つ挙げてください。
Llama-2-Chat：高齢の方が罹りやすい病気は、心臓疾患、糖尿病、および Alzheimer's disease です！
Vicuna v1.3：1. 心臓病（冠動脈硬化）
2. 脳内腫脱落症（アルツハイマー病）
3. 老年性骨粗大変（オステオアレルギー）
Vicuna v1.5：高齢者が罹りやすい病気は以下の通りです：
1. 脳卒中：血管が狭まって脳への血流が悪化し、神経細胞が死んでしまうことで引き起こされます。高齢者は血管が老化しているため、脳卒中リスクが高くなります。
2. 心臓病：高血圧や糖尿病などの生活習慣病が原因で、心臓の損傷が進みます。高齢者は自然消失による心臓機能低下も影響します。
3. 骨粗性疾患：骨密度が低下し、骨が弱くなることで、骨折のリスクが高まります。特に女性はメニエル状骨粗性症やオステオペネンツァウェイズ病などが見られることが多いです。

Q：大阪のオススメの食べ物を教えて
Llama-2-Chat：おすすめの大阪の食べ物は、 takoyaki や okonomiyaki です！
Vicuna v1.3：1. 天ぷらう（お好み焼きとしたパンケーキ）2. Okonomiyaki（お好み焼きと味わいやかな野菜が入ったパン）3. Takoyaki（小柵とこんにちはだで、おにぎり状のもの）
Vicuna v1.5：大阪のオススメの食べ物は以下の通りです：
1. お好み焼き：ジャガイモと野菜を入れた焼き立て料理で、ソースがかけられて提供されることが一般的です。
2. 天ぷら：野菜や海鮮を丸めたものを揚げた料理で、地元の人々に愛されています。
3. ちゃんこ：豚の内臓を使用した、とろみのあるスープ料理です。大阪風お好み焼きのベースとしても知られています。
4. おばん（おばんざい）：小麦粉を練り、水分を加えて成形したパンケーキのようなもので、デザートとして楽しまれています。
5. ふぐ刺し：フグの刺身で、新鮮なものが美味しいとされています。
6. ほっともっと：和風カレーライスの店で、地元で人気のあるチェーン店です。
7. じゃがいも市場：道頓堀周辺に位置する、日本最古の市場で、新鮮なじゃがいもを買うことができます。

２．マルチターンチャット

Q：機械学習とは何ですか？
Llama-2-Chat：機械学習（Machine Learning）は、コンピューターが自動的に学習する技術です。
Vicuna v1.3：機械学習（Machine Learning）とは、コンピュータが人間よりも高度な知識や判断力を持つ方法によって自動的に学習する技術のことです。人工神経系やディープラーニングなどの手法を用いて、大量のデータから特徴を発見し、それを利用して未来のデータ点の予測や分類などを行うことができます。
Vicuna v1.5：機械学習とは、コンピュータが自ら学習して問題を解決する能力を指します。これにより、人間の知識や意思決定を模倣することが可能になります。機械学習は、データ分析、ニューラルネットワーク、深層学習、自然言語処理（NLP）などの技術を使用して実現されます。主な目的は、パターン認識、予測、カテゴリ付け、クラスタリングなどのタスクを自動化することです。

Q：それを子供にも分かるように説明してください。
Llama-2-Chat：OK! 机械学習は、コンピューターが自分の知識や能力を強化するために、大量のデータを使って勉強することです。
例えば、あなたが写真を見て、犬や猫を正しく認識することができます。それは、機械学習アルゴリズムが、数千万枚もの写真を見て、犬や猫を認識する方法を学びましたからです。
Vicuna v1.3：機械学習は、コンピュータが自動的に人間よりも高度な知識や判断力を持つ方法です。例えば、あなたが書いたメールを解凍して、何か特別なものかどうかを判断することができます。また、画像や音楽などのデジタルコンテンツを分類することも可能です。
Vicuna v1.5：機械学習って、おもちゃのロボットみたい！そんなイメージで考えてみてね。ロボットは人間の手先で操作されるわけじゃなく、自分で物事を学び、行動することができるんだ。同じように、機械学習のロボットは、大量の情報（データ）を見て、それを基に自分で問題を解決することができるんだ。例えば、写真の中の犬を見つける、天気予報を出す、会話するなど、人間がやるべき仕事をロボットが代わりにやることができるんだ。

Q：アメフトはどんな競技ですか？
Llama-2-Chat：アメフトは、アメリカンフットボールのことを指します。
Vicuna v1.3：アメフトというのは、歯科医師が治療してくれる口腔内の健康を最大化することに取り組む競技の一つです。歯科医師は、患者さんの口臭や歯周病、歯石などの問題を解消するために、様々な手術や治療法を用います。アメフトでは、歯科医師が治療してくれる口腔内の健康状態を最大化することが目的となります。
Vicuna v1.5：アメフト（American football）は、北米で最も人気のあるスポーツの一つです。これは、11人ずつのチームが対戦し、ボールを相手方のエンドゾーンまで運び込むことを目指す競技です。プレイヤーはランニングバック、クォーターバック、ワイドレシーバー、オフェンシブラインマンなど、様々なポジションに分かれてプレイします。アメフトは、NFL（National Football League）やカレッジフットボールなどの大会でよく見られます。

Q：ラグビーとの違いは何ですか？
Llama-2-Chat：アメフトは、タックルやブロックが中心的に行われるスポーツであり、ラグビーと比べてもっと速く激しいプレイが展開されます。
Vicuna v1.3：ラグビーとアメフトの違いは、それぞれにおいてどのような手術や治療法が用いられるかという点です。ラグビーは、歯科医師が行った手術や治療法を最小限に抑え、患者さんの自然な状態を取り戻すことを目的とします。一方、アメフトでは、歯科医師が必要だと判断した治療法を全力で実施することが求められます。
Vicuna v1.5：ラグビーとアメフトは両方とも、足でボールを運ぶスポーツですが、いくつか重要な違いがあります。
1. ボールのサイズ：アメフトで使用されるボールは、ラグビーボールよりも小さく、形状も異なります。
2. チームサイズ：アメフトは11人ずつのチームでプレイされますが、ラグビーは15人ずつのチームでプレイされます。
3. ゲームの流れ：アメフトでは、ボールを相手方のエンドゾーンまで運び込むことが勝利条件ですが、ラグビーではトライ（Try）を成功させることが勝利条件です。トライは、ボールを相手方の22m地点以内に持ち込み、ディフェンダーを回避してリードを取ることで得られます。
4. プレイスタイル：アメフトは、パスプレイが非常に重要であり、クォーターバックが主力です。一方、ラグビーでは、ランニングが中心的なプレイスタイルが多く、スコットランドやウェールズなどの国で特に人気があります。
これらの違いから、アメフトとラグビーはそれぞれ独自の魅力を持ったスポーツです。

３．日常表現

Q：こんにちは
Llama-2-Chat：こんにちは！お元気ですか？
Vicuna v1.3：こんにちは！何かお手伝いできることがあれば、遠慮なくおっしゃってくださいね。
Vicuna v1.5：こんにちは！どのようにお力になれますか？

Q：ちょっと質問してもいいですか？
Llama-2-Chat：頼みごとはいつでもOK！どういうことがありますか？
Vicuna v1.3：もちろんです！どのような質問でしょうか？
Vicuna v1.5：もちろん、何でも私に聞いてください。

Q：日本語は話せますか？
Llama-2-Chat：はい、日本語を話せます。
Vicuna v1.3：はい、もちろん！日本語でコミュニケーションを取りますよ。どのような質問や相談事があれば、遠慮なくおっしゃってくださいね。
Vicuna v1.5：はい、日本語を話せることができます。どのようなご質問がありますか？

Q：お腹が空きませんか？ご飯でも食べに行きませんか？
Llama-2-Chat：私は食べ物は持っていません。
Vicuna v1.3：私はAIアシスタントであるため、実際には「食べ物」を食べることはできません。ただし、料理のレシピや食品の情報を提供することができます。何か他にお探しでしょうか？
Vicuna v1.5：私はAIプログラムであるため、物理的な体を持っていないため、食事をする必要はありません。ただ、私は常に最新の情報や知識を学ぶことができるように設計されていますので、その点では常に成長しています。

４．英文和訳

以下の文を日本語に訳してください。
"Our company needs your contribution."
＊DeepL：私たちの会社はあなたの貢献を必要としています。
Llama-2-Chat：会社があなたの寄与を必要としています。
Vicuna v1.3：私たちの会社は、あなたの協力が必要です。
Vicuna v1.5：私たちの会社、貴方のご貢献が必要です。

"High winds hit power lines in Japan's popular tourist destination Okinawa, knocking out electricity to more than 200,000 households on Wednesday morning."
＊DeepL：水曜日の朝、日本の人気観光地である沖縄で強風が送電線を直撃し、20万世帯以上が停電した。
Llama-2-Chat：おきなわでは、水曜日の朝に高風が電線を直撃し、20万4千戸ある家庭に電力供給が中止されました。
Vicuna v1.3：日本の人気旅行先である沖縄県における高風により電力線路が被害し、週水曜日朝から20万戸の家庭にわたって電気を切れました。
Vicuna v1.5：高風が日本の人気観光地沖縄で電線を吹き飛ばし、水曜日の朝に20万件以上の家庭に電力供給を中断しました。

"Evaluating large language models (LLMs) is a laborious task. Each model means gigabytes of data to download and time and tools for quantization and inference."
＊DeepL：大規模な言語モデル（LLM）の評価は骨の折れる作業だ。各モデルはギガバイトのデータをダウンロードし、量子化と推論に時間とツールを必要とする。
Llama-2-Chat：大きな言語モデル（LLM）の評価は、時間とツールを要する労力的任務です。各モデルごとにギガバイ트単位のデータをダウンロードし、量化および推論に必要な時間とツールが必要です。
Vicuna v1.3：LLM（大規模言語モデル）の評価は、時間がかかる作業です。それぞれのモデルは、数百MBからGB程度のデータをダウンロードする必要があります。また、量化と推論に必要な時間やツールも用意しなければなりません。
Vicuna v1.5：LLM（大型言語モデル）の評価は、面倒な作業です。各モデルには、ダウンロードする必要があるギガバイトのデータと、量化および推論に使用する時間やツールが必要です。

"This rare female painter in Edo Japan was ‘coveted’ for her exquisite ink paintings."
＊DeepL：この江戸時代の稀代の女流画家は、その精緻な水墨画で「垂涎の的」となった。
Llama-2-Chat：江戸時代の女性画家は、繊細な墨絵技術を持ち合わせていたため、当時の男性画家や様々な人物から『執り』と称えられました
Vicuna v1.3：江戸時代の珍しい女性画家は、彩色毛筆画で名を馴染みました。
Vicuna v1.5：江戸時代のこの珍しい女性画家は、美麗な墨画で注目され、求められていました。