【ローカルLLM】日本語対応をうたう中華系多言語モデル「Guanaco」を試す

2023年8月11日 16:18

一般に「Guanaco」という名称でよく知られる言語モデルは、2023年5月にワシントン大学の研究者が公表したこちらのモデルである。

このモデルは、彼らが考案したファインチューン手法QLoRAを用いてLlama-1（7B, 13B, 33B, 65B）に微調整を行ったもので、 OpenAssistant Conversations (OASST1)という人手で作成した多言語対話データセットで追加学習している。

OASST1は多言語とはいえ、英語や欧米言語中心のデータセットで、このうち日本語の比率はごくわずか。そのためか、Guanacoの日本語能力は特に高くない。

ところが、HuggingFace上にはもう一つ「Guanaco」と称する別のLlama系モデルが存在していた。そして、こちらは「英語、中国語（簡体字・繁体）、日本語、ドイツ語」をカバーすると明記されている。

学習データには、Aplacaデータセットに加え、自前の53.4万件超の多言語インストラクションデータセットを使っており、ここに日本語データも一定割合含まれるとのこと。

どうやらモデル作者のJosephusCheung氏は「ワシントン大学のGuanaco」よりも先に、Guanacoと称するLlamaファインチューンモデルの公開を始めていたらしく、モデルカード内で彼らのネーミングに対する不満を述べている。まあ、リャマ、アルパカと来れば、グアナコなんて誰もが選びそうな名前ではある。

Google Colabで試す

日本語対応を明記するLlama系モデルは珍しいので、さっそく試してみた。ベースモデルはLlama-1 7Bで、13Bや33Bは扱ってないようである。

作者謹製のGoogle Colabが用意されており、こちらでGradioのチャットUIを起動して試すことができる。

結論から言うと、残念ながらVicunaのような高い日本語性能はなさそうである。とはいえLlama-1の7Bモデルがベースであることを考えると、悪くはないと感じる。

作者は中国語ファインチューンのモデルをいくつか公開しているようで、わりとダウンロード数が多い。おそらくこのモデルも主な狙いは中国語対応であって、中国語ユーザーにはけっこう評判がいいのかもしれない。

日本語利用の観点では、モデルよりもむしろこの作者が公開している「GuanacoDataset」の方が興味を引く。

日本語多めの「GuanacoDataset」

「GuanacoDataset」は上記のモデルの学習に使われた英中日独の4か国語からなる多言語データセットで、ライセンスはGPLv3。

作者のrepoには複数の形式のデータセットがまとめてアップロードされており、構成のおおむね1割程度が日本語となっている様子。

■「GuanacoDataset」日本語データのサンプル

Input "申し訳ありませんが、医師の病歴に関する具体的で詳細な内容を提供するためには、以下の情報が必要です。 - 経過中の疾患や症状は何ですか？ - 病気の発症時期や進行度はどの程度ですか？ - この疾患に対してどのような治療が行われましたか？ - 病気の治療結果はどうでしたか？ - 現在の健康状態はどうですか？"
instruction "現在の健康状態についてどのような情報が必要ですか？"
Output "現在の健康状態についての情報が必要です。"

Input "日本航空は、東京羽田と新千歳の間を結ぶ「羽田-新千歳線」に参入し、全日空は、東京羽田と鹿児島の間を結ぶ「羽田-鹿児島線」を就航しました。乗客からは「便利になった」「価格も安くなったので嬉しい」といった声が寄せられています。"
instruction "乗客から寄せられた声にはどのようなものがありますか？"
Output "乗客からは、「便利になった」「価格も安くなったので嬉しい」といった声が寄せられています。"

Input "それは、外の世界から来た者は、その異世界にとどまることができないというものだった。主人公は、その世界にとどまってしまうことを恐れ、必死に帰路を探し続けた。そして、彼は自分がこの異世界に迷い込んで、ただちに帰路を見つけなければならない理由があることに気づいた。彼は、この異世界で待ち受ける運命と戦い、必死に自分の目的を果たすことを試みた。"
instruction "主人公は何に向かって必死に戦ったのか？"
Output "主人公はこの異世界で待ち受ける運命と戦い、必死に自分の目的を果たすことを試みた。具体的な目的や戦いの内容は記載されていないため、それについてはわかりません。"

general_questions-utf8.json

一部は、AlapacaデータセットをもとにGPT3.5で生成したようだが、その他のデータの具体的な生成手順はいまひとつ明確でない。

データセットによってはぎこちない日本語が散見される一方で、「additional」というフォルダに含まれるデータセットは総じて日本語が自然で、トピック的にもバリエーションに富んでいる。

既存の日本語インストラクションデータセットは英語翻訳のものが多いので、このタイプのデータセットはわりと有益かもしれないと思った。