【ローカルLLM】日本語対応をうたう中華系多言語モデル「Guanaco」を試す
一般に「Guanaco」という名称でよく知られる言語モデルは、2023年5月にワシントン大学の研究者が公表したこちらのモデルである。
このモデルは、彼らが考案したファインチューン手法QLoRAを用いてLlama-1(7B, 13B, 33B, 65B)に微調整を行ったもので、 OpenAssistant Conversations (OASST1)という人手で作成した多言語対話データセットで追加学習している。
OASST1は多言語とはいえ、英語や欧米言語中心のデータセットで、このうち日本語の比率はごくわずか。そのためか、Guanacoの日本語能力は特に高くない。
ところが、HuggingFace上にはもう一つ「Guanaco」と称する別のLlama系モデルが存在していた。そして、こちらは「英語、中国語(簡体字・繁体)、日本語、ドイツ語」をカバーすると明記されている。
学習データには、Aplacaデータセットに加え、自前の53.4万件超の多言語インストラクションデータセットを使っており、ここに日本語データも一定割合含まれるとのこと。
どうやらモデル作者のJosephusCheung氏は「ワシントン大学のGuanaco」よりも先に、Guanacoと称するLlamaファインチューンモデルの公開を始めていたらしく、モデルカード内で彼らのネーミングに対する不満を述べている。まあ、リャマ、アルパカと来れば、グアナコなんて誰もが選びそうな名前ではある。
Google Colabで試す
日本語対応を明記するLlama系モデルは珍しいので、さっそく試してみた。ベースモデルはLlama-1 7Bで、13Bや33Bは扱ってないようである。
作者謹製のGoogle Colabが用意されており、こちらでGradioのチャットUIを起動して試すことができる。
結論から言うと、残念ながらVicunaのような高い日本語性能はなさそうである。とはいえLlama-1の7Bモデルがベースであることを考えると、悪くはないと感じる。
作者は中国語ファインチューンのモデルをいくつか公開しているようで、わりとダウンロード数が多い。おそらくこのモデルも主な狙いは中国語対応であって、中国語ユーザーにはけっこう評判がいいのかもしれない。
日本語利用の観点では、モデルよりもむしろこの作者が公開している「GuanacoDataset」の方が興味を引く。
日本語多めの「GuanacoDataset」
「GuanacoDataset」は上記のモデルの学習に使われた英中日独の4か国語からなる多言語データセットで、ライセンスはGPLv3。
作者のrepoには複数の形式のデータセットがまとめてアップロードされており、構成のおおむね1割程度が日本語となっている様子。
一部は、AlapacaデータセットをもとにGPT3.5で生成したようだが、その他のデータの具体的な生成手順はいまひとつ明確でない。
データセットによってはぎこちない日本語が散見される一方で、「additional」というフォルダに含まれるデータセットは総じて日本語が自然で、トピック的にもバリエーションに富んでいる。
既存の日本語インストラクションデータセットは英語翻訳のものが多いので、このタイプのデータセットはわりと有益かもしれないと思った。