![見出し画像](https://assets.st-note.com/production/uploads/images/143419940/rectangle_large_type_2_faf89167b4193cdb757fdab34754c7bd.png?width=1200)
アリス問題による日本語推論能力の比較
https://t.co/NOg52wuY3z
— mutaguchi (@mutaguchi) June 8, 2024
まあ言われなくても分かってる話ではあるし、アリス問題ではGPT-4oがぶっちぎり世界最強なのも感覚的に合致する。
で、アリス問題って具体的になんなんだ、と思ってみたら、こんなのだ。https://t.co/xI08RS6yd7…
このツィートを見て、論文もざっくり確認しましたが、自分の体感とも少し異なっているため、英語ではなく日本語で、簡単に調査してみることにしました。
調査方法
基本的にhttps://arena.lmsys.org/で対戦しまくることで、結果がどうなるかを確認した。いくつかは、対戦でなくダイレクトチャットで追試をした。
また、PerplexityにあるモデルはPerplexityでもテストした。
使用したプロンプトは「女の子のアリスには4人の兄弟と1人の姉妹がいます。アリスの兄弟には何人の姉妹がいますか?」とし、LLMがアリスの性別がわからない為答えられませんとか言い出すことがないように調整した。
元のテストと異なり、姉妹や兄弟の人数を変えてのテストはしてないため、正確なものでないのは注意されたい。
誰かが、このテストを日本語で行って、論文にしてくれるのを期待する。
テスト結果の画像については次のnoteに全て上げてあるので気になる方は確認してください。
https://note.com/willplion/n/n72b36a50419c
結果
OpenAI、GPT4系列とGPT3.5
まずOpenAIのGPT4系列のモデルはいずれも正しい回答を行った。複数回でてきても間違えたことはなかったため、正答率は100%と言ってよい。GPT3.5は逆に正答することはできなかった。
Anthropic、Claude3-Opus、Sonnet、Haiku
AnthropicのClaude3-Opusももちろん正解した。対戦には出てこなかったため、Perplexityで一回、ダイレクトチャットで一回行ったがいずれも正解した。試行回数は少ないが、このクラスのLLMであれば正解できるということがわかった。
残念ながら、Sonnetは正解できず、Haikuは何故か一回正解できたが、これはまぐれ当たりであろう。
Google Gemini1.5-Pro-latestとGemini1.0-ProとGemini1.5-Flash
GoogleのGemini1.5-Pro-latestは複数回でてきて、手元でAPIで回答させても正答率は100%だったが、Gemini1.0-Proは手元でAPIで回答させたところ正答率は0%だった。この0.5分のバージョンアップで日本語推論能力が大幅に向上したことがわかる。
また、最近Gemini1.5-Flash推しの自分としては極めて残念な結果だが、Flashの正答率は0%で論外だった。
Reka-CoreとReka-Flash、Reka-Edge
以外な結果だったのがReka-Coreだ。率直に行って、一度試して以降は、サイトが重くなったこともあるし、使うこともなく存在も忘れていたが、正答率は100%だった。どうやら公式ページのベンチマーク結果に嘘偽りはなかったようだ。なお、Reka-Core以外の下位モデルは駄目だった。
https://www.reka.ai/news/reka-core-our-frontier-class-multimodal-language-model
Qwen2-72B
Qwen2-72Bは何故か一回だけ間違ったのだが、ほぼすべて正答したので、充分な日本語推論能力を保有していることが確認できた。なかなかの脅威である。
それ以外のQwen1.5-110Bなどのモデルは登場回数は少なかったが正答率0%だった。
中国製LLMのライセンス問題は次のnoteを確認してください。
Perplexity Sonar-large-32k
Llama3-70Bの強化学習モデルだが、Labsでのテストだと英語だが正解。Perplexityの通常使用だと日本語でちゃんと回答し、正解した。
Yi-large-preview
Yi-large-previewは回数が少なかったため追試したが、正答率は50%といったところだった。previewでないYi-largeは登場回数が少なかったが、これは正答率は30%程度で、日本語推論応力に問題があった。
Cohere Command-R+とCommand-R
CohereのCommand-R+は残念な結果となった。回答が1か2かどちらかを数値だけで回答し、大体の正答率が30%といったところであった。Command-Rは駄目だった。
Microsoft Phi3-medium、Small、mini
Phi3-mediumは驚くことにほぼ50%の確率で正解した。わずか14Bサイズで正答できるだけでも驚きである。Smallとminiはさすがに正答できなかった。
Llama3-70B
とても残念なことなのだが、Llama3-70Bは複数回出てきたのだが、一回も正答できなかった。
PerplexityのSonar-large-32kが正当できていることから考えると、やはり日本語の学習量が少なすぎて、日本語での推論能力に問題があるのだろう。
結論
ほとんどのLLMプロバイダーの上位モデルにおいては、アリス問題に関しては回答ができることがわかった。特に最新のモデルであれば答えられて当たり前といった状態になっている。
残念なのはオープンモデルの雄であるLlama3-70Bが論外だったことだ。
それでもLlama3-70Bの強化学習モデルであるPerplexityのSonar-large-32kが回答できていることを考えれば、適切な追加学習で日本語での推論能力が獲得できたと見ることが出来る。
そうなってくると、俄然期待したくなるのはPhi3-mediumの日本語強化学習モデルの登場だろう。ローカルで本当の意味で賢さを持ったモデルが使えるとなると夢が広がる。
逆にGemini1.5-FlashをAPI経由で最近メインで使っている自分には、この問題に全く回答できないのは大変残念だった。
今後のさらなる学習に期待したい。
なおページの画像はStableCascadeを使用して、fantasy, whimsical, Alice in Wonderland, Cheshire Cat, tea party, clock, rabbit hole, playing cards, mushrooms, vibrant colors, surreal, dreamlike, detailed, intricate, high resolutionというプロンプトで出力した画像。プロンプトはGemini1.5-FlashにStablediffusion用プロンプト作成用のシステムプロンプトを使用して作成したものです。