見出し画像

無償LLM 日本語能力ベンチマークまとめ(23/11/15)

日々新しいオープンソースのLLMまたはllama2のような無償使用可能なLLMが出てくるので定期的にベンチマークをとって性能評価をまとめておきます。新しい日本語対応LLMが出るたびに更新していきます。

23/11/15

Japanese-MT-Bench

RWKV-V5-World-1.5Bを追加。他の3Bモデルと遜色ない性能

RWKV-V5-World-v2-3Bを追加

もちろん1.5Bよりは高性能だが倍の性能というわけではなさそう

23/11/9

Japanese-MT-Bench

GPT-4-Turbo-1106のベンチマークを追加。コーディング能力が大幅に向上

23/11/7

Japanese-MT-Bench

GPT-3.5-Turbo-1106がリリースされたので追加


23/11/5

Japanese-MT-Bench

OpenCALM2-7B-Chatがfloat16で計測していたので、bfloat16で再度計算
ELYZAに匹敵する高性能になった上、32Kトークンに対応と大幅に機能が強化された

OpenCALM2はELYZA-7Bに匹敵する性能でかつ32Kトークン対応

23/11/4

Japanese-MT-Bench

OpenCALM2-7B-Chatを追加

23/11/3

Japanese-MT-Bench

Japanese-StableLM-Instruct-ja_vocab_beta-7Bを追加(オレンジ色)
OpenCALM2は現在テスト中

23/11/2

Japanese-MT-Bench

Zepher-7b-betaを追加しました。

23/10/31

Japanese-MT-Bench

Stability.AiによるJapanese-MT-Benchをベースに各種LLMの日本語能力の比較を行いました。使用したのはこちらにあるquestion_full.jsonlとjudge_ja_prompts.jsonlです。角LLMに共通の質問に答えさせ、その結果をGPT-4が採点しています(GPT-4が採点するのでその分お金がかかっています)。


(c310) memeplex@memeplex-Super-Server:~/media/git/FastChat/fastchat/llm_judge$ python show_result.py --bench-name japanese_mt_bench
Mode: single
Input file: data/japanese_mt_bench/model_judgment/gpt-4_single.jsonl

########## First turn ##########
model                                              turn          
gpt-3.5-turbo                                      1     8.412500
ELYZA-japanese-Llama-2-7b-fast-instruct            1     4.862500
ja-stablelm-instruct-gamma-7b                      1     4.012500
japanese-stablelm-instruct-alpha-7b                1     2.742857
ja-stablelm-instruct-3b-4e1t                       1     2.237500
Mistral-7B-OpenOrca-ja                             1     2.231250
youri-7b-chat                                      1     2.000000
Mistral-7B-Instruct-v0.1                           1     1.775000
llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0   1     1.312500

10/31時点での所見

Elyzaが頭ひとつ抜けた性能。Rinnaの新しいマルチターン対応LLMであるyouri-7b-chatはあまり性能が発揮できていない模様。GPT-3.5-turbo以外は特にライティングとロールプレイが弱いようです。