見出し画像

【独断】ローカルLLMのトップ3【偏見】

はじめに

LLMとは(Large Language Model)の略称で、膨大な量のテキストデータを学習することで、人間のように自然な文章を生成したり、質問に答えたりすることができるAIモデルの事です。

ChatGPTやGemini等が有名ですが、パラメータサイズが400B〜1500B(1.5T)以上のそれらと異なり、家庭のパソコン(ローカル)で利用できる小規模なLLMです。一般に3B〜12Bのものは、家庭用の普及帯GPU(6GB〜16GBのGPUメモリ)で実行可能です。

※ ローカル実行に特化したものを、SLM(Small or Special (L)LM)と表記される事もありますが、Small なのか Largeなのかはっきりしろと思います… そもそも最も小さい1.5/3Bモデルでも、数年前では大規模モデルでしたから。今の主流が数百数千Bというのがおかしいのです。

この記事では、筆者の独断と偏見で8B規模(GPUメモリが8GB程度で動作する家庭用PCで動作)の2024年7月現在のLLMトップ3ランキングを作ってみました。

もちろん、ベンチマーク等の定量的で客観的な評価は行なっておらず、筆者の日常用途での、いわゆる「ただの感想」です。

※ LLMはシステムプロンプトやテンプレート・RAG設定で使用感・性能が大きく変わります。下記事で紹介している設定で利用しているものです

1位

Qwen2(8B)

  • 開発元:アリババ社(中国)

  • 量子化:Q5_K_M←軽量化手法です。基本的に大きなものほど精密な計算になります

  • コンテキストサイズ:32k

入手方法

ollama pull qwen2

※ 筆者がテスト利用したのは、デフォルトではなく少し大きい「qwen2:7b-instruct-q5_K_M」です

良い点

コンテキストサイズが最大128k(Ollamaでダウンロードできるinstructモデルは32k)で、長文に対応できます。公式で日本語対応を謳っている数少ない海外モデルです。プログラム言語にも強くスニペット生成も優秀です。

LLMを要約用途で利用する場合は、コンテキストサイズが非常に重要になります。ネット記事でも、長文だと1万文字(10k)を超える事は一般的なので、コンテキストサイズ+実用的な性能で1位にしました。

悪い点

中国簡体字やハングル文字を不意に吐き出します。つまり、データとしてクリーンなものが作れないので、RAGやチューニング用データ作成には不向きです。

2位

Llama3-Elyza(8B)

  • 開発元:Elyza社(日本)

  • 量子化:Q4_K_M

  • コンテキストサイズ:8k

入手方法

「Files and versions」からLlama-3-ELYZA-JP-8B-q4_k_m.ggufをダウンロードし、ollamaへインポートします。※ 詳細は【ローカルLLM】Ollama Open WebUI 完全解説【初級向け】で解説しています。

良い点

Meta社のLlama3をベースに日本語チューニングを行なったモデルです。日本語ローカルLLMでは間違いなく飛び抜けて最高性能です。複雑でない一般的な日本語チャット用途であれば、ChatGPT-4に迫る性能はあると思います。

悪い点

コンテキストサイズが8kであるため、用途が限定されます。

3位

Gemma2(9.2B)

  • 開発元:Google(米)

  • 量子化:Q4_K_M

  • コンテキストサイズ:8k

入手方法

ollama pull gemma2

※ 筆者が利用したのは、Ollamaのものではなく、dahara1氏のimatrix版を利用しています。

良い点

さすが大手のモデルであり、論理推論の性能と日本語性能のバランスが最も良いと思います。(正式には日本語に対応していないはずですが)日常のチャット用途であればElyza3かGemma2で間違いはないと思います。日本語ではElyza3、論理推論ではGemma2です。

悪い点

コンテキストサイズが8kと小さく、若干 Ollama Open WebUIと相性が悪いようなので、Elyzaよりも順位を落としました。

まとめ

最近Llama3.1やMystral-NeMoが利用可能になりましたが、期待しすぎていた事もあり、残念な日本語性能でがっかりしています。英語性能はベンチマークにあるような性能を出すのでしょうが、日本語ではかなり性能落差があります。

また、ランキングにはありませんが、マイクロソフトのPhi3も日本語性能が残念すぎます。(Copilot-PCに搭載されるのが遅れているのも、日本語性能の問題があるからでしょうね)

実際にローカルでLLMを利用する場合、文章要約やデータ整形が多いので、コンテキストサイズが8kだと実際のところあまり役にたちません。Qwen2が一位であるのは、「日本語がある程度まともで、かつコンテキストサイズが大きいもの」だからです。実用性を考えると「コンテキストサイズ」が必須条件と言えます。

もしLlama3.1-Elyzaが出れば1位間違いないでしょう。

以下、関連記事の【PR】です。


いいなと思ったら応援しよう!