【SLM】Gemma2-2B-JPN-ITを使ってみた話【軽量モデル】
はじめに
GoogleのLLM Gemma2の日本語版(2Bモデル)を使ってみました。
Gemma2の日本語チューニングモデルで、非常に軽量な2Bモデルです。4GB程度のGPUメモリ(VRAM)でも十分動作します。
※ GemmaはGoogle Geminiと同じ技術のオープンモデルとされているものです。
Google公式huggingfaceページはこちら
実際に筆者が試した(alfredplpl氏によって量子化GGUFされた)モデルはこちら、
一般にLLM(Large Language Model)は、8Bや70B(Bはbillion/十億)などのパラメータ規模によって、およその動作する機器が決まります。
〜3B
モバイルデバイスやエントリーGPUで動作
SLM(Small Language Model)と呼ばれる事もある
〜12B
家庭用ゲーミングPCで動作
〜80B
企業ローカルで運用するサーバーで動作
複数のGPUを搭載したつよつよゲーミングPCで動作させる人もそれなりにいる
実用性はないが、CPU動作なら64GBシステムメモリでも動作可能
80B〜
大規模データセンターで動作
ChatGPT-4は500B〜と考えられている
つまりGemma2 2Bは、Geforce GTX1650(4GB)でも十分実用的に動作するモデルです。
導入方法
筆者は、上記のalfredpIpl/gemma-2-2b-jpn-it-gguf(Q4_K_M)を利用していますが、Ollamaライブラリにも、有志の方がGGUFに変換したモデルがいくつか登録されています。少し大きめの量子化(Q8_0)ですが、4GBのGPUメモリでも動作するはずです。
Ollama本体は下記レポジトリからダウンロードできます。
Ollamaはコマンドラインでもチャット利用できます。lucas2024氏のモデルを利用する場合は、
ollama run lucas2024/gemma-2-2b-jpn-it:q8_0
モデルが自動でダウンロードされ、チャットを開始できます。
動作テスト
単純なチャット
東京の観光名所を教えてください。
英語と漢字が混ざってしまっていますが、十分実用的な情報になっていると思います。
ただし小さなモデルに「What」を要求すると、ハルシネーションが酷くなりがちなので、実用性を考えた場合は、RAGを利用したり、次のような要約用途が適切でしょう。
要約用途の性能確認
Wikipediaの日本の歴史の項の要約
翻訳&要約用途の性能確認
まずまずの性能だと思います。
まとめ
他の人気の高いSLMとしては、Metaのllama3.2(1B/3B)、マイクロソフトのPhi-3.5(3.8B)があります。一応は日本語対応とされていますが、やはり日本語チューニングされたモデルと比べると日本語性能で大きく劣ります。
画像生成の英語プロンプトなどの用途にはllama3.2は非常に有用ですが、日本語を扱う場合はGemma2 2B jpnが圧勝でしょう。
ローカルで高速に翻訳や要約を行う場合の用途やWebページのコパイロット用途には最適だと思います。
以下、関連記事の【PR】です。