
【ローカルSLM】Rakuten AI 2.0-miniを使ってみた話【楽天】
はじめに
Rakuten AI 2.0が公開されたので試してみました。モデルは2種類あり、7Bのモデルを8連結(MoE)した大規模モデルと、1.5BのSLMモデルが、huggingfaceで公開されています。
残念ながら、前者のLLMはアクティブ時こそ14Bで動作するそうですが、モデルサイズが大きく、ローカルパソコンでは難しそうです。動作テストは2.0-miniの1.5Bモデルになります。
導入
既にmmngaさんがgguf変換をされているので、それを利用します。
※ しかし筆者のみのおま環の気がしますが、Windows版ollamaで動作させると、正しくGPU動作しません。
Linux上(GTX1660ti+1650の合計10GB VRAM)での動作確認です。
ダウンロード
比較的新しいバージョンのollamaコマンドなら、huggingfaceから直接入手できます。
# Q8_0量子化のモデルをダウンロード
ollama pull hf.co/mmnga/RakutenAI-2.0-mini-instruct-gguf:Q8_0
# 情報表示
ollama show hf.co/mmnga/RakutenAI-2.0-mini-instruct-gguf:Q8_0
Model
architecture llama
parameters 1.5B
context length 131072
embedding length 2048
quantization unknown
Parameters
stop "USER:"
最大のコンテキストは128K利用できるようです。GTX1660ti+1650上で32Kまで利用できます。
動作確認
(ollama) OpenWebUIでの動作テストです。

ネット検索(RAG)を試します。

要約用途
Wikipedia「日本の歴史」の古代の部(約9000文字)の要約をさせました。


まとめ
本丸である8×7B MoEモデルが利用できないので何とも言えませんが、2.0-miniは規模相応の性能だと思います。Gemma(jpn)やQwenの3Bモデルと同程度だと思います。
ただし、簡体字やハングルを混ぜてしまったりする日本語間違いがない点は、日本企業の日本語モデルとして評価できると思います。