見出し画像

【ローカルSLM】Rakuten AI 2.0-miniを使ってみた話【楽天】

はじめに

Rakuten AI 2.0が公開されたので試してみました。モデルは2種類あり、7Bのモデルを8連結(MoE)した大規模モデルと、1.5BのSLMモデルが、huggingfaceで公開されています。

残念ながら、前者のLLMはアクティブ時こそ14Bで動作するそうですが、モデルサイズが大きく、ローカルパソコンでは難しそうです。動作テストは2.0-miniの1.5Bモデルになります。

導入

既にmmngaさんがgguf変換をされているので、それを利用します。

※ しかし筆者のみのおま環の気がしますが、Windows版ollamaで動作させると、正しくGPU動作しません。

Linux上(GTX1660ti+1650の合計10GB VRAM)での動作確認です。

ダウンロード

比較的新しいバージョンのollamaコマンドなら、huggingfaceから直接入手できます。

# Q8_0量子化のモデルをダウンロード
ollama pull hf.co/mmnga/RakutenAI-2.0-mini-instruct-gguf:Q8_0
# 情報表示
ollama show hf.co/mmnga/RakutenAI-2.0-mini-instruct-gguf:Q8_0
  Model
    architecture        llama      
    parameters          1.5B       
    context length      131072     
    embedding length    2048       
    quantization        unknown    

  Parameters
    stop    "USER:"

最大のコンテキストは128K利用できるようです。GTX1660ti+1650上で32Kまで利用できます。

動作確認

(ollama) OpenWebUIでの動作テストです。

知識はダメですが、日本語はちゃんとできています。

ネット検索(RAG)を試します。

見当はずれの回答ですが、ネット検索先がおかしいようです。ただし、ピックアップしたものを統合できていない気がします。

要約用途

Wikipedia「日本の歴史」の古代の部(約9000文字)の要約をさせました。

一回目:暴走しました
二度目の挑戦ですが、いまいちです。

まとめ

本丸である8×7B MoEモデルが利用できないので何とも言えませんが、2.0-miniは規模相応の性能だと思います。Gemma(jpn)やQwenの3Bモデルと同程度だと思います。

ただし、簡体字やハングルを混ぜてしまったりする日本語間違いがない点は、日本企業の日本語モデルとして評価できると思います。


いいなと思ったら応援しよう!