「MLX」で「RakutenAI-7B」を試したので、まとめました。
1. RakutenAI-7B
「RakutenAI-7B」は、楽天が開発した日本語LLMです。
2. 推論の実行
「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。
推論の実行手順は、次のとおりです。
(1) Pythonの仮想環境の準備。
今回は、「Python 3.10」の仮想環境を準備しました。
(2) パッケージのインストール。
pip install mlx-lm
(3) mlx_lm.generateコマンドの実行。
今回は、「Rakuten/RakutenAI-7B-chat」を使用します。--ignore-chat-templateでチャットテンプレート無効化して、プロンプトに直接含めています。
初回はモデルダウンロードするため時間がかかります。モデルはHuggingFaceのキャッシュ (~/.cache/huggingface/hub/) で保持されます。
python -m mlx_lm.generate --model Rakuten/RakutenAI-7B-chat --prompt "USER: まどか☆マギカで一番かわいいのは誰ですか? ASSISTANT: " --max-tokens 1024 --ignore-chat-template
【おまけ】 mlx_lm.generate のオプション
「python -m mlx_lm.generate --help」でヘルプを表示できます。
【おまけ】 mlx_lm.convert のオプション
「mlx_lm.convert」で、HuggingFaceモデルをMLX形式に変換することができます。
python -m mlx_lm.convert --hf-path mistralai/Mistral-7B-Instruct-v0.1 -q
「python -m mlx_lm.convert --help」でヘルプを表示できます。