リベンジ
python convert.py --model "Qwen/Qwen-14B-Chat" --mlx-path "mlx_14Bmodel" -q --q-bits 4
量子化成功
ということなので、下記のコードで。
python qwen.py --model-path "mlx_14Bmodel" --prompt "tell me who you are."
出力が変でした。出力表示カット〜
tokenizerも指定しないといけなかったかも?
python qwen.py --model-path "mlx_14Bmodel" --tokenizer "mlx_14Bmodel" --prompt "tell me who you are."
上は間違いのようです。
python qwen.py --model-path "mlx_14Bmodel" --tokenizer "Qwen/Qwen-14B-Chat" --prompt "tell me who you are."
tokenizerがダウンロードされましたが、出力はやっぱりおかしいですね。
出力表示、これもカット〜
chatモデルではダメなんでしょうか。
baseモデルで再挑戦します。
python convert.py --model "Qwen/Qwen-14B" --mlx-path "mlx_14BBaseModel" -q --q-bits 4
それで、次。
python qwen.py --model-path "mlx_14BBaseModel" --tokenizer "Qwen/Qwen-14B" --prompt "tell me who you are."
う〜ん やっぱりうまく出力されません… 表示カット〜〜〜
量子化あきらめてみます。とりあえず、14B-Chatモデルをそのままconversion.
python convert.py --model "Qwen/Qwen-14B-Chat" --mlx-path "mlx_14Bmodel"
こんどはchatモデルうまくいきました。
続きが見たいので、--max-tokens をいれてみます。
残念・・・ なんか調整が色々いるのでしょうかね。
#AI #AIとやってみた #やってみた #Qwen #mlx