Command R+ GPTQをローカルLLMとしてvllmでOpenAI API互換サーバ動作させてみた話
大阪成蹊大学データサイエンス学部の鎌原です。
うちの学部にはNVIDIA A100 80GBを2基積んだ仮想サーバがあります。
Cohere For AI (https://cohere.com/)のCommand RというLLMがなかなか性能がよいという話で、非営利で重みも公開しているということなのでCommand R plusを早速ローカルで試してみると、4bitで読み込んでもなかなか良い応答をしてくれます。
ということでOpen AI互換サーバとして動作させたいと思っ