
さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す
StableVicunaの概要
高いパフォーマンスを実現するために、Vicuna をベースモデルとして活用し、以下の3段階のRLHFパイプラインを採用して訓練しています。 具体的には、3つのデータセットを混合したものを用いて、ベースとなるVicuna モデルをさらに教師付き微調整(SFT)により訓練しています:
OpenAssistant Conversations Dataset (OASST1)は、人間が生成し、人間が注釈を付けたアシスタントスタイルの会話コーパスで、35種類の言語、66,497本の会話ツリーに分散した161,443件のメッセージから構成
GPT4All Prompt Generations、GPT-3.5 Turboで生成された437,605個のプロンプトとレスポンスのデータセット
OpenAIのtext-davinci-003エンジンで生成された52,000の命令とデモのデータセットであるAlpaca
Vicuna-13Bよりも、ほとんどの指標で高精度な結果

使用方法ほか
Hugginface形式のLLaMA-13Bにウェイトに対してウェイトデルタを適用
8bit量子化して読み込んだ場合、GPUメモリ消費は13GB程度
推論速度は、RTX3090で、4.5 tokens/s程度

感想
日本語でも結構まともな会話のやり取りができそうです。わたしにはVicuna-13Bとの差は実感できませんでしたが、ちょっとしたチャットボット用途(スタックチャンの会話エンジンとか)には十分な品質だと思います。
PythonのプログラムのやりとりもGPT-3.5-turboと遜色ないかも。

text-generation-webuiのgoogle翻訳プラグインを使って、内部的に英語で処理するとより深い内容の会話ができる印象です。

ファインチューニング等はご家庭の環境ではハードルが高いですが、量子化したモデルでの推論をはローカル環境でも十分実用可能なレベルになってきた気がします。
また、StabilityAIでは、イケてるチャットインターフェースを開発中とのこと。そちらも楽しみですね!
それでは。お付き合いいただきありがとうございました。