【ローカル】Phi-3 mini 3.8B 128kトークンモデル【Phi3】
はじめに
ローカルで LLM を実行する内容の記事です。
昨日 Ollama バージョンがあがり、Phi-3 の 128k トークン(約13万トークン)モデルが利用できるようになりました。そのレビューになります。
導入
まずは、限界に挑戦すべく Phi-3 medium 14B 128K モデルをためします。
ollama pull phi3:14b-medium-128k-instruct-q4_K_M
modelfile にコンテキストサイズを記述します。
# PARAMETER num_ctx 131072
# PARAMETER num_ctx 65536
# PARAMETER num_ctx 32768
# PARAMETER num_ctx 16384
PARAMETER num_ctx 8192
筆者環境(RTX 3060 12G)で動作したのは、最後の 8192 のみ(Llama3と同じ)でした。さすがに 14B モデルでは厳しいようです。動いただけで、検証すらできない遅さでした。
つぎに、mini モデル (3.8B) を利用します。
ollama pull phi3:3.8b-mini-128k-instruct-q5_K_M
RTX 3060 (12G) のメモリに乗り切るサイズは 16384 でした。トークンはかなりメモリを食うという事ですね。
PARAMETER num_ctx 16384
検証
文脈を読み込み、理解しているか確認します。
Wikipedia のスコッチ・ウイスキーの項目を 10,000 文字程コピーして実験しました。内容を読み込み、後半に記述された次の一文を保持しているかどうか確認します。
「ロンドンに本拠があり、旧社名が「イーグルサム社」は何ですか?
ナイスボケですが… 全然ダメです。ちなみに 8192 の Llama3 は正確に答えられました。性能なのかバグなのかはまだわかりません。
128k と聞いて楽しみにしていたのですが、少し残念です。