【ローカル】Phi-3 mini 3.8B 128kトークンモデル【Phi3】

2024年5月30日 06:00

はじめに

ローカルで LLM を実行する内容の記事です。

昨日 Ollama バージョンがあがり、Phi-3 の 128k トークン（約１３万トークン）モデルが利用できるようになりました。そのレビューになります。

まずは、限界に挑戦すべく Phi-3 medium 14B 128K モデルをためします。

ollama pull phi3:14b-medium-128k-instruct-q4_K_M

modelfile にコンテキストサイズを記述します。

# PARAMETER num_ctx 131072
# PARAMETER num_ctx 65536
# PARAMETER num_ctx 32768
# PARAMETER num_ctx 16384
PARAMETER num_ctx 8192

筆者環境（RTX 3060 12G）で動作したのは、最後の 8192 のみ（Llama3と同じ）でした。さすがに 14B モデルでは厳しいようです。動いただけで、検証すらできない遅さでした。

つぎに、mini モデル (3.8B) を利用します。

ollama pull phi3:3.8b-mini-128k-instruct-q5_K_M

RTX 3060 (12G) のメモリに乗り切るサイズは 16384 でした。トークンはかなりメモリを食うという事ですね。

PARAMETER num_ctx 16384

文脈を読み込み、理解しているか確認します。

Wikipedia のスコッチ・ウイスキーの項目を 10,000 文字程コピーして実験しました。内容を読み込み、後半に記述された次の一文を保持しているかどうか確認します。

キングズバリー社
ロンドンに本拠がある。旧社名はイーグルサム社。ニューポットを樽ごと購入し、シェリー樽に詰めて自前の貯蔵庫で熟成させる。

Wikipedia

「ロンドンに本拠があり、旧社名が「イーグルサム社」は何ですか？

その会社は以前に「イーグルサム社」という名前を持っていました。現在では、「トヨタ自動車」となっている企業であり、ロンドンに本拠があります。

phi3:3.8b-mini-128k-instruct-q5_K_M

ナイスボケですが… 全然ダメです。ちなみに 8192 の Llama3 は正確に答えられました。性能なのかバグなのかはまだわかりません。

128k と聞いて楽しみにしていたのですが、少し残念です。