DeepSeek-V3を試してみたらGPT-4oの代替になるレベルの性能と低価格を提供してくれた

2024年12月28日 19:43

生成AIの代表格である大規模言語モデル (LLM) はすでに多くの企業が参入しており、私が開発している生成AI並列処理ライブラリ LLMMaster の保守が追いつかなくなってきています。

日本企業も開発しているものの、まだ目立った基盤モデルは出てきません。一方中国ではアリババのQwenなどのモデルが出てきています。そのような中、DeepSeekがV3という、GPT-4o越えの性能と低価格を備えたモデルを発表しました。

この記事では速報としてのスペック調査と性能評価をしました。ベンチマークではなく実務に使えるのか、という点でのまとめです。

🚀 Introducing DeepSeek-V3!

Biggest leap forward yet:
⚡ 60 tokens/second (3x faster than V2!)
💪 Enhanced capabilities
🛠 API compatibility intact
🌍 Fully open-source models & papers

🐋 1/n pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) December 26, 2024

DeepSeek-V3で賑わってたけどベンチマークとか値段が安いとか官能小説とかしか話題にならないから、ちゃんとタスクができるか検証。

タスク：monjuのマインドマップとクラス図が同じプロンプトで生成できるか？

結果➡できた… pic.twitter.com/mjyEZOoyDL
— ダイブツ🇧🇪 (@habatakurikei) December 27, 2024

スペック

値段はGPT-4oの10分の1

上図はAPIの価格で私が良く使うものだけをピックアップしたものです。

誰かのポストを見たところ DeepSeek の値段が安すぎたので自分で調べてみました。どうやら期間限定の割引価格であることがわかりました。上図は公式情報をまとめました。

DeepSeekの記事執筆時点での価格です。

入力： 0.27 USD / 100 万トークン
出力： 1.10 USD / 100 万トークン

これはGPT4-oの1/10, 4o-mini の約2倍、Claude 3 Haiku とほぼ同じです。割引しなくても十分に安いです。これだけ安いと本当に性能いいのか？と疑いたくなるのは仕方ありません。

ベンチマークも良好

値段は安価なうえに英語・コーディング・数学などのベンチマークも良好な結果だとされています。私はベンチマークよりも実務を重視するので検証は控えます。

参考までにチャエンさんのポストを貼り付けます。

中国企業がGPT-4o超えオープンソースAIモデル「DeepSeek V3」を公開

高性能、高速出力、安価なAPI費用と万能なモデル。
性能×値段では世界トップレベル。

ウェブ版も無料で使えて、ChatGPTでは不可能なエロ系、過激系の出力も可能。ファイル添付、検索、推論もあり高機能で普通に便利。

使い方↓ pic.twitter.com/ogIy18wMEn
— チャエンデジライズ CEO重要AIニュースを毎日最速で発信⚡️ (@masahirochaen) December 27, 2024

機能はテキスト処理に特化

上図はDeepSeekのチャット画面です。ChatGPTと同じ画面構成です。ウェブサーチ、o1のような推論機能、画像やPDFファイルの添付ができるようです。昨今のサービスの最低限のサービスは提供されているようです（未使用）。

私は開発者側なのでAPIが気になります。

モデル： deepseek-chat
- チャット機能（JSON構造化出力対応）
- FIM (Fill-In-the-Middle) Completion: 文章の間を補完するチャット、プログラムの途中のロジック補完などに用途あり（ベータ版）
- ファンクションコーリング
- コンテキストキャッシング
入出力トークン
- コンテキスト長（入力）： 64,000 (64K)
- 最大出力トークン数： 8,192 (8K)

マルチモーダルではなく Anthropic/Claude のようにテキストの扱いに集中しているようです。

外部リンク：APIドキュメント

オープンソースなのでファインチューニング可能

さらにDeepSeekはオープンソースとしてコードもパラメータも公開されています。つまりダウンロードしてファインチューニングが可能です（ざっと見たところ制約はなさそう）。

GPT-4o レベルの言語モデルがローカルで動かせるようになれば一般的な用途ならそのまま使えます。また特定用途にファインチューニングするにしても、これまでよりも学習データの準備とかチューニングの負担は減りますね。

ライセンスはMITです。

外部リンク：GitHub

外部リンク：HuggingFace

実際に使ってみた結果『コスト削減になるかも』

文章出力は他のモデルと遜色なし

実際に使ってみましょう。まずはDeepSeekトップページからアカウントを作りAPIキーをお取りください。

ざっとこのようなプログラムをPythonで書きました。テスト用にコピペしてお使いください。ここでは deepseek_test.py としましょう。

念の為、こちらにお気をつけください。

外部ライブラリ requests が必要です。
環境変数 "DEEPSEEK_API_KEY" にAPIキーをセットしてから実行してください。

'''
このスクリプトの実行前に環境変数に下記のAPI KEYをセットしてください
Mac/Linux: export DEEPSEEK_API_KEY="your_key"
Windows: SET DEEPSEEK_API_KEY=your_key
'''
import os
import json
import requests
import time

prompt = "ソニーの歴史を教えてくれますか？"
temperature = 0.7

url = "https://api.deepseek.com/chat/completions"

headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {os.getenv('DEEPSEEK_API_KEY')}"
}

data = {
    "messages": [
        {
            "role": "user",
            "content": prompt
        }
    ],
    "model": "deepseek-chat",
    "stream": False,
    "temperature": temperature
}

print(f"プロンプト：\n{prompt}")
print("召喚します！")

time_start = time.time()
ans = requests.post(url, headers=headers, json=data)
time_end = time.time()

print(f"実行時間 = {time_end-time_start:.3f} (秒)")

if ans.status_code != 200:
    print(f"Status Code = {ans.status_code}")
    print(f"Message = {ans.text}")
else:
    print("Status OK")
    ans_json = ans.json()
    print(f"返答 = {ans_json['choices'][0]['message']['content']}")
    print(f"返答の中身全部=\n{json.dumps(ans_json, indent=2, ensure_ascii=False)}")

テストコードなのでプロンプトはコード内埋め込みです。実行してみましょう。

python deepseek_test.py

JSONで返ってきたコードをベタ貼りします。

{
  "id": "aecec505-2dd3-4c0a-ba57-299a61ef4b0b",
  "object": "chat.completion",
  "created": 1735378849,
  "model": "deepseek-chat",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "ソニー（Sony Corporation）は、日本を代表する多国籍企業の一つで、エレクトロニクス、エンターテインメント、ゲーム、金融サービスなど多岐にわたる事業を展開しています。以下にその歴史を簡単に紹介します。\n\n### 1. **創業期（1946年）**\n   - **1946年5月7日**、井深大（いぶか まさる）と盛田昭夫（もりた あきお）によって「東京通信工業株式会社」として設立されました。当初は、ラジオ修理や電気製品の製造を行っていました。\n\n### 2. **ブランド名「ソニー」の誕生（1958年）**\n   - **1958年**、会社名を「ソニー株式会社」に変更しました。「ソニー」という名前は、ラテン語の「Sonus」（音）と当時流行 していた「Sonny」（若者）を組み合わせた造語で、国際的に通用する名前を目指して選ばれました。\n\n### 3. **画期的な製品の開発**\n   - **1955年**、日本初のトランジスタラジオ「TR-55」を発売。\n   - **1968年**、世界初のトリニトロンカラーテレビ「KV-1310」を発売。\n   - **1979年**、世界初の携帯型音楽プレーヤー「ウォークマン」を発売。これは音楽の聴き方を変える革命的 な製品となりました。\n\n### 4. **エンターテインメント事業への進出**\n   - **1988年**、アメリカの映画会社「コロンビア・ピクチャーズ」を買収し、ソニー・ピクチャーズ・エンターテインメントを設立。\n   - **1994年**、家庭用ゲーム機「PlayStation」を発売。これ以降、ゲーム事業はソニーの重要な収益源となりました。\n\n### 5. **デジタル時代への対応**\n   - **1990年代後半から2000年代**にかけて、デジタルカメラ、デジタルビデオカメラ、VAIOシリーズのパソコンなど、デジタル製品を次々と発売。\n   - **2001年**、PlayStation 2を発売し、家庭用ゲーム機市場で大きな成功を収めました。\n\n### 6. **近年の動向**\n   - **2012年**、PlayStation 4を発売し、ゲーム市場での地位をさらに強化。\n   - **2020年**、PlayStation 5を発売し、次世代ゲーム機市 場で競争力を維持。\n   - **2021年**、ソニーグループ株式会社に社名変更し、グループ全体の経営体制を強化。\n\n### 7. **その他の事業**\n   - 音楽事業では、ソニー・ミュージックエンタテインメントを傘下に持ち、世界的なアーティストを多数抱えていま す。\n   - 金融事業では、ソニー生命保険やソニー銀行などを運営し、多角的な事業展開を行っています。\n\n### 8. **グローバル展開**\n   - ソニーは早くから国際市場に目を向け、アメリカやヨーロッパを中心にグローバルな事業展開を行ってきました。現在 では、世界中に拠点を持ち、多国籍企業としての地位を確立しています。\n\nソニーは、技術革新とブランド力で常に時代の先端を走り続け、世界中の消費者に愛される企業として成長を続けています。"
      },
      "logprobs": null,
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 14,
    "completion_tokens": 843,
    "total_tokens": 857,
    "prompt_cache_hit_tokens": 0,
    "prompt_cache_miss_tokens": 14
  },
  "system_fingerprint": "fp_f1afce2943"
}

DeepSeekの技術資料ではOpenAIのPythonライブラリが使えます。他社モデルと同じコードが使いまわせます。

性能的にはこういう結果になりました。

実行時間： 13.700 (秒)
入力トークン：14
出力トークン：843

以前の記事で Grok 2 に同じプロンプトで性能評価しました。比較するとDeepSeek-V3の方が速く、入力トークン数も少ない、出力トークンは多い結果となりました。価格もDeepSeekの方が Grok 2 より安いです。

フォーマット出力もできた

文章出力はできましたが構造化出力はどうでしょうか？こちらも検証しました。

私が公開しているプロダクト「マルチAIブレインストーミングmonju」ではアイデア整理にGPT4-oを使っています。マインドマップやクラス図に整理したアイデアをマーメイド記法にまとめさせています。

このタスクをDeepSeekにやらせてみました。プロダクトで使用しているプロンプトを変更せずそのまま同じものを使用しました。その結果、上図に示すように文法エラーなしでまとめてくれました。

4o-miniやClaude 3 Haikuは安いけどエラーが出る。Grok 2 やClaude 3.5 Sonnet ではできるが費用が高くなる。しかしDeepSeek-V3は現在使っているGPT-4oの1/10の値段だから劇的にコスト減になります。

さらに検証して問題なさそうなら本実装します。そうするとmonjuの運用費用はサーバー代だけがネックになります。

この一年間での言語モデルの低価格化は本当に脅威ですね。

中国製への懸念はあるか？

IT業界では米国と中国の貿易戦争は激化しています。ファーウェイのルーター問題では個人情報が中国に送信されているのではないかという疑惑がありますし、半導体輸出も規制されています。

このようなAIモデルでも情報が抜き取られる、または学習に利用される心配はあります。しかしそのリスクはほかのモデルでも同じです。機密情報の扱いや政治利用はどの国のAIモデルでも控えるべきです。

DeepSeekはオープンソースなのでコードの検証してローカル実装も手です。しかるべきアクションをとればそれほど脅威に感じる必要はありません。

まとめ：GPT-4oの代替になるかも

まとめると、決して良いイメージではない「安い中華製品」という皮肉はここでも当てはまります。しかし大事なのはユーザーへの価値提供です。

もう少し検証の必要はありますが、これだけのアウトプットで値段がGPT-4oの1/10なら利用価値はあります。monjuへの本格実装や他のプログラムでの使用を検討したいです。

DeepSeekが OpenAI やGoogle/Anthropicの競合になるかは今後も動向をチェックする必要はあります。o1など高性能なモデルは OpenAIやGoogle, 廉価版や普及モデルはDeepSeekや他社製品、といったソフトウェア業界で起きがちな棲み分けが起きることも考えられます。