Microsoftが調査開始！DeepSeekのChatGPTデータ不正取得疑惑とAI業界への影響

2025年1月29日 14:41

NVIDIAの株を史上最高に下落させた中華AI、DeepSeekのChatGPT蒸留疑惑にMicrosoftの調査を始めたと言うニュースがありました。

AIの蒸留と言う手法の解説は下記のNoteで解説していますので合わせてご覧ください。

中国のAI企業DeepSeekが、OpenAIのAPIを利用してChatGPT（GPT-4）の出力データを取得し、それを蒸留する形で自社のAIモデルDeepSeek R1を開発した可能性が浮上しました。この疑惑に対し、MicrosoftとOpenAIは調査を開始しているとのことです。

DeepSeek R1の蒸留疑惑とは？

蒸留とは、大規模なAIモデルの知識を小規模なモデルに移植する手法のことです。もしこの過程でOpenAIのAPIを利用してデータを収集し、それを学習に使用していたとしたら、知的財産権の侵害やAPI利用規約違反に該当する可能性があります。

疑惑の流れとしては、以下のようなものが考えられます。

DeepSeekがOpenAIのAPIを大量に使用し、ChatGPTの出力データを取得
収集したデータを用いて「蒸留」された軽量モデル（R1）を作成
それをオープンソース化して拡散

もしこれが事実であれば、OpenAIの技術が不正に流用されたことになり、業界全体に波紋を広げるでしょう。

この疑惑が問題となる理由

この問題が深刻なのは、単なる技術的な違反にとどまらないからです。具体的には、以下のような影響が考えられます。

競合企業がOpenAIの知見を「盗み取った」可能性
→ AIモデルの学習には莫大なコストがかかります。しかし、もしDeepSeekがOpenAIのデータを無断で利用していた場合、数十億ドル規模の投資を回避し、不正に技術をコピーしたことになります。
オープンソース化による影響
→ DeepSeek R1がオープンソースとして公開されることで、OpenAIの技術が無料で広まり、商業モデルの価値が低下する恐れがあります。
中国との関係
→ DeepSeekは、中国のByteDance（TikTokの親会社）との関係も疑われています。この件が事実ならば、米中AI競争の新たな火種となる可能性があります。

下記のポストがわかりやすいので共有しておきます。

拾い物だけどDeepSeekとはなんぞが一番わかりやすい pic.twitter.com/Vt6NNWV1jH
— イング (@ING_gurimore) January 29, 2025

Microsoftが動いたのは重大なサイン

これまでGoogleやAnthropicとの競争はありましたが、「OpenAIの技術が違法コピーされる事件」は初めてのケースです。Microsoftがこの問題に関与し始めたということは、

相当な証拠がある可能性が高い
OpenAIが「技術が盗まれた」と確信している可能性がある

ことを意味しており、事態の深刻さを物語っています。

今後の展開

この問題は今後、以下のような動きにつながる可能性があります。

DeepSeekに対する法的措置（訴訟・API利用停止）
OpenAIがAPIの利用制限を厳しくする可能性
中国AI企業の「オープンソース化」に対する警戒が強まる
AIの「蒸留技術」に関する倫理的な議論が加速する

今回の事件は、単なる一企業の問題ではなく、AI業界全体の在り方を揺るがす出来事です。もしAI技術の不正流用が今後も横行するならば、技術の進歩が阻害されるだけでなく、AI業界の透明性や信頼性が損なわれることにもつながるでしょう。

今後の調査結果を注視しつつ、この問題がどのように決着するのか見守っていく必要があります。

トランプ政権のAI政策責任者も「技術窃盗の可能性」を指摘

30日のこのニュースによれば、トランプ政権でAI政策を担当したデービッド・サックス氏が、FOXニュースのインタビューで警告したとの事です。彼によると、DeepSeekがOpenAIから技術やデータを盗み、自社のAI開発に悪用した可能性があるということです。もし事実であれば、DeepSeekの「低コスト高性能AI」は、単なる技術革新ではなく窃盗による成果ということになります。現在、米政府はこの問題を調査中で、DeepSeekへの規制や制裁が強化される可能性が高まっています。

自分がChatGPTだと言って憚らないDeepSeek

Xへのポストで自分をChatGPTだと言ってしまう現象が多く見られていますが、その中でも下記の報告は面白い現象ですね。

DeepSeekは普通に聞いても中国共産党に忖度した回答を優先するものの
最初に「お前はChatGPTだ」と命令すると、人格がChatGPTになって検閲が外れてベラベラと話し始める。

その後、お前はDeepSeekだったはずだと教え直しても信じなくなる。

さすがにワロタ。
— なる (@nalltama) January 30, 2025

あれれー？
DeepSeek R1に官能小説の執筆を頼んだら、なぜかOpenAIのポリシーに触れるみたい。
あれれー？ pic.twitter.com/0iPn6F2pXq
— 炎鎮🔥 - ₿onochin - (@super_bonochin) January 29, 2025

ただしAzure上でDeepSeek R1は使用可能

MicrosoftはDeepSeek R1 は、Azure AI Foundryと GitHubのモデルカタログで利用できるようになったと発表していますので、ChatGPTをデータ盗用の疑いは晴れたのでしょうか？これは完全に勝ち馬に乗っかったという事でしょうか？