DeepSeek、データ不正利用疑惑でOpenAI・Microsoftが調査中──高性能「R1」モデルの裏側は
2025年1月20日、中国発のAIスタートアップであるDeepSeekが新モデルシリーズ「DeepSeek R1」をリリースしました。その優れた性能は世界中で大きな反響を呼んでいます。しかし、その直後の1月29日、日本経済新聞が「DeepSeekがOpenAIのデータを不正利用した可能性がある」と報じ、OpenAIとMicrosoftが調査に乗り出したとされています。
この報道をきっかけに、「DeepSeekは本当にOpenAIのデータを不正に利用したのか?」という疑問が世界中のAI研究者や関係者の間で議論され始めています。本記事では、現時点で入手可能な情報やファクトを整理し、DeepSeekとOpenAIをめぐる問題の行方を考察します。
結論
DeepSeekが既存LLM(OpenAIのGPTモデルなど)の知識を何らかの形で活用している可能性は高い。
2025年1月22日に公開された研究によると、DeepSeekを含む多くのLLM(Claude、Doubao、Geminiを除く)が「知識蒸留(Knowledge Distillation)」により、他のLLMの知見を取り込んでいる可能性が示唆されました。OpenAIはGPTと競合するモデルの開発に、GPTの出力を利用する行為を禁じている。
OpenAIの利用規約では、「OpenAIと競合するモデルの開発に出力を利用する行為」を禁止行為として明確に挙げています。DeepSeekがOpenAIの定める禁止事項の範囲に触れているかどうかは、現時点では明確ではない。
今後の調査や両社の対応次第で、両社の関係がどのように変化していくのか注視する必要があります。
詳細
知識蒸留(Knowledge Distillation)の概要
「知識蒸留」とは、大規模言語モデル(LLM)の持つ知識を、より軽量なモデルへ転送する技術のことです。この手法を利用することで、
リソース効率の向上
高い性能の維持
汎用性とスケーラビリティの担保
といったメリットを得ることができます。一方で、過度な蒸留は新規タスクへの適応力や創造的な推論能力を損ねたり、安全性や公平性の低下につながるリスクが指摘されています。
2025年1月22日に中国AI研究所などが公開した論文では、知識蒸留がLLMに与える影響を体系的に測定する手法が提案され、複数のモデルを対象に実験が行われました。その結果、DeepSeek V3モデルを含む多くのLLMが高い「蒸留度」を示しており、外部のLLM(OpenAIのGPTシリーズなど)から知識を取り込んでいる可能性が高いとされています。
この論文に関する詳細も別記事で公開していますので、ご覧ください。
DeepSeekが恩恵を受けている可能性
DeepSeekがどのような技術的手法で他のLLMの知見を活用しているのかは、公には明かされていません。しかし、今回の研究結果からは、何らかの形で既存LLMの恩恵を受けている可能性が高いと考えるのが自然かと思います。
OpenAIは、GPTモデルを活用した競合モデルの開発を禁じている
OpenAIは自社公式サイト内で、GPTモデルを活用する上で、利用者が許可される行為・禁止される行為を以下のようにまとめています。最後の禁止行為を読む限り、GPTモデルのアウトプットを利用して競合モデルを開発することは禁じていると解釈して間違いなさそうです。
DeepSeek vs. OpenAIの争いの行方
以上で述べたように、DeepSeek V3モデルが既存のLLMの知識を活用している可能性は高く、OpenAIは自社のGPTモデルの出力を競合LLMの開発目的で利用することを禁じています。問題は、実際にDeepSeekの開発プロセスや技術的実装が、この禁止事項に抵触するレベルでGPTのアウトプットを利用しているのかどうかという点ですが、現時点で公に明らかになっていません。そのため、DeepSeekとOpenAIの対立がどこまで深刻化するかについてはまだ判断が難しい状況と言えるでしょう。
一方で、知識蒸留の技術自体は学術的にも幅広く研究されており、LLM開発の効率化や性能向上に有効な手法として認知されています。DeepSeekが知識蒸留の手法を用いていたとしても、それが直ちにOpenAIの定める禁止事項に該当するかどうかは、具体的な利用形態や契約上の取り決めに大きく依存します。したがって、当事者間の認識や合意の有無、あるいは今後の規約・法的解釈の変化など、様々な要素によって事態が変化する可能性があるかと思います。
今後、もしDeepSeekが利用規約や法的な観点で問題視される行為を行っていると判断された場合、OpenAI側から何らかの措置が取られることも考えられますが、現段階では不透明です。AI市場の拡大とともに、各ベンダー間の競争はより一層激化すると考えられ、DeepSeekとOpenAIの対立の行方は、業界全体の技術開発や競争環境にも大きな影響を及ぼす可能性があります。引き続き両社の動向を注意深く見守る必要があると見ています。