見出し画像

DeepSeek、データ不正利用疑惑でOpenAI・Microsoftが調査中──高性能「R1」モデルの裏側は

2025年1月20日、中国発のAIスタートアップであるDeepSeekが新モデルシリーズ「DeepSeek R1」をリリースしました。その優れた性能は世界中で大きな反響を呼んでいます。しかし、その直後の1月29日、日本経済新聞が「DeepSeekがOpenAIのデータを不正利用した可能性がある」と報じ、OpenAIとMicrosoftが調査に乗り出したとされています。

この報道をきっかけに、「DeepSeekは本当にOpenAIのデータを不正に利用したのか?」という疑問が世界中のAI研究者や関係者の間で議論され始めています。本記事では、現時点で入手可能な情報やファクトを整理し、DeepSeekとOpenAIをめぐる問題の行方を考察します。

結論

  • DeepSeekが既存LLM(OpenAIのGPTモデルなど)の知識を何らかの形で活用している可能性は高い。
    2025年1月22日に公開された研究によると、DeepSeekを含む多くのLLM(Claude、Doubao、Geminiを除く)が「知識蒸留(Knowledge Distillation)」により、他のLLMの知見を取り込んでいる可能性が示唆されました。

  • OpenAIはGPTと競合するモデルの開発に、GPTの出力を利用する行為を禁じている。
    OpenAIの利用規約では、「OpenAIと競合するモデルの開発に出力を利用する行為」を禁止行為として明確に挙げています。

  • DeepSeekがOpenAIの定める禁止事項の範囲に触れているかどうかは、現時点では明確ではない。
    今後の調査や両社の対応次第で、両社の関係がどのように変化していくのか注視する必要があります。

詳細

知識蒸留(Knowledge Distillation)の概要

「知識蒸留」とは、大規模言語モデル(LLM)の持つ知識を、より軽量なモデルへ転送する技術のことです。この手法を利用することで、

  • リソース効率の向上

  • 高い性能の維持

  • 汎用性とスケーラビリティの担保

といったメリットを得ることができます。一方で、過度な蒸留は新規タスクへの適応力や創造的な推論能力を損ねたり、安全性や公平性の低下につながるリスクが指摘されています。

2025年1月22日に中国AI研究所などが公開した論文では、知識蒸留がLLMに与える影響を体系的に測定する手法が提案され、複数のモデルを対象に実験が行われました。その結果、DeepSeek V3モデルを含む多くのLLMが高い「蒸留度」を示しており、外部のLLM(OpenAIのGPTシリーズなど)から知識を取り込んでいる可能性が高いとされています。
この論文に関する詳細も別記事で公開していますので、ご覧ください。

DeepSeekが恩恵を受けている可能性

DeepSeekがどのような技術的手法で他のLLMの知見を活用しているのかは、公には明かされていません。しかし、今回の研究結果からは、何らかの形で既存LLMの恩恵を受けている可能性が高いと考えるのが自然かと思います。

OpenAIは、GPTモデルを活用した競合モデルの開発を禁じている

OpenAIは自社公式サイト内で、GPTモデルを活用する上で、利用者が許可される行為・禁止される行為を以下のようにまとめています。最後の禁止行為を読む限り、GPTモデルのアウトプットを利用して競合モデルを開発することは禁じていると解釈して間違いなさそうです。

【許可される行為】
本利用規約に準拠する限り、当社のサービスにアクセスし利用することができます。サービスの利用に際しては、適用されるすべての法令ならびに当社の「共有・公開ポリシー」「利用ポリシー」、および当社が提供するその他の文書・ガイドライン・ポリシーを遵守する必要があります。

禁止される行為】
以下のような違法、有害、または悪質な活動にサービスを利用することは禁止されています。例示すると、以下を行ってはなりません:
第三者の権利を侵害、不正利用、または違反する方法でサービスを利用する行為。
サービスの改変、複製、リース、販売、再配布を行う行為。
サービスのリバースエンジニアリング、逆コンパイル、ソースコードまたは基盤技術(モデル・アルゴリズム・システム等)の解析を試みる、または他者を支援する行為(適用法令で禁じられている範囲を除く)。
データまたは出力(後述の定義)を自動的/プログラム的に抽出する行為。
人間が生成していない出力を**「人間が生成したもの」と偽って表示**する行為。
レート制限やアクセス制限を回避する、サービスの保護策・安全対策を迂回するなど、サービスの妨害または混乱を招く行為
当社(OpenAI)と競合するモデルの開発に出力を利用する行為。

https://openai.com/policies/terms-of-use/

DeepSeek vs. OpenAIの争いの行方

以上で述べたように、DeepSeek V3モデルが既存のLLMの知識を活用している可能性は高く、OpenAIは自社のGPTモデルの出力を競合LLMの開発目的で利用することを禁じています。問題は、実際にDeepSeekの開発プロセスや技術的実装が、この禁止事項に抵触するレベルでGPTのアウトプットを利用しているのかどうかという点ですが、現時点で公に明らかになっていません。そのため、DeepSeekとOpenAIの対立がどこまで深刻化するかについてはまだ判断が難しい状況と言えるでしょう。

一方で、知識蒸留の技術自体は学術的にも幅広く研究されており、LLM開発の効率化や性能向上に有効な手法として認知されています。DeepSeekが知識蒸留の手法を用いていたとしても、それが直ちにOpenAIの定める禁止事項に該当するかどうかは、具体的な利用形態や契約上の取り決めに大きく依存します。したがって、当事者間の認識や合意の有無、あるいは今後の規約・法的解釈の変化など、様々な要素によって事態が変化する可能性があるかと思います。

今後、もしDeepSeekが利用規約や法的な観点で問題視される行為を行っていると判断された場合、OpenAI側から何らかの措置が取られることも考えられますが、現段階では不透明です。AI市場の拡大とともに、各ベンダー間の競争はより一層激化すると考えられ、DeepSeekとOpenAIの対立の行方は、業界全体の技術開発や競争環境にも大きな影響を及ぼす可能性があります。引き続き両社の動向を注意深く見守る必要があると見ています。