見出し画像

DeepSeekの盗用報道とOpenAI

昨日は戻したものの、また下げに転じたエヌヴィディア。

DeepSeek後のAI新時代

一方で、ホワイトハウスのAIおよび暗号担当官デビッド・サックス氏は火曜日、DeepSeekがOpenAIのモデルから知識を抽出した「十分な証拠」があるとFox Newsに語りました。
 
OpenAIも水曜日、DeepSeekがモデル構築のためにOpenAIのAPI(アプリケーションプログラミングインターフェース)を使って大量のデータを吸い上げていた「蒸留」の証拠が見つかったとフィナンシャルタイムズが報道。
 
APIで取得したデータは規約内で利用する限りは問題ありませんが、独自のAIモデルを作成するための蒸留に使う場合などはOpenAIの利用規約に違反します。 

ちなみにこのことは1か月前、前モデルのDeepSeek V3のときにすでにTechCrunchが詳しく報じていました。
 
以下12月27日の記事の抜粋です。 


「DeepSeek V3が自分のことをChatGPTだと考えている理由」

DeepSeek V3はOpenAIのAI搭載チャットボットプラットフォームであるChatGPTであると自称している。詳細を尋ねられると、DeepSeek V3は2023年にリリースされたOpenAIのGPT-4モデルのバージョンであると主張している。
 
DeepSeek V3にDeepSeekのAPIについて質問すると、OpenAIのAPIの使い方を教えてくれる。DeepSeek V3は、オチまでGPT-4と同じジョークを言うことさえある。
 
確かに、DeepSeek V3は、自らを誤認する最初のモデルではない。Google の Geminiやその他のモデルも、競合モデルであると主張することがある。たとえば、中国語で促されると、Gemini は中国企業 バイドゥ(百度) のチャットボット、文心一言(Wenxinyiyan)であると主張する。
 
AI企業がトレーニングデータの大部分を調達するウェブがAIの粗悪品で溢れかえっているからである。コンテンツファームはAIを使ってクリックベイトを作成している。ボットはRedditやXに溢れている。ある推計によると、 2026 年までにWebはAIによって生成される可能性がある。
 
この「汚染」により、トレーニング データセットからAI出力を徹底的にフィルタリングすることが非常に困難になっている。
 
DeepSeekがChatGPTで生成されたテキストでDeepSeek V3を直接トレーニングした可能性は確かにある。結局のところ、Googleもかつて同じことをしたと非難されたことがある。
 
可能性が高いのは、DeepSeek V3のトレーニングセットに、モデルが自己を識別できるとは思えないほどChatGPT/GPT-4のデータが大量に含まれていたことである。しかし、もっと懸念されるのは、 DeepSeek V3が GPT-4の出力を無批判に吸収して反復処理することで、モデルのバイアスや欠陥の一部を悪化させる可能性だ。
 

TechCrunch "Why DeepSeek’s new AI model thinks it’s ChatGPT"

記事でも触れられているように、AI生成のコンテンツが増えれば増えるほど混じってしまうのは避けられませんし、オープンソース文化では蒸留やモデルのマージで発展してきた背景があるにしろ、これが本当であれば(そして黒の可能性が高そうですが)利用規約に反した使い方をしたのだから契約上はアウトですし、訴訟なり、国が国だけにトランプ政権で新たな規制が検討されるのかもしれません。

が、そういった批判はDeepSeekにとどまりません。 

皮肉なことに、OpenAIをはじめとした米国AI企業は既存メディアからの盗用で訴えられており、先月もカナダの5つの主要メディア企業が、データスクレイピングと著作権侵害を理由にOpenAIを提訴したばかりです。

EZPR(テクノロジーとビジネス分野に特化した広報代理店)のCEO、エド・ジトロンは、Xで「笑いが止まらない。文字通りインターネット全体から盗用して作られたOpenAIが、DeepSeekがChatGPTの出力を学習した可能性があると泣き叫んでいる。」とポストしています。

オープンソース vs クローズドソース

ちなみにOpenAIは2020年のGPT-3でオープンソースを取りやめてクローズドソースに移行。マイクロソフトによるGPT-3の独占的な利用が発表されました。
 
ご存じの通り、マイクロソフト製品(WindowsやOffice、Azureクラウド)は全世界の企業で利用されており、クローズドな技術を独占しマイクロソフト製品に組み込むことで莫大な利益が見込めます。 

かくいう私自身、オフィスのパソコンにはマイクロソフトのCopilotが組み込まれており、メールの返信補助や会議の議事録、アクションアイテムのまとめなど、日々の業務へのAI影響を肌身に感じています。 

そのCopilotに聞いてみた回答が以下:

2020年、MicrosoftはOpenAIと独占的な利用契約を結び、GPT-3技術を自社製品やサービスに統合する権利を取得しました。この契約により、MicrosoftはGPT-3を活用してさまざまなAIソリューションを開発することが可能となりました。
Copilotの開発関係:
1. GPT-3の統合:
 ・Microsoftは、GPT-3の強力な自然言語処理能力を活用して、Copilotを開発しました。これにより、ユーザーは自然言語での入力に基づいて、リアルタイムでコードの提案や文書の作成支援を受けることができます2。
2. Azure OpenAIサービス:
 ・GPT-3はAzureプラットフォーム上で提供されており、Microsoftのクラウドサービスと統合されています。これにより、Copilotは高いパフォーマンスとスケーラビリティを実現しています3。
3. 継続的なパートナーシップ:
 ・MicrosoftとOpenAIは、AI技術の進化を共に推進するための長期的なパートナーシップを維持しています。これにより、Copilotは最新のAI技術を取り入れ続けることができます3。
 

Copilotに聞いた「MicrosoftとOpenAIとの関係」

2023年3月、GPT-4の発表の際には、OpenAIの共同創設者でもあったイーロン・マスクが、その閉鎖的な姿勢とマイクソフトの利益至上主義の手先に成り下がったと、OpenAIを痛烈に批判しました。

“OpenAI was created as an open source (which is why I named it “Open” AI), non-profit company to serve as a counterweight to Google, but now it has become a closed source, maximum-profit company effectively controlled by Microsoft. Not what I intended at all.”

FORTUNE
"Elon Musk fumes over OpenAI becoming ‘$30B market cap for-profit’ after his $100M donation"

その亀裂は今でも続いていて、去年にはオープンソースで非営利法人とした設立時の契約違反だとしてOpenAIを提訴し、いまだ係争中。
 

マスク氏は15年にオープンAIを共同で創業したが、18年に同社の理事会から退いた。マスク氏はオープンAIの研究および技術の一般公開や同社資産について、マイクロソフトや個人の金銭的利益のために使用することを禁止する判決を求めている。

ロイター『マスク氏、オープンAIとアルトマンCEOを提訴 契約違反で』

先週も、トランプ鳴り入りのAI巨額投資計画発表をマスクは批判し、トランプが「マスクはその中の一人(OpenAIのサム・アルトマン)と仲が悪い」と説明する事態に発展しています。

一方のDeepSeek。 

梁文峰のインタビューを見る限り、そして実際にDeepSeekをオープンソースで公開したように、DeepSeekは利益追求よりも学術性を重視してそうで、もともと(クローズドになる前の)ChatGPTからAI技術が発展していったオープンソース文化の延長線上にあるように感じます(だからいっても利用規約違反が許されるわけではありませんが)。

なお、DeepSeekもすべてを公開しているわけでもなく、トレーニングに使ったコードや作成過程の中間モデルなどは公開されていません。とはいえソースはオープンなので、Githubでは完全なR1を複製しようというプロジェクトが立ち上がっています。

すでに1万2千スターを集めているOpen R1プロジェクト

ちなみにOpenAIのクローズドな姿勢に対しては、マスクだけではなく、オープンソースのPyTorchの開発者やHugging Faceの研究者といった同じAI開発コミュニティからも批判されていて、「トレーニングデータを隠すことで、盗用したかどうかを知るのが困難になり訴訟を起こすことが難しくなる」とブーメランのような指摘も。

そして旧正月の今日、宇树科技の人形机器人H1が新年ダンスを披露する中…、

ChatGPTに相当するアリババ(阿里巴巴)のAIプラットフォーム、通义千问で、DeepSeek V3やLlama3.1、GPT-4oより優れていると謳っているニューモデルのQwen2.5-Maxがリリースされました。

AI競争に拍車がかかってきた感じですが、ブルームバーグを見ていて印象に残ったのは、「これは中国対アメリカというよりオープンソース対クローズドソースの競争だ」というコメントでした。

いいなと思ったら応援しよう!