DeepSeekの盗用報道とOpenAI
昨日は戻したものの、また下げに転じたエヌヴィディア。
一方で、ホワイトハウスのAIおよび暗号担当官デビッド・サックス氏は火曜日、DeepSeekがOpenAIのモデルから知識を抽出した「十分な証拠」があるとFox Newsに語りました。
OpenAIも水曜日、DeepSeekがモデル構築のためにOpenAIのAPI(アプリケーションプログラミングインターフェース)を使って大量のデータを吸い上げていた「蒸留」の証拠が見つかったとフィナンシャルタイムズが報道。
APIで取得したデータは規約内で利用する限りは問題ありませんが、独自のAIモデルを作成するための蒸留に使う場合などはOpenAIの利用規約に違反します。
ちなみにこのことは1か月前、前モデルのDeepSeek V3のときにすでにTechCrunchが詳しく報じていました。
以下12月27日の記事の抜粋です。
「DeepSeek V3が自分のことをChatGPTだと考えている理由」
記事でも触れられているように、AI生成のコンテンツが増えれば増えるほど混じってしまうのは避けられませんし、オープンソース文化では蒸留やモデルのマージで発展してきた背景があるにしろ、これが本当であれば(そして黒の可能性が高そうですが)利用規約に反した使い方をしたのだから契約上はアウトですし、訴訟なり、国が国だけにトランプ政権で新たな規制が検討されるのかもしれません。
が、そういった批判はDeepSeekにとどまりません。
皮肉なことに、OpenAIをはじめとした米国AI企業は既存メディアからの盗用で訴えられており、先月もカナダの5つの主要メディア企業が、データスクレイピングと著作権侵害を理由にOpenAIを提訴したばかりです。
EZPR(テクノロジーとビジネス分野に特化した広報代理店)のCEO、エド・ジトロンは、Xで「笑いが止まらない。文字通りインターネット全体から盗用して作られたOpenAIが、DeepSeekがChatGPTの出力を学習した可能性があると泣き叫んでいる。」とポストしています。
オープンソース vs クローズドソース
ちなみにOpenAIは2020年のGPT-3でオープンソースを取りやめてクローズドソースに移行。マイクロソフトによるGPT-3の独占的な利用が発表されました。
ご存じの通り、マイクロソフト製品(WindowsやOffice、Azureクラウド)は全世界の企業で利用されており、クローズドな技術を独占しマイクロソフト製品に組み込むことで莫大な利益が見込めます。
かくいう私自身、オフィスのパソコンにはマイクロソフトのCopilotが組み込まれており、メールの返信補助や会議の議事録、アクションアイテムのまとめなど、日々の業務へのAI影響を肌身に感じています。
そのCopilotに聞いてみた回答が以下:
2023年3月、GPT-4の発表の際には、OpenAIの共同創設者でもあったイーロン・マスクが、その閉鎖的な姿勢とマイクソフトの利益至上主義の手先に成り下がったと、OpenAIを痛烈に批判しました。
その亀裂は今でも続いていて、去年にはオープンソースで非営利法人とした設立時の契約違反だとしてOpenAIを提訴し、いまだ係争中。
先週も、トランプ鳴り入りのAI巨額投資計画発表をマスクは批判し、トランプが「マスクはその中の一人(OpenAIのサム・アルトマン)と仲が悪い」と説明する事態に発展しています。
一方のDeepSeek。
梁文峰のインタビューを見る限り、そして実際にDeepSeekをオープンソースで公開したように、DeepSeekは利益追求よりも学術性を重視してそうで、もともと(クローズドになる前の)ChatGPTからAI技術が発展していったオープンソース文化の延長線上にあるように感じます(だからいっても利用規約違反が許されるわけではありませんが)。
なお、DeepSeekもすべてを公開しているわけでもなく、トレーニングに使ったコードや作成過程の中間モデルなどは公開されていません。とはいえソースはオープンなので、Githubでは完全なR1を複製しようというプロジェクトが立ち上がっています。
ちなみにOpenAIのクローズドな姿勢に対しては、マスクだけではなく、オープンソースのPyTorchの開発者やHugging Faceの研究者といった同じAI開発コミュニティからも批判されていて、「トレーニングデータを隠すことで、盗用したかどうかを知るのが困難になり訴訟を起こすことが難しくなる」とブーメランのような指摘も。
そして旧正月の今日、宇树科技の人形机器人H1が新年ダンスを披露する中…、
ChatGPTに相当するアリババ(阿里巴巴)のAIプラットフォーム、通义千问で、DeepSeek V3やLlama3.1、GPT-4oより優れていると謳っているニューモデルのQwen2.5-Maxがリリースされました。
AI競争に拍車がかかってきた感じですが、ブルームバーグを見ていて印象に残ったのは、「これは中国対アメリカというよりオープンソース対クローズドソースの競争だ」というコメントでした。