TikTokのバイトダンス、自社開発と偽り秘密裏にOpenAIの技術を使用
バイトダンスが自社開発と言っている大規模言語モデル「Project Seed」にChatGPTのAPIを秘密裏に使用していた件の記事について解説します。
参考記事はこちら↓
ByteDanceの不正行為とOpenAIの対応
ByteDanceは、OpenAIの技術を秘密裏に使用して自社の大規模言語モデル「Project Seed」を開発していました。これはOpenAIの利用規約に違反しており、その結果、ByteDanceのアカウントはOpenAIによって停止されました。ByteDanceの従業員は、OpenAIのAPIアクセス制限に到達するほど技術を広範囲に使用していたとのことです。
Project Seedの秘密とデータの「白塗り」
ByteDanceの内部文書によると、モデルの訓練や評価を含むProject Seedの開発のほぼすべての段階でOpenAIのAPIが使用されていました。従業員は、「データ脱感作」(注01)を通じて証拠を「白塗り」(注02)することについて議論していたことが明らかになりました。ByteDanceは当初、GPT生成テキストをモデル開発の初期段階で使用していましたが、後にこれを停止し、自社のAIモデル「Beanbao」の開発に移行しました。
※注01:「data desensitization」という英語の用語の日本語訳です。これは、元のデータから個人を特定できる情報や敏感な内容を取り除く、あるいは変更するプロセスを指します。
※注02:「whitewash」という英語の用語の日本語訳です。ここでは使用したAPIの痕跡や証拠を消去または改変することを指しています。
要するに、「データ脱感作」を使って「白塗り」することで、ByteDanceはOpenAIの技術の使用を隠蔽しようとしていたことが示唆されています。
ByteDanceとMicrosoftの関係
ByteDanceはMicrosoftを通じてOpenAIへのアクセスを購入していましたが、MicrosoftもOpenAIと同様のポリシーを採用しています。Microsoftのスポークスパーソンは、顧客が責任を持ってこれらの技術を使用し、サービス規約に準拠することを支援するためのリソースを提供していると述べました。
ByteDanceの広報担当者は、GPTが生成したデータが初期のProject Seedの開発で使用され、今年の中頃にByteDanceから削除されたと述べています。
AI業界の倫理と法的問題
この件は、AI技術の急速な進展に伴う倫理的および法的問題を浮き彫りにしています。特に、大手テクノロジー企業間での競争と、知的財産権の遵守が注目されています。ByteDanceの行動は、AI技術の責任ある使用と知的財産権の保護に関する業界全体の議論を促進する可能性があります。