ChatGPTに関する最新情報やデータ論争、進行中の訴訟やデータポリシー変更、そしてOpenAIのデータセット管理への疑問を解説します。さらに、GPT-4のトレーニングデータに関する秘密や、OpenAIが商標登録を試みることでネーミングエコシステムが変化する可能性についても取り上げています。果たしてGPT-4は、これらの課題を乗り越えることができるのでしょうか?
公開日:2023年4月27日
※動画を再生してから、インタビューを読むのがオススメです。
18時間前、サム・アルトマンは、ChatGPTでチャット履歴とトレーニングを無効にできるようになったこと、そして今後数ヶ月でChatGPTビジネスを提供する予定であること、このシンプルなツイートを発信しました。
しかし、もう少し掘り下げてみると、このツイートの裏には、OpenAIを巻き込み、GPT-5を危うくし、新しい情報経済を形作る可能性のあるデータ論争があります。
この新機能からどのように利益を得るかをお見せし、あなたの個人情報がGPT-4のトレーニングに使用された可能性があるかどうかを確認する方法を紹介し、ChatGPTがEUやブラジル、カリフォルニアなどで禁止される可能性があるかどうかを調べます。
その前に、発表です。
OpenAIは、ChatGPTでチャット履歴をオフにできるようになったと言っていますが、チャット履歴を無効にした後に開始された会話のみがモデルのトレーニングや改善に使用されなくなります。
つまり、デフォルトでは、既存の会話は新しいモデルのトレーニングに使われることになります。
では、どのように動作し、これは何を意味するのでしょうか?
ChatGPTの会話の左下にある3つの点をクリックし、設定と表示と進みます。
そして、ここからが面白いところです。
チャット履歴とトレーニングが連動しているのです。
両方かどちらかです。
チャット履歴を保存して後で見返せるようにするオプションと、トレーニングの中止を選択するオプションの2つを用意することもできたはずです。
しかし、その代わりに1つのボタンが用意されています。
データを渡してチャットを保存するか、データを渡さずにチャットを保存しないかです。
チャット履歴を渡さない場合でも、悪用されないようにチャットを監視しています。
その点はご留意ください。
履歴は残したいが、モデルトレーニングを無効にしたい場合はどうすればよいですか?
私たちは、ChatGPTビジネスという新しいサービスに取り組んでいます。
それについて少しお話しますが、明らかに彼らはトレーニングデータの提供を簡単にオプトアウトすることを望んでいません。
公正に言って、彼らはオプトアウトフォームを提供していますが、フォームに行くと、曖昧に、「いくつかの場合、これにより、モデルがあなたの特定のユースケースにより適切に対応する能力が制限されることを知っておいてください」と書かれています。
この新しい発表の大きな欠点はこれですが、密かな利点は何でしょうか。
この下にある「データのエクスポート」ボタンです。
これをクリックすると、すぐにこのメールが届き、そのメールには、すべての会話のデータエクスポートをダウンロードするためのリンクが含まれています。
ファイルをダウンロードして開くと、ChatGPTを使い始めた時から現在までのすべての以前の会話を簡単に検索できるようになります。
これはかなり素晴らしい機能です。
発表に戻ると、あなたはChatGPTビジネスにアップグレードする必要があります。ビジネスは今後数か月で利用可能になります。これにより、あなたのデータがデフォルトでモデルのトレーニングに使用されないようになります。
しかし、なぜ今になってこのような発表をしたのでしょうか?
なぜSam Altmanは昨日このようなツイートをしたのでしょうか?
その理由は、同じく昨日のMITテクノロジーレビューに掲載されたMelissa Aikila氏の記事で説明できるかもしれません。
OpenAIには、欧州の厳格なデータ保護規制であるGDPRに準拠するために今週末までの期限があると述べられていますが、AIのためのデータの収集方法のために会社が準拠することはほぼ不可能であるため、会社が準拠することはほぼ不可能であると述べられています。
帰ってから、これはヨーロッパだけの話だと言う前に、いや、それよりもずっと大きな話だ。
欧州のデータ収集監督官は、OpenAIが違法となりうるデータ収集方法に基づき、地獄の定義がOpenAIに訪れるかもしれないと述べています。
OpenAIがデータ使用の方法が合法であることを当局に説得できなければ、イタリアのような特定の国だけでなく、EU全体で禁止される可能性があり、多額の罰金を科せられることもあり、モデルやそのトレーニングに使用されたデータを削除することを余儀なくされるかもしれません。
OpenAIにとって、これ以上ないほどの賭けである。
EUのGDPRは世界で最も厳しいデータ保護制度であり、世界中に広くコピーされている。
ブラジルからカリフォルニアまで、規制当局は次に何が起こるかを注視し、その結果はAI企業がデータを収集する方法に根本的な変化をもたらす可能性があります。
しかし、ChatGPTの会話はともかく、これらの企業はどのようにしてあなたのデータを収集しているのでしょうか?
今週発表された2つの記事が、その詳細を教えてくれています。
例えば、昨年FBIに押収されるまで「Book ZZ」として知られていたサイトから海賊版の電子書籍を入手しています。
それにもかかわらず、このサイトのコンテンツはCommon Crawlのデータベースに残っています。
OpenAIはGPT-4の学習に使用したデータセットを明らかにしませんが、GPT-3の学習にCommon Crawlが使用されたことは分かっています。
OpenAIは、最近Stability AIが新しいLLM Stable LMで使用したPyleも使用した可能性があります。
Pyleには海賊版の電子書籍のほか、エンロン社が送信したすべての社内メールのようなものも含まれています。
もしこれが奇妙だと思うなら、Pyleを管理しているグループの著作権削除ポリシーを聞くまで待ってほしい。
映像のために読み上げることもできない。
ワシントン・ポスト紙のこの記事では、GPT-4の訓練に使われたと思われるデータについて、さらに多くのことが明らかにされています。
手始めに、Patreonという独占コンテンツがあるので、おそらく私のPatreonのメッセージはすべてGPT-5のトレーニングに使われると思われます。
しかし、記事のさらに下には、この検索バーがあり、自分のウェブサイトがCommon Crawlのデータセットに使用されているかどうかを調べることができます。
私は母のWordPressファミリーブログも見つけたので、GPT-5が私よりも私の子供時代のことを覚えている可能性があります。
そんなのおかしいと思うなら、OpenAI自身がトレーニングセットの中身を知らないかもしれないという話を聞いてみてください。
これはGPT-4のテクニカルレポートからの引用ですが、脚注の1つに、この大きなベンチベンチマークの一部がトレーニングセットにうっかり混入してしまったと書かれています。
この「うっかり」という言葉に驚かされます。
とりあえず、ベンチマークの混入によってGPT-4のテストができなくなることは気にしないことにしましょう。
ただ、この「うっかり」という言葉に注目しましょう。
彼らは本当にデータセットの中身を完全に把握していないのだろうか?
そうであろうとなかろうと、OpenAIがかつて無料で手に入れたデータの代償を払わなければならなくなる可能性がある方法を、いくつも数える準備をしておいてほしいのです。
まず、Reddit。
Redditで、3つ以上のアップヴォートを得た投稿をすべて探し出し、学習データに含めた。
しかし、このNew York Timesの記事によると、Redditはその対価を支払うよう求めています。
Redditの創設者兼CEOは、Redditのデータコーパスは本当に価値があると述べましたが、私たちは世界の最大の企業のいくつかに無料でその価値のすべてを与える必要はありません。
私もそう思うのですが、私の疑問は、ユーザーにお金は支払われるのでしょうか?
実は、このビデオでご覧になった、そしてこれからご覧になるすべての例に対しての私の疑問なのです。
ユーザーは実際にお金をもらえるのでしょうか?
サム・アルトマンが言っているように、OpenAIが何兆ドルも稼ぐと決まっているのなら、その育成に協力することでお金をもらえるのでしょうか?
どうやらRedditは今まさにOpenAIと料金交渉をしているようだが、そのユーザーはそのお金を手にすることができるのだろうか?
Wikipediaの編集者は、記事が正確であることを確認するために何千時間も費やしているのに、GPT-4や5が無料でそのすべてを荒らすだけというのはどうでしょうか?
あるいは、プログラマーのためのQ&Aサイト、Stack Overflowはどうでしょう?
どうやら彼らは今、AIジャイアントにもトレーニングデータを請求するつもりらしい。
CEOは、Stack Overflowに投稿されたコンテンツはクリエイティブ・コモンズ・ライセンスの下でユーザーの所有物であると述べましたが、そのライセンスには、後でデータを使用する人がそのデータの出典を記載することが必要とされています。
しかし、もちろんGPT-4は、そのプログラミングのコツがどこから来たものなのかについては言及していない。
プログラミングの質問に回答してくれる人たちが、実際には彼らを置き換える可能性のあるモデルをトレーニングしているという皮肉があるのは私だけでしょうか?しかも、その間、彼らにはクレジットや報酬が与えられないのです。
しかし今、私たちは訴訟に目を向けなければならない。なぜなら、これを法廷に持ち込む準備を進めている人々が大勢いるからだ。
マイクロソフトGitHubとOpenAIは最近、GitHubのAI搭載コパイロットツールを構築するためにライセンスコードをかき集めたとして、訴訟を起こされました。
マイクロソフトとGitHubは、興味深い回答として、訴状には傷害の欠如を含む一定の欠陥があると述べています。
そして両社は、原告が主張をするために仮定の出来事に頼っていると主張し、ツールによって個人的にどのような被害を受けたのかが記述されていないと述べています。
GPT-4による被害を証明できる人がいないため、この訴訟が現在失敗している大きな基準になるかもしれません。
しかし、将来、GPT-4やGPT-5で仕事ができるようになり、不要になったという理由で解雇される人が出てきたらどうでしょうか?
そうなると、この訴訟は成功するのでしょうか?
自分のデータの一部を使ってトレーニングした特定のツールのせいで職を失ったと証明できれば、傷害を証明することができる。
しかし、GPT-4やGPT-5をブロックしてしまうと、何百万人ものコーダーが、自分の好きなツールがなくなったために怪我をしたと言うことができるようになるのです。
それが裁判でどうなるかはわからない。
もちろん、訴訟はこれだけではありません。TwitterのCEOは、OpenAIがTwitterのデータを違法に使用していると非難しています。
また、出版社やジャーナリスト、新聞社などは、GPT-4から答えを得ることができるため、作品があまり読まれなくなる可能性がありますが、どうでしょうか?
そして、彼らのウェブサイトもまた、モデルのトレーニングのために呼び出されたことを忘れてはならない。
ニューズ・コーポレーションのCEOは、「彼らは明らかに独自のコンテンツを使用している。
それに対して何らかの補償が必要なのは明らかです。
だから、あらゆる方向から訴訟が来ているようです。
しかし、サム・アルトマンは過去に、科学のような特定の領域では、非常に質の高いデータには多くの対価を支払うことをいとわないと述べています。
果たしてそれは科学者や数学者を豊かにするのか、それとも巨大な科学出版社の利益を増大させるだけなのか。
別のビデオの別のスキャンダルですが、OpenAIはSkyHubのような不正なサイトを使用する誘惑に陥るかもしれません。SkyHubは、著作権に関係なく数百万の研究論文への無料アクセスを提供する影のライブラリウェブサイトです。
これは基本的に科学出版社のペイウォールを通過するもので、どうやら学者の50%までがSkyHubのようなウェブサイトを利用していると言っているようです。
GPT-5は、必然的に新しい科学のベンチマークを突破することになります。
ただ、GPT-5を開発した科学者には、そのための報酬を支払ってほしいと思います。
OpenAIを非難しているように思われるかもしれませんが、Googleも同様に秘密主義で、社員からChatGPTのデータでBardを訓練していると非難されたこともあります。
しかし、Sam Altmanは、ChatGPTの出力でトレーニングしたGoogleにそれほど腹を立てているわけではないが、スピンは迷惑だ、と言っています。
彼は明らかに彼らの否定を信じていないのです。
そして、著作権やデータのスクレイピングに関するこの議論を考えると、私はこの見出しを非常に皮肉に感じました。
OpenAIはGPTという名前を商標登録しようとしています。つまり、AutoGPT、MemoryGPT、HuggingGPTといった聞いたことのあるモデルはすべて、その名前の使用を止められるかもしれないということです。
GPTが裁判に勝って、みんなのデータを使えるようになったとしても、GPTという名前は誰も使えないという世界を想像してみてください。
しかし、もしかしたら、このデータ問題全体は、それほど長くは関係ないのかもしれません。
サム・アルトマンは最近、OpenAIのデータ使用量は、モデルが賢くなるにつれて減っていくと予測している、と述べた。
これは、モデルが独自の合成データセットを学習できるようになり、外部のデータをそれほど必要としなくなるという意味なのだろうか。
もちろん、彼が話しているのは、人間のフィードバックを使った強化学習を簡素化することで、モデルが自己フィードバックを与えることで、人間の評価者の必要性を減らすことです。
GPT-4がGPT-5を学習させるためのデータセットを生成することができれば、それはとても素晴らしいことだと思いませんか?
GPT-4をよく使い、そのデータがGPTモデルのトレーニングに使われた者として、私は驚き、苛立ち、そしてこのすべてがどこへ向かうのか深く懸念しているのです。
それでは、今日も良い一日をお過ごしください。