見出し画像

【ChatGPT】英語解説を日本語で読む【2023年4月27日|@AI Explained】

ChatGPTに関する最新情報やデータ論争、進行中の訴訟やデータポリシー変更、そしてOpenAIのデータセット管理への疑問を解説します。さらに、GPT-4のトレーニングデータに関する秘密や、OpenAIが商標登録を試みることでネーミングエコシステムが変化する可能性についても取り上げています。果たしてGPT-4は、これらの課題を乗り越えることができるのでしょうか?
公開日:2023年4月27日
※動画を再生してから、インタビューを読むのがオススメです。


18 hours ago, Sam Altman put out this simple tweet that you can now disable chat history and training in ChatGPT, and that we will offer ChatGPT business in the coming months.

18時間前、サム・アルトマンは、ChatGPTでチャット履歴とトレーニングを無効にできるようになったこと、そして今後数ヶ月でChatGPTビジネスを提供する予定であること、このシンプルなツイートを発信しました。

But dig a little deeper and behind this tweet is a data controversy that could engulf OpenAI, jeopardize GPT-5 and shape the new information economy.

しかし、もう少し掘り下げてみると、このツイートの裏には、OpenAIを巻き込み、GPT-5を危うくし、新しい情報経済を形作る可能性のあるデータ論争があります。

I will show you how you can benefit from this new feature, reveal how you can check if your personal info was likely used in GPT-4 training and investigate whether ChatGPT could be banned in the EU, Brazil, California and beyond.

この新機能からどのように利益を得るかをお見せし、あなたの個人情報がGPT-4のトレーニングに使用された可能性があるかどうかを確認する方法を紹介し、ChatGPTがEUやブラジル、カリフォルニアなどで禁止される可能性があるかどうかを調べます。

But first, the announcement.

その前に、発表です。

OpenAI say that you can now turn off chat history in ChatGPT but that it's only conversations that were started after chat history is disabled that won't be used to train and improve their models.

OpenAIは、ChatGPTでチャット履歴をオフにできるようになったと言っていますが、チャット履歴を無効にした後に開始された会話のみがモデルのトレーニングや改善に使用されなくなります。

Meaning that by default your existing conversations will still be used to train their new models.

つまり、デフォルトでは、既存の会話は新しいモデルのトレーニングに使われることになります。

So how does it work and what does this mean?

では、どのように動作し、これは何を意味するのでしょうか?

What you need to do is click on the three dots at the bottom left of a ChatGPT conversation, then go to settings and show.

ChatGPTの会話の左下にある3つの点をクリックし、設定と表示と進みます。

And here's where it starts to get interesting.

そして、ここからが面白いところです。

They have linked together chat history and training.

チャット履歴とトレーニングが連動しているのです。

It's both or neither.

両方かどちらかです。

They could have given two separate options, one to store your chat history so that you can look back over it later and another to opt out of training.

チャット履歴を保存して後で見返せるようにするオプションと、トレーニングの中止を選択するオプションの2つを用意することもできたはずです。

But instead it's one button.

しかし、その代わりに1つのボタンが用意されています。

You either give them your data and keep your chats or you don't give them your data and you don't keep your chats.

データを渡してチャットを保存するか、データを渡さずにチャットを保存しないかです。

If you opt not to give them your chat history, they still monitor the chats for what they call abuse.

チャット履歴を渡さない場合でも、悪用されないようにチャットを監視しています。

So bear that in mind.

その点はご留意ください。

What if I want to keep my history on but disable model training?

履歴は残したいが、モデルトレーニングを無効にしたい場合はどうすればよいですか?

We are working on a new offering called ChatGPT business.

私たちは、ChatGPTビジネスという新しいサービスに取り組んでいます。

I'm going to talk about that in a moment, but clearly they don't want to make it easy to opt out of giving over your training data.

それについて少しお話しますが、明らかに彼らはトレーニングデータの提供を簡単にオプトアウトすることを望んでいません。

Now in fairness, they do offer an opt out form, but if you go to the form, it says cryptically, please know that in some cases, this will limit the ability of our models to better address your specific use case.

公正に言って、彼らはオプトアウトフォームを提供していますが、フォームに行くと、曖昧に、「いくつかの場合、これにより、モデルがあなたの特定のユースケースにより適切に対応する能力が制限されることを知っておいてください」と書かれています。

So that's one big downside to this new announcement, but what's one secret upside?

この新しい発表の大きな欠点はこれですが、密かな利点は何でしょうか。

This export data button buried all the way down here.

この下にある「データのエクスポート」ボタンです。

If you click it, you quite quickly get this email, which contains a link to download a data export of all your conversations.

これをクリックすると、すぐにこのメールが届き、そのメールには、すべての会話のデータエクスポートをダウンロードするためのリンクが含まれています。

After you download the file and open it, you now have an easy way to search through all your previous conversations, literally all of them from the time you first started using ChatGPT to the present day.

ファイルをダウンロードして開くと、ChatGPTを使い始めた時から現在までのすべての以前の会話を簡単に検索できるようになります。

That is a pretty great feature.

これはかなり素晴らしい機能です。

I must admit, but going back to the announcement, they said that you need to upgrade to ChatGPT business available in the coming months to ensure that your data won't be used to train our models by default.

発表に戻ると、あなたはChatGPTビジネスにアップグレードする必要があります。ビジネスは今後数か月で利用可能になります。これにより、あなたのデータがデフォルトでモデルのトレーニングに使用されないようになります。

But why these announcements now?

しかし、なぜ今になってこのような発表をしたのでしょうか?

Why did Sam Altman tweet this just yesterday?

なぜSam Altmanは昨日このようなツイートをしたのでしょうか?

Well, this article also from yesterday in the MIT technology review by Melissa Aikila may explain why.

その理由は、同じく昨日のMITテクノロジーレビューに掲載されたMelissa Aikila氏の記事で説明できるかもしれません。

It said that OpenAI has until the end of this week to comply with Europe's strict data protection regime, the GDPR, but that it will likely be impossible for the company to comply because of the way data for AI is collected.

OpenAIには、欧州の厳格なデータ保護規制であるGDPRに準拠するために今週末までの期限があると述べられていますが、AIのためのデータの収集方法のために会社が準拠することはほぼ不可能であるため、会社が準拠することはほぼ不可能であると述べられています。

Before you leave and say this is just about Europe, no, it's much bigger than that.

帰ってから、これはヨーロッパだけの話だと言う前に、いや、それよりもずっと大きな話だ。

The European data collection supervisor said that the definition of hell might be coming for OpenAI based on the potentially illegal way it collected data.

欧州のデータ収集監督官は、OpenAIが違法となりうるデータ収集方法に基づき、地獄の定義がOpenAIに訪れるかもしれないと述べています。

If OpenAI cannot convince the authorities its data use practices are legal, it could be banned not only in specific countries like Italy or the entire EU, but it could also face hefty fines and might even be forced to delete models and the data used to train them.

OpenAIがデータ使用の方法が合法であることを当局に説得できなければ、イタリアのような特定の国だけでなく、EU全体で禁止される可能性があり、多額の罰金を科せられることもあり、モデルやそのトレーニングに使用されたデータを削除することを余儀なくされるかもしれません。

The stakes could not be higher for OpenAI.

OpenAIにとって、これ以上ないほどの賭けである。

The EU's GDPR is the world's strictest data protection regime and it has been copied widely around the world.

EUのGDPRは世界で最も厳しいデータ保護制度であり、世界中に広くコピーされている。

Regulators everywhere from Brazil to California will be paying close attention to what happens next and the outcome could fundamentally change the way AI companies go about collecting data.

ブラジルからカリフォルニアまで、規制当局は次に何が起こるかを注視し、その結果はAI企業がデータを収集する方法に根本的な変化をもたらす可能性があります。

But aside from your ChatGPT conversations, how do these companies collect your data?

しかし、ChatGPTの会話はともかく、これらの企業はどのようにしてあなたのデータを収集しているのでしょうか?

Well, two articles published this week tell us much more.

今週発表された2つの記事が、その詳細を教えてくれています。

Take one example, they harvest pirated ebooks from the site formerly known as Book ZZ until that was seized by the FBI last year.

例えば、昨年FBIに押収されるまで「Book ZZ」として知られていたサイトから海賊版の電子書籍を入手しています。

Despite that, contents of the site remain in the Common Crawl database.

それにもかかわらず、このサイトのコンテンツはCommon Crawlのデータベースに残っています。

OpenAI won't reveal the data set used to train GPT-4, but we know the Common Crawl was used to train GPT-3.

OpenAIはGPT-4の学習に使用したデータセットを明らかにしませんが、GPT-3の学習にCommon Crawlが使用されたことは分かっています。

OpenAI may have also used the Pyle, which was used recently by Stability AI for their new LLM Stable LM.

OpenAIは、最近Stability AIが新しいLLM Stable LMで使用したPyleも使用した可能性があります。

The Pyle contains more pirated ebooks, but also things like every internal email sent by Enron.

Pyleには海賊版の電子書籍のほか、エンロン社が送信したすべての社内メールのようなものも含まれています。

And if you think that's strange, wait until you hear about the copyright takedown policy of the group that maintains the Pyle.

もしこれが奇妙だと思うなら、Pyleを管理しているグループの著作権削除ポリシーを聞くまで待ってほしい。

I can't even read it out for the video.

映像のために読み上げることもできない。

This article from the Washington Post reveals even more about the data that was likely used to train GPT-4.

ワシントン・ポスト紙のこの記事では、GPT-4の訓練に使われたと思われるデータについて、さらに多くのことが明らかにされています。

For starters, we have the exclusive content of Patreon, so presumably all my Patreon messages will be used to train GPT-5.

手始めに、Patreonという独占コンテンツがあるので、おそらく私のPatreonのメッセージはすべてGPT-5のトレーニングに使われると思われます。

But further down in the article, we have this search bar where you can look into whether your own website was used in the Common Crawl data set.

しかし、記事のさらに下には、この検索バーがあり、自分のウェブサイトがCommon Crawlのデータセットに使用されているかどうかを調べることができます。

I even found my mum's WordPress family blog, so it's possible that GPT-5 will remember more about my childhood than I do.

私は母のWordPressファミリーブログも見つけたので、GPT-5が私よりも私の子供時代のことを覚えている可能性があります。

If you think that's kind of strange, wait until you hear that OpenAI themselves might not even know what's in their training set.

そんなのおかしいと思うなら、OpenAI自身がトレーニングセットの中身を知らないかもしれないという話を聞いてみてください。

This comes from the GPT-4 technical report, and in one of the footnotes it says that portions of this big bench benchmark were inadvertently mixed into the training set.

これはGPT-4のテクニカルレポートからの引用ですが、脚注の1つに、この大きなベンチベンチマークの一部がトレーニングセットにうっかり混入してしまったと書かれています。

That word inadvertently is rather startling.

この「うっかり」という言葉に驚かされます。

For the moment, let's not worry about how mixing in benchmarks might somewhat obscure our ability to test GPT-4.

とりあえず、ベンチマークの混入によってGPT-4のテストができなくなることは気にしないことにしましょう。

Let's just focus on that word inadvertently.

ただ、この「うっかり」という言葉に注目しましょう。

Do they really not know entirely what's in their data set?

彼らは本当にデータセットの中身を完全に把握していないのだろうか?

Whether they do or not, I want you to get ready to count the number of ways that OpenAI may soon have to pay for the data it once got for free.

そうであろうとなかろうと、OpenAIがかつて無料で手に入れたデータの代償を払わなければならなくなる可能性がある方法を、いくつも数える準備をしておいてほしいのです。

First, Reddit.

まず、Reddit。

They trawled Reddit for all posts that got three or more upvotes and included them in the training data.

Redditで、3つ以上のアップヴォートを得た投稿をすべて探し出し、学習データに含めた。

Now, this New York Times article says, Reddit wants them to pay for the privilege.

しかし、このNew York Timesの記事によると、Redditはその対価を支払うよう求めています。

The founder and chief executive of Reddit said that the Reddit corpus of data is really valuable, but we don't need to give all of that value to some of the largest companies in the world for free.

Redditの創設者兼CEOは、Redditのデータコーパスは本当に価値があると述べましたが、私たちは世界の最大の企業のいくつかに無料でその価値のすべてを与える必要はありません。

I agree, but my question is, will the users be paid?

私もそう思うのですが、私の疑問は、ユーザーにお金は支払われるのでしょうか?

In fact, that's my question for all of the examples you have seen in this video and are about to see.

実は、このビデオでご覧になった、そしてこれからご覧になるすべての例に対しての私の疑問なのです。

Does the user actually get paid?

ユーザーは実際にお金をもらえるのでしょうか?

If OpenAI is set to make trillions of dollars, as Sam Altman has said, will you get paid for helping to train it?

サム・アルトマンが言っているように、OpenAIが何兆ドルも稼ぐと決まっているのなら、その育成に協力することでお金をもらえるのでしょうか?

Apparently Reddit is right now negotiating fees with OpenAI, but will its users get any of that money?

どうやらRedditは今まさにOpenAIと料金交渉をしているようだが、そのユーザーはそのお金を手にすることができるのだろうか?

What about the Wikipedia editors that spend thousands of hours to make sure the article is accurate and then GPT-4 or 5 just trolls all of that for free?

Wikipediaの編集者は、記事が正確であることを確認するために何千時間も費やしているのに、GPT-4や5が無料でそのすべてを荒らすだけというのはどうでしょうか?

Or what about Stack Overflow, the Q&A site for programmers?

あるいは、プログラマーのためのQ&Aサイト、Stack Overflowはどうでしょう?

Apparently they are now going to also charge AI giants for training data.

どうやら彼らは今、AIジャイアントにもトレーニングデータを請求するつもりらしい。

The CEO said that users own the content that they post on Stack Overflow under the Creative Commons license, but that that license requires anyone later using the data to mention where it came from.

CEOは、Stack Overflowに投稿されたコンテンツはクリエイティブ・コモンズ・ライセンスの下でユーザーの所有物であると述べましたが、そのライセンスには、後でデータを使用する人がそのデータの出典を記載することが必要とされています。

But of course, GPT-4 doesn't mention where its programming tricks come from.

しかし、もちろんGPT-4は、そのプログラミングのコツがどこから来たものなのかについては言及していない。

Is it me or is there not some irony in the people being generous enough to give out answers to questions in programming, actually training a model that may end up one day replacing them, all the while giving them no credit or compensation?

プログラミングの質問に回答してくれる人たちが、実際には彼らを置き換える可能性のあるモデルをトレーニングしているという皮肉があるのは私だけでしょうか?しかも、その間、彼らにはクレジットや報酬が与えられないのです。

But now we must turn to lawsuits because there are plenty of people getting ready to take this to court.

しかし今、私たちは訴訟に目を向けなければならない。なぜなら、これを法廷に持ち込む準備を進めている人々が大勢いるからだ。

Microsoft GitHub and OpenAI were recently sued with the companies accused of scraping license code to build GitHub's AI powered copilot tool.

マイクロソフトGitHubとOpenAIは最近、GitHubのAI搭載コパイロットツールを構築するためにライセンスコードをかき集めたとして、訴訟を起こされました。

And in an interesting response, Microsoft and GitHub said that the complaint has certain defects, including a lack of injury.

マイクロソフトとGitHubは、興味深い回答として、訴状には傷害の欠如を含む一定の欠陥があると述べています。

And the companies argue that the plaintiffs rely on hypothetical events to make their claim and say that they don't describe how they were personally harmed by the tool.

そして両社は、原告が主張をするために仮定の出来事に頼っていると主張し、ツールによって個人的にどのような被害を受けたのかが記述されていないと述べています。

That could be the big benchmark where these lawsuits fail currently because no one can prove harm from GPT-4.

GPT-4による被害を証明できる人がいないため、この訴訟が現在失敗している大きな基準になるかもしれません。

But how does that bode for the future when some people inevitably get laid off because they're simply not needed anymore because GPT-4 or GPT-5 can do their jobs?

しかし、将来、GPT-4やGPT-5で仕事ができるようになり、不要になったという理由で解雇される人が出てきたらどうでしょうか?

Then would these lawsuits succeed?

そうなると、この訴訟は成功するのでしょうか?

When you can prove that you've lost a job because of a specific tool which was trained using in part your own data, then there is injury there that you could prove.

自分のデータの一部を使ってトレーニングした特定のツールのせいで職を失ったと証明できれば、傷害を証明することができる。

But then if you block GPT-4 or GPT-5, there will be millions of coders who can then say that they're injured because their favorite tool has now been lost.

しかし、GPT-4やGPT-5をブロックしてしまうと、何百万人ものコーダーが、自分の好きなツールがなくなったために怪我をしたと言うことができるようになるのです。

I have no idea how that's going to pan out in the courts.

それが裁判でどうなるかはわからない。

Of course, these are not the only lawsuits with the CEO of Twitter weighing in accusing OpenAI of illegally using Twitter data.

もちろん、訴訟はこれだけではありません。TwitterのCEOは、OpenAIがTwitterのデータを違法に使用していると非難しています。

And what about publishers, journalists and newspapers whose work might not be read as much because people can get their answers from GPT-4?

また、出版社やジャーナリスト、新聞社などは、GPT-4から答えを得ることができるため、作品があまり読まれなくなる可能性がありますが、どうでしょうか?

And don't forget their websites were also called to train the models.

そして、彼らのウェブサイトもまた、モデルのトレーニングのために呼び出されたことを忘れてはならない。

Well, the CEO of News Corp said that clearly they are using proprietary content.

ニューズ・コーポレーションのCEOは、「彼らは明らかに独自のコンテンツを使用している。

There should be obviously some compensation for that.

それに対して何らかの補償が必要なのは明らかです。

So it seems like there are lawsuits coming in from every direction.

だから、あらゆる方向から訴訟が来ているようです。

But Sam Altman has said in the past, we're willing to pay a lot for very high quality data in certain domains such as science.

しかし、サム・アルトマンは過去に、科学のような特定の領域では、非常に質の高いデータには多くの対価を支払うことをいとわないと述べています。

Will that actually enrich scientists and mathematicians or will it just add to the profits of the massive scientific publishers?

果たしてそれは科学者や数学者を豊かにするのか、それとも巨大な科学出版社の利益を増大させるだけなのか。

That's another scandal for another video, but I am wondering if OpenAI will be tempted to use some illicit sites instead, such as SkyHub, a shadow library website that provides free access to millions of research papers without regard to copyright.

別のビデオの別のスキャンダルですが、OpenAIはSkyHubのような不正なサイトを使用する誘惑に陥るかもしれません。SkyHubは、著作権に関係なく数百万の研究論文への無料アクセスを提供する影のライブラリウェブサイトです。

It basically gets past the scientific publishers paywall and apparently up to 50% of academics say that they use websites like SkyHub.

これは基本的に科学出版社のペイウォールを通過するもので、どうやら学者の50%までがSkyHubのようなウェブサイトを利用していると言っているようです。

Inevitably, GPT-5 is going to break through some new science benchmarks.

GPT-5は、必然的に新しい科学のベンチマークを突破することになります。

I just wish that the scientists whose work went into training it were compensated for helping it do so.

ただ、GPT-5を開発した科学者には、そのための報酬を支払ってほしいと思います。

Just in case it seems like I'm picking on OpenAI, Google are just as secretive and they were even accused by their own employees of training Bard with ChatGPT data.

OpenAIを非難しているように思われるかもしれませんが、Googleも同様に秘密主義で、社員からChatGPTのデータでBardを訓練していると非難されたこともあります。

They have strenuously denied this, but it didn't stop Sam Altman from saying, I'm not that annoyed at Google for training on ChatGPT output, but the spin is annoying.

しかし、Sam Altmanは、ChatGPTの出力でトレーニングしたGoogleにそれほど腹を立てているわけではないが、スピンは迷惑だ、と言っています。

He obviously doesn't believe their denial.

彼は明らかに彼らの否定を信じていないのです。

And given all of this discussion on copyright and scraping data, I found this headline supremely ironic.

そして、著作権やデータのスクレイピングに関するこの議論を考えると、私はこの見出しを非常に皮肉に感じました。

OpenAI are trying to trademark the name GPT, meaning all of those models that you've heard of, AutoGPT, MemoryGPT, HuggingGPT, they might be stopped from using that name.

OpenAIはGPTという名前を商標登録しようとしています。つまり、AutoGPT、MemoryGPT、HuggingGPTといった聞いたことのあるモデルはすべて、その名前の使用を止められるかもしれないということです。

Imagine a world where they win all of their battles in court and they can use everyone's data, but no one can use their name GPT.

GPTが裁判に勝って、みんなのデータを使えるようになったとしても、GPTという名前は誰も使えないという世界を想像してみてください。

But maybe this entire data issue won't be relevant for much longer.

しかし、もしかしたら、このデータ問題全体は、それほど長くは関係ないのかもしれません。

Sam Altman recently said that he predicts OpenAI data spend will go down as models get smarter.

サム・アルトマンは最近、OpenAIのデータ使用量は、モデルが賢くなるにつれて減っていくと予測している、と述べた。

I wonder if he means that the models might be able to train their own synthetic data sets and therefore not require as much outside data.

これは、モデルが独自の合成データセットを学習できるようになり、外部のデータをそれほど必要としなくなるという意味なのだろうか。

Or of course he could be talking about simplifying the reinforcement learning with human feedback phase, where essentially the model gives itself feedback, reducing the need for human evaluators.

もちろん、彼が話しているのは、人間のフィードバックを使った強化学習を簡素化することで、モデルが自己フィードバックを与えることで、人間の評価者の必要性を減らすことです。

Wouldn't that be quite something if GPT-4 can generate a data set that is used to train GPT-5?

GPT-4がGPT-5を学習させるためのデータセットを生成することができれば、それはとても素晴らしいことだと思いませんか?

As someone who uses GPT-4 a lot and whose data was used to train GPT models, I fluctuate between being amazed, annoyed and deeply concerned about where all of this is going.

GPT-4をよく使い、そのデータがGPTモデルのトレーニングに使われた者として、私は驚き、苛立ち、そしてこのすべてがどこへ向かうのか深く懸念しているのです。

Let me know in the comments what you think of it all and have a wonderful day.

それでは、今日も良い一日をお過ごしください。


いいなと思ったら応援しよう!