前提
今回APIを対象として整理をしました。そのためGUIで使うサービスは含みません。
たとえばChatGPTのブラウザ版は有料版でも学習させないためにはオプトアウト設定が必要ですし、無料版のcopilotなども学習される場合がありそうです。
はじめに
先日、オープンチャットで興味深い質問がありました。「生成AIのAPIを使へば、本当にLLMの再学習に利用されないのか?」というものです。この疑問は、多くの人が抱いているものの、明確な答えを見つけるのが難しい話題です。そこで、この機会に少し整理してみようと思いました。
詳しく整理されているこちらのサイトも参考にさせていだだきました。
はじめに結論
生成AIのAPIを利用する場合、通常は入力データが再学習に利用されないことが多い。
OpenAI、Google GeminiのAPIでは、入力されたデータは学習に利用されないと明言されている。
APIを通じて入力されたデータは、監視目的で一時的に保存されることがあるが、学習には使用されない。
MicrosoftのAzure OpenAI Serviceも、顧客データは再トレーニングに使用されないと明記。申請により不正使用監視機能をオフにし、データを保存しない設定にすることも可能。
AWSもユーザーの同意なしにデータを使用しないことがうたわれ、オプトアウト機能によりデータの再学習を防げるとしている。
一部、モデルの開発を目的としたリリース前サービスなど、学習することが明記されている場合もあるので、理解して使う必要がある(前述の記事参照)
総じて生成AIサービスごとに異なる利用規約を確認することが重要で、特にデータの取り扱いに関する条項を確認する必要がある。
生成AIプロバイダーごとのポリシー
生成AIをAPIで使用する際に、データが再学習に利用されるかどうかは、提供者のポリシーによって異なります。以下に主要な生成AI APIプロバイダーのポリシーをまとめます。
OpenAI
OpenAIのAPIでは、ユーザーがオプトインしない限り、送信されたデータはモデルのトレーニングや改善に使用されません。ただし、「不正使用や誤用の監視を目的として、データは最大30日間保持されることがあります。」
https://openai.com/enterprise-privacy/
Google
Googleのサービス(例:Gemini, VertexAI)では、「Geminiモデルへの入力と出力が最長24時間キャッシュに保存されるが再学習には使用されない」といった記述などから総じて再学習に利用されない様子。
Microsoft Azure OpenAI Service
MicrosoftのAzure OpenAI Serviceでは、顧客データはモデルの再トレーニングには使用されません。ユーザーが申請した場合、不正使用監視機能をオフにし、データを保存しない設定にすることも可能です。
AWS
ユーザーの同意なしにデータを使用しないことがうたわれ、オプトアウト機能によりデータの再学習を防げるとしている。
まとめ
これらの情報から、APIを通じて生成AIを利用する場合でも、再学習にデータが利用されないケースがほとんどのようです。ただし、具体的な設定やポリシーはサービス提供者によって異なるため、詳細な確認が必要です。
おまけ
法律家の視点から、リスクをガイドラインとしてまとめてくれているこちらのサイトも参考になると思います。