邦訳【AI】違法データスクレイピングの16カ国共同声明フォローアップ（2024/10/２８)

2024年10月29日 19:20

こんにちは。
あっという間に10月も終盤、今年もあと2ヶ月ですね。

年末予定の個人情報保護法3年見直しの大綱に向け、11月中旬からは個人情報改正祭りになりそうなので、今日は海外、AIネタをとりあげます。

AIモデル開発に欠かせなデータ収集における違法なデータスクレイピングとプライバシー保護に関する１０数カ国の共同声明が2024/10/28に更新されたとのこと。

共同声明国に日本や米国は入っていませんが、世界各国でもやもやしている論点。海外では、どのように整理しているのか見てみようと思います。

構成は、最初に、ざっくり言うとをまとめた上で、
その後に共同声明の公表が英国より具体的でわかりやすかったカナダプライバシー委員会事務局が公表した２文書の逐語訳（機械翻訳 by GPT4o)を紹介、感想（良いと思ったこと、これもほしいなど）です。

ざっくり言うと

以下のような内容です。

・公開されているSNS等のWebサイトから機械的にデータスクレイピングを行われており、生成AIの急速な普及でニーズはさらに高まっている

・全てのデータスクレイピングが問題となるわけではないが、多くの国では、データ保護法やプライバシー保護法の対象となる

・ソーシャルメディア事業者やWebサイトの保有者はデータ保護法やプライバシー保護法に違反するデータスクレイピングから個人データを保護する義務がある（中小企業も例外ではない。また、保護しなかった場合、漏えい報告の対象になる）

・違法なデータスクレイピングの対策には、複数の技術的な措置（具体例あり）をとり、技術の進展をふまえ見直しを続けるべき（AI活用も有効）

→主要なSNS事業者＊には、この文書を送り、対話を行なったところ、すでに多くの措置を実施しており、独自の工夫も見られた。今後も連携予定。
＊対象事業者のサービス：YouTube、TikTok、Instagram、Facebook、Threads、LinkedIn、Weibo、旧TwitterのX

・合法的にデータスクレイピングを行うことを許可するには、契約に盛り込む、また、違法スクレピング阻止には、API提供が効果的

・個人も自分のデータを保護するためにできることがある（開示範囲限定など）

・共同声明の参加国は、2023年は、オーストラリア、カナダ、英国、香港、スイス、ノルウェー、ニュージーランド、コロンビア、ジャージー、モロッコ、アルゼンチン、メキシコの12カ国。
2024年は上記に加え、ガーンジー、スペイン、モナコ、イスラエルの16カ国

なお、この共同声明については、丸山満彦氏が、英国の公表文をいち早く紹介しておられました。

この記事の「さらに読む」の２文書（カナダ当局の公表）を、このnoteでは詳しく見ていきます。

対象文書

今回の読み解き文書は２つです。

①2024年10月28日
⚫︎データスクレイピングとプライバシー保護に関する共同声明の結論
〜業界との協議を経て発表されたデータスクレイピングとプライバシー保護に関する初回共同声明（2023年8月）をもとに

②2023年8月24日
データスクレイピングとプライバシー保護に関する共同声明

それでは、各文書を逐語訳で見ていきます。
①②の出典は全て上記リンクで、太字は筆者で加筆しています。

①データスクレイピングとプライバシー保護に関する共同声明の結論　2024年10月

〜業界との協議を経て発表されたデータスクレイピングとプライバシー保護に関する初回共同声明（2023年8月）をもとに

主要なポイント

初回声明
本結論声明は、2023年8月24日に発表された「データスクレイピングとプライバシー保護に関する共同声明」（初回声明）を基にしており、以下の主要メッセージを強調しました。

- 公開アクセス可能な個人情報は、ほとんどの管轄区域でデータ保護およびプライバシー法の対象となります。

- ソーシャルメディア企業（SMC）および公開アクセス可能な個人データをホストするウェブサイトの運営者は、データ保護およびプライバシー法に違反するデータスクレイピング（「違法なスクレイピング」）からプラットフォーム上の公開アクセス可能な個人データを保護する義務があります。

- 個人情報を収集する大量のデータスクレイピング事件は、多くの管轄区域において報告義務のあるデータ漏洩として認識される可能性があります。

- 個人もまた、データスクレイピングから自身の個人情報を保護するための対策を講じることができ、ソーシャルメディア企業は、ユーザーがプライバシーを保護しながらサービスを利用できるよう支援する役割を果たすべきです。

結論声明
初回声明の発表後、SMCおよびその他の業界関係者との協議に基づき、共同署名者は以下の追加の重要なポイントを強調したいと考えています。

- 違法なスクレイピングから効果的に保護するために、組織は複数の保護対策を導入し、スクレイピング技術や技術の進化に合わせてこれらの対策を定期的に見直し更新すべきです。

- 一部の高度なデータスクレイパーは検出を回避するために人工知能（AI）を使用していますが、AIは違法なスクレイピング対策を強化するための解決策の一部にもなり得ます。

- 違法なスクレイピングから保護する義務は、大企業のみならず中小企業（SME）にも適用されます。サービスプロバイダーの支援により、SMEがこの義務を果たすための低コストの対策も存在します。

- SMCおよびその他の組織がプラットフォームからの個人データのスクレイピングを契約上許可している場合、その契約条件だけでそのスクレイピングを合法化することはできませんが、重要な保護手段となる場合があります。

- どのような目的（商業的または社会的に有益な目的を含む）であれ、個人データのスクレイピングを許可する組織は、合法的な根拠を有し、許可するスクレイピングについて透明性を確保し、法律により必要とされる場合は同意を得ることを徹底しなければなりません。

- 組織は、契約条件および関連する監視および施行を含む適切な対策を実施し、契約上許可されたスクレイピングデータの使用が適用されるデータ保護およびプライバシー法を遵守するようにすべきです。

- 組織が第三者に公開アクセス可能な個人データを収集する合法的な許可を与える場合、アプリケーション・プログラミング・インターフェース（API）を通じて提供することで、組織がデータをより制御し、不正なスクレイピングの検出と軽減を促進できます。

- スクレイピングデータセットや自社プラットフォームのデータを用いてAI（大規模言語モデルなど）を訓練するSMCおよびその他の組織は、データ保護およびプライバシー法、ならびにAI固有の法令が存在する場合はそれらの法令を遵守しなければなりません。規制当局がAIモデルの開発と実装に関するガイドラインや原則を提供している場合、組織はそのガイドラインを遵守することが期待されます。

はじめに

1. 2023年8月に発表されたデータスクレイピングとプライバシー保護に関する初回共同声明（初回声明）は、違法なスクレイピングによるリスクから個人を保護するために組織が取るべき措置についての期待事項を示しました。今回の結論声明は、初回声明で設定された要件を強化し、その声明発表後にSMCや業界関係者と協議を行ったことで得られたベストプラクティスや教訓を共有し、公開アクセス可能な個人情報をホストするSMCおよびその他の組織に対するさらなる期待事項を提示するために作成されました。

2. これらの声明はいずれも、ウェブ上の個人データの自動抽出という形でのデータスクレイピングに関して取り扱っています。ただし、検索エンジンによるインデックス化や、個人情報以外の情報のスクレイピングについては取り扱っていません。

3. 初回声明は、国際執行ワーキンググループ（IEWG）の12名のメンバーによって発表され、発表後にさらに2名のメンバーにより支持されましたが、初回声明および本結論声明は現在、合計16名の共同署名者によって支持されています。

業界との協議

4. 初回声明の発行後、共同署名者は、Alphabet Inc.（YouTube）、ByteDance Ltd.（TikTok）、Meta Platforms, Inc.（Instagram、FacebookおよびThreads）、Microsoft Corporation（LinkedIn）、Sina Corp（Weibo）、およびX Corp.（旧TwitterのX）に声明のコピーを共有し、文書で示された期待事項にどのように準拠しているかについてのコメントを求めました。

5. その後数か月にわたり、共同署名者は、これらの組織のいくつかと書面およびオンラインによる協議を行いました。また、共同署名者は、無許可のスクレイピングを緩和するアライアンス（Mitigating Unauthorized Scraping Alliance、MUSA）とも協議を行い、MUSA側から無許可のスクレイピングの緩和に関する見解を共有してもらいました。

6. さらに、共同署名者は、商業用データスクレイピング会社からも接触を受け、公開アクセス可能なデータ（個人データを含む場合がある）の合法的収集に向けた取り組みに関する詳細が共有されました。本結論声明および初回声明は主にデータスクレイパーに向けたものではありませんが、商業用データスクレイパーも、公開アクセス可能な個人データは一般的にデータ保護およびプライバシー法の対象となるため、それらの法律に準拠するための対策を講じる必要があることに留意すべきです。

7. これらのやり取りを通じて、共同署名者は、業界と協調し、統一的な見解をもって意義ある対話を行うことができました。この協議により、関連する関係者は、世界のプライバシー規制コミュニティの多様なサブセットと直接的かつ実務的な対話を通じて、それぞれのデータおよびプライバシー保護への取り組みを説明する機会を得ることができました。

8. 以下に、共同署名者が業界代表者との協議を通じて得た教訓、および公開アクセス可能な個人データをホストする組織に対する追加の期待事項を共有します。

得られた教訓と共同署名者の期待

9. 初回声明と同様、以下の多くの推奨事項は、一部またはすべての管轄区域で法的要件に相当します。

10. 初回声明から得られた基本的な教訓は、公開アクセス可能な個人データも、ほとんどの管轄区域においてデータ保護およびプライバシー法の対象となるという点です。ソーシャルメディア企業（SMC）および公開アクセス可能な個人データをホストするウェブサイトの運営者は、データ保護およびプライバシー法に基づき、自社プラットフォーム上の個人情報を違法なスクレイピングから保護する義務を負っています。

データスクレイピング技術の進展に対応する上での課題と解決策

11. 初回声明において、共同署名者は、SMCおよびその他の組織に対し、自社プラットフォーム上の公開アクセス可能なデータを違法なスクレイピングから保護するために、多層的なアプローチの実施が必要であると強調しました。

12. その声明発表後の協議を通じて、SMCが違法なスクレイピングを防ぐ上での課題に直面していること（例えば、ますます高度化するスクレイパーや、スクレイピング技術の進化、スクレイパーと認可された合法ユーザーとの区別の難しさ、そして使いやすいインターフェースの維持が必要であること）を確認しましたが、それでもSMCは無許可のスクレイピングから保護する意欲を持っていることがわかりました。

13. SMCは、初回声明で指摘された多くの対策（以下に例示するものに限らない）を既に実施していることを確認しました。

- 組織内で、スクレイピング対策の開発、監視、対応を行うためのチームや特定の役割を指定する。

- 一つのアカウントが他のアカウントのプロフィールを訪れる回数を1時間または1日あたりに制限する「レート制限」を行い、異常な活動が検出された場合にはアクセスを制限する。

- 新しいアカウントがどの程度急速かつ積極的に他のユーザーを探し始めるかを監視する。

- スクレイパーや「ボット」活動を検出するための手段（CAPTCHAの使用や、該当する活動が認められたIPアドレスのブロックなど）を講じる。

- データスクレイピングが疑われるまたは確認された場合に、スクレイピング情報の削除要求とその確認を含む「差し止め通知」の送付など、適切な法的措置を講じる。

- 脅威の状況や新しい技術を綿密に監視し、それに応じて保護対策を調整する。

14. これらの協議を通じて、初回声明で詳述したもの以外にも、データスクレイピング対策のために実施されている追加の対策を知ることができました。これには、自動化されたスクレイピングを困難にするようなプラットフォームデザイン要素の導入（例：ランダムなアカウントURL、ランダムなインターフェースデザイン要素、不正なインターネットトラフィックを検出してブロックするツールなど）が含まれます。

15. 私たちは、急速に発展するAIがプライバシーへの脅威になる可能性があることも学びました。現在、スクレイパーがAIを利用してデータをより効果的にスクレイピングしていること（例：「インテリジェント」なボットを使って実際のユーザー活動をシミュレーションする方法）を、SMCが報告しました。一方で、SMCもまた無許可のスクレイピングをより良く検出し防止するためにAIを活用しており、革新的なAIツールが解決策の一部にもなり得ることを強調しました。

16. 最終的に、共同署名者は、すべての違法なスクレイピングを防ぐ保証がある対策は存在しないものの（高度な低ボリュームスクレイピングはしばしばユーザー活動と類似するため）、多層的かつ動的な保護策の組み合わせが、大規模なスクレイピングおよび多数のデータ主体が影響を受ける場合の被害増幅に対する特に効果的な保護となり得ることを学びました。

中小企業（SME）

17. 中小企業（SME）は、グローバルなソーシャルメディア企業（SMC）と同等の財務リソースや技術力を持つことは稀です。しかし、これによりSMEが違法なスクレイピングから保護する責任を免れるわけではありません。実際、SMEの中には大量の公開アクセス可能な個人データをホストしている企業も多く、データスクレイピングから保護するために、技術的および手続き的な多層的コントロールを組み合わせた対策を講じる必要があります。

18. 共同署名者は業界との協議を通じて、違法なスクレイピングから保護するために利用できる様々なツールが存在することを知りました。これらのツールの中には、ボット検出、レート制限、CAPTCHAといった、比較的予算が限られているSMEにもアクセス可能なものがあります。また、違法なスクレイピングからの保護を支援できる第三者のサービスプロバイダーも存在します。ただし、共同署名者は、第三者のサービスプロバイダーを利用することによって、組織自体の個人データ保護の責任が免除されるわけではないことを強調したいと考えています。

19. 最終的に、データ保護およびプライバシー法のもとでは、保護措置は対象とする情報の機密性に応じて適切でなければなりません。そのため、組織は、違法なスクレイピングから十分に保護できる範囲に限定して、公開アクセス可能な情報の量や機密性を制限するべきです。

SMCが許可するスクレイピングと合法的なスクレイピング

20. いくつかのSMCは、特定の状況において、自社プラットフォームからのスクレイピングや他の形式の大量データ収集を許可していると示しました（例：APIアクセスを介して、以下でさらに説明されます）。これは、プラットフォーム管理に関連するものを含む、自社や第三者の商業的利益を促進するためです。

21. これらの企業は、一般的に利用規約などの契約条項を通じて、そのような収集を「許可」していると説明しました。さらに、許可したスクレイピングが合法であることを確認するために、契約条項では通常、プラットフォーム上の第三者が適用される法律を遵守することを求めていると説明しています。また、収集されたデータが契約で認められた目的のみに使用されているかどうかを判断するのが難しい場合もあると述べています。

22. 共同署名者は、契約条項のみではデータスクレイピングを合法化することはできないことに注目しています。たとえば、組織はアクセスを許可したり個人データの収集を認めるための合法的な根拠を持っていることを確認する必要があり、また許可するスクレイピングについて透明性を確保し、法律で求められる場合には同意を取得しなければなりません。

23. さらに、契約条項は違法なスクレイピングに対する重要な保護手段であるものの、第三者が適用法を遵守するよう要求する契約条項のみでは十分ではありません。組織は、契約上許可されたスクレイピングデータの使用が適用されるデータ保護およびプライバシー法を遵守していることを確認するために、適切な対策を講じるべきです。たとえば、契約にはスクレイピング可能な情報の範囲や使用目的の制限、これらの条件を守らない場合の結果を明記することが考えられます。しかし、組織は契約措置に単に依存するのではなく、第三者が契約で定めた制限を遵守しているかどうかを監視する対策を実施し、条件が守られていない場合にはその遵守を強制するための対策も講じるべきです。

研究およびその他の社会的利益をもたらす可能性のある目的のためのデータアクセス

24. 特定の状況下では、SMCは法律により、研究者などの第三者に対し、プラットフォーム上の公開アクセス可能なデータへの大規模なアクセスを提供することが求められる場合があります（例：EUデジタルサービス法第40条に基づく）。他の状況では、法的義務がない場合でも、社会的に有益な研究を支援する目的で、SMCが第三者にデータアクセスを提供することを選択することがあることがわかりました。いくつかの企業は、そのようなアクセスを提供する際、特に法律で大規模なアクセスが求められまたは許可されている場合に、APIを介して提供することが多いと述べました。

25. 共同署名者は、社会的に有益な研究の重要性を認めつつも、公開アクセス可能な個人データをホストするSMCおよびその他の組織に対し、大規模なアクセスまたは収集を許可する場合には、アクセスを許可するための合法的な根拠があることを確認するなど、適用されるデータ保護およびプライバシー法を遵守していることを確保する必要があることを改めて伝えたいと考えています。特に、すべてのデータ保護およびプライバシー法が、「公共の利益」や研究、統計的目的を、同意の要件の例外または個人データ処理の合法的な根拠として認めているわけではないことに留意してください。また、そのような例外が存在する場合でも、その適用範囲に制限があることがあります。

26. さらに、共同署名者は、大規模なアクセスや収集を合法的に許可できる場合において、APIが違法なスクレイピングに対するさらなる保護策となり得ることも認識しています。APIは無敵ではないものの、ホスト側に対してプラットフォーム上のデータのより大きな制御を提供し、認証情報の使用、ならびに関連活動の記録と監視を通じて不正アクセスの検出と軽減を促進することができます。

AI開発のためのSMCによるスクレイピングデータおよび自社プラットフォームデータの利用

27. 共同署名者はこの取り組みを通じて、SMCが自らデータをスクレイピングしたり、スクレイピングされたデータセットを大規模言語モデルの訓練に利用していることについて、これが革新の機会を提供する一方で、重大なプライバシーリスクも伴うことを指摘しました。

28. これらの協議で得られた知見に基づき、共同署名者は、スクレイピングされた個人データや自社プラットフォームから収集されたデータを生成型AIシステムの開発、運用、および展開に利用するSMCおよび他の組織に対し、データ保護およびプライバシー法、ならびに存在する場合にはその他のAI関連の法律を遵守する必要があることを改めて伝えたいと考えています。共同署名者は、これらの組織に対し、2023年の生成型人工知能システムに関するグローバル・プライバシー・アセンブリ決議やその他の国際的なガイダンスに示されたようなプライバシーおよびデータ保護の原則を遵守するよう呼びかけています。特に、データ保護およびプライバシー法は、AI開発のための個人データの収集と利用が合法であるかどうか、そしてどの範囲まで合法であるかを規定していることに留意してください。

結論

29. 初回声明の発表以降、違法なデータスクレイピングは、生成型AIシステムの急速な出現と展開に部分的に起因して、ますます注目を集めています。データスクレイピングは、データ保護当局や業界によって世界中で広く議論されており、今も続いています。

30. 共同署名者は、データスクレイピングに関連する慣行に対処するためのガイダンスを発表している各データ保護当局の取り組みを評価したいと考えています。このガイダンスにおいて、公開アクセス可能な個人データは一般的にデータ保護およびプライバシー法の対象であり、違法なスクレイピングから十分に保護されるべきであるという共通テーマがあることに注目しています。

31. 共同署名者は、すべての企業に対して、SMCだけでなく、自社でホストしている公開アクセス可能な個人情報を違法なスクレイピングから保護することを期待していることを強調したいと考えています。適用法に準拠した十分な保護対策を講じない場合、規制当局による介入、さらには執行措置が取られる可能性があります。

32. さらに、共同署名者は、データスクレイピングに関与する者や、AI訓練のために自社プラットフォームのデータを利用するSMCおよび他の組織に対し、データ保護およびプライバシー法に準拠するための対策を講じるべきであることを改めて伝えたいと考えています。

33. データスクレイピングは複雑で広範にわたる進化し続ける問題であり、データ保護当局の注目を引き続き集めるでしょう。また、プライバシー保護に関与する他の関係者（今回の取り組みで協力した者を含む）にとっても重要な課題であるべきです。共同署名者は、関係者との今後の協議、補完的な政策開発、公共教育キャンペーン、および執行措置（共同執行を含む）を通じて、この分野での遵守を促進するための取り組みを続けます。

34. 一方で、共同署名者は、SMCが互いに、また他の関係者と協力し、知識や戦略を共有し、この共通の脅威に対処し対応するための解決策を開発し続けることを奨励しています。

35. 共同署名者は、規制当局との議論に対し率直な姿勢を示したSMCおよび業界の関係者に感謝を申し上げます。これにより、共同署名者は、すべての関係者に利益をもたらし、正式でリソースを多く要する執行措置を必要とせずに、自らの期待事項を策定し共有することが可能になりました。

共同声明国（１６カ国）

この声明は、GPAの国際執行協力ワーキンググループ（「IEWG」）の以下のメンバーによって承認されています。

カーリー・カインド
プライバシーコミッショナーオーストラリア情報コミッショナー事務局 オーストラリア

フィリップ・デュフレン
コミッショナーカナダプライバシー委員会事務局 カナダ

スティーブン・ボナー
副コミッショナー（規制監督）情報コミッショナー事務局 イギリス

エイダ・チョン・ライリン
プライバシーコミッショナー個人情報保護委員会事務局香港、中国

エイドリアン・ロブシガー
コミッショナー連邦データ保護および情報委員会 スイス

トビアス・ジュディン
国際セクション責任者データ保護庁（Datatilsynet） ノルウェー

マイケル・ウェブスター
プライバシーコミッショナープライバシーコミッショナー事務局 ニュージーランド

シエロ・アンヘラ・ペーニャ・ロドリゲス
個人データ保護副監督官産業商業監督庁 コロンビア

ポール・ヴェイン
情報コミッショナージャージー情報コミッショナー事務局 ジャージー

オマール・セグルシュニ
会長個人データ保護委員会（CNDP） モロッコ

ベアトリス・デ・アンチョレーナ
ディレクター公共情報アクセス庁（AAPI） アルゼンチン

ホセフィナ・ロマン・ベルガラ
コミッショナー国家透明性・情報アクセスおよび個人データ保護機関（INAI） メキシコ

ブレント・R・ホーマン
コミッショナーデータ保護庁（ODPA） ガーンジー

マル・エスパーニャ・マルティ
ディレクタースペインデータ保護庁（AEPD） スペイン

ロベール・シャナ
会長情報名簿監督委員会（CCIN） モナコ

ギラッド・セママ
コミッショナープライバシー保護庁 イスラエル

②データスクレイピングとプライバシー保護に関する共同声明　2023年8月24日 12カ国

主要なポイント

・個人情報は、公開アクセス可能なものであっても、ほとんどの管轄区域においてデータ保護およびプライバシー法の対象となります。

・ソーシャルメディア企業および公開アクセス可能な個人データをホストするウェブサイト運営者は、自社プラットフォーム上の個人情報を不法なデータスクレイピングから保護する義務を、データ保護およびプライバシー法の下で負っています。

・大量のデータスクレイピングインシデントで個人情報が収集されると、多くの管轄区域において報告義務のあるデータ漏洩として認識される可能性があります。

・個人もまた、データスクレイピングから個人情報を保護するために対策を取ることができ、ソーシャルメディア企業は、ユーザーがプライバシーを保護しながらサービスを利用できるようにする役割を果たすべきです。

はじめに

1. データスクレイピングは一般的に、ウェブ上のデータを自動的に抽出することを指します。データ保護当局は、特にソーシャルメディアやその他の公開データをホストするウェブサイトからのデータスクレイピングに関するインシデントの増加を目の当たりにしています。

2. データスクレイピング技術がインターネット上の膨大な量の個人情報を収集・処理できる能力は、スクレイピングされる情報が公開されているものであっても、重大なプライバシー上の懸念を引き起こします。

3. ほとんどの管轄区域において、「公開されている」「公開アクセス可能な」あるいは「公的性質の」個人情報は、インターネット上にあってもデータ保護およびプライバシー法の対象となります。そのため、このような個人情報をスクレイピングする個人や企業は、これらの法およびその他の適用法を遵守する責任があります。

4. しかし、ソーシャルメディア企業やその他の公開アクセス可能な個人情報をホストするウェブサイトの運営者（ソーシャルメディア企業（Social Media Companies、以下SMC）およびその他のウェブサイト）も、サイトからの第三者によるスクレイピングに関してデータ保護義務を負っています。これらの義務は、一般的に情報が公開アクセス可能であるかどうかにかかわらず、個人情報に適用されます。

5. 個人情報の大量データスクレイピングは、多くの管轄区域において報告義務のあるデータ漏洩と見なされる可能性があります。

6. スクレイピングされた個人情報は、第三者ウェブサイトでの再利用による収益化、悪意ある関係者への販売、あるいはプライベートな分析や情報収集など、さまざまな目的で悪用される可能性があり、以下に説明するように、個人にとって深刻なリスクをもたらします。

7. SMCおよびその他のウェブサイトは、適用される管轄区域におけるさまざまなタイプのデータスクレイピングの合法性を慎重に検討し、違法なデータスクレイピングに対する対策を講じるべきです。

本共同声明の目的は以下のとおりです：

- データスクレイピングに関連する主要なプライバシーリスクを概説すること
- 規制当局の期待に応えるために、SMCおよびその他のウェブサイトが個人の個人情報を違法なデータスクレイピングから保護する方法を示すこと
- 個人がスクレイピングからプライバシーリスクを最小限に抑えるために取ることができるステップを示すこと

この共同声明は、SMCおよびその他のウェブサイトの利益のために、またこれらのウェブサイトを使用し、個人情報を投稿する個人のために発表されました。また、この声明は、Alphabet Inc.（YouTube）、ByteDance Ltd（TikTok）、Meta Platforms, Inc.（Instagram、Facebook、Threads）、Microsoft Corporation（LinkedIn）、Sina Corp（Weibo）、およびX Corp.（旧TwitterのX）に直接送付されています。

本共同声明で概説されている実践は、世界的な一般的データ保護の原則および実践を反映しており、個人情報のデータスクレイピングに対する保護およびそのプライバシーへの影響を軽減するために設計されています。期待は推奨事項として表現されています（「すべき」という表現を使用）が、それらの多くは特定の管轄区域において明示的な法的要件であるか、裁判所やデータ保護当局によりそのように解釈される可能性があります。

私たちは、公開アクセス可能な個人情報のデータスクレイピングに対応するために、いくつかのSMCがコントロールを実装していることを認識しています。これには、例えば、法廷措置やガバナンスイニシアティブが含まれます。本公開書簡に含まれる原則および期待は、そのような活動を参考にし、発展させたものです。

プライバシーリスク(Privacy risks)

10. 近年、多くのデータ保護当局は、ソーシャルメディア企業（SMC）やその他のウェブサイトからの大量データスクレイピングに関する報告が増加していることを確認しています。これらの報告は、以下のようなスクレイピングデータの使用に関する複数のプライバシー上の懸念を提起しています：

- 標的型サイバー攻撃(Targeted cyberattacks) –
例えば、スクレイピングされた身元情報や連絡先情報が「ハッキングフォーラム」に投稿され、悪意ある関係者が標的型のソーシャルエンジニアリングやフィッシング攻撃に利用する可能性があります。

- 身分詐欺(Identity fraud) –
スクレイピングされたデータが、偽のローンやクレジットカード申請に使用されたり、偽のソーシャルメディアアカウントを作成して個人を装う目的に利用されることがあります。

- 個人の監視、プロファイリング、および追跡(Monitoring, profiling and surveilling individuals)–
スクレイピングされたデータが顔認識データベースに登録され、不正に当局がアクセスできるようにする可能性があります。

- 無許可の政治的または情報収集目的(Unauthorised political or intelligence gathering purposes) –
スクレイピングされたデータが、外国政府や情報機関によって無許可で使用される可能性があります。

- 無許可のダイレクトマーケティングやスパム(Unauthorised political or intelligence gathering purposes)–
スクレイピングされたデータに含まれる連絡先情報が、不要なマーケティングメッセージの大量送信に利用されることがあります。

さらに、個人は自分の個人情報が知らないうちに、期待に反してスクレイピングされることで、その管理権を失うことになります。例えば、データスクレイパーは、あるサイトからスクレイピングしたデータを他の個人情報と集約・統合し、予期しない目的で使用することがあります。これにより、SMCやその他のウェブサイトに対する信頼が損なわれ、デジタル経済に悪影響を与える可能性があります。また、たとえ個人がソーシャルメディアアカウントから情報を削除することを決定したとしても、データスクレイパーは既にスクレイピングした情報を引き続き使用・共有し、個人が自身のオンライン上の存在や評判を管理する権限が制限されることになります。

SMCおよびその他のウェブサイトは違法なデータスクレイピングから個人情報を保護すべき

12. SMCおよびその他のウェブサイトには、違法なデータスクレイピングから個人の個人情報を保護する責任があります。

13. 公開アクセス可能なデータから価値を抽出するためのスクレイピング技術は、絶えず出現し進化し続けています。（変化に対応するため（訳者追記））データセキュリティは動的な責任であり、警戒が不可欠です。

14. データスクレイピングに関連するすべての潜在的なプライバシー被害を防ぐための単一の保護策は存在しないため、SMCおよびその他のウェブサイトはリスクを軽減するために、多層的な技術的および手続き的なコントロールを実装する必要があります。これらのコントロールは、情報の機密性に見合った形で組み合わせて使用するべきであり、以下を含むことが考えられます：

- 組織内で、データスクレイピングに対する保護、監視、対応するためのコントロールを識別および実施するためのチームや特定の役割を指定する。

- 一つのアカウントが他のアカウントのプロフィールを訪れる回数を1時間または1日あたりに制限する「レート制限」を行い、異常な活動が検出された場合にはアクセスを制限する。

- 新しいアカウントがどの程度急速かつ積極的に他のユーザーを探し始めるかを監視する。異常に高い活動が検出された場合、これは許容できない利用の兆候である可能性がある。

- 「ボット」活動のパターンを特定してスクレイパーを検出する手段を講じる。例えば、同一の資格情報で複数の場所からプラットフォームにアクセスする際に、疑わしいIPアドレスのグループが検出されることがあります。これが短期間内に発生した場合、疑わしいと見なされます。

- CAPTCHAなどを用いてボットを検出し、データスクレイピング活動が認められたIPアドレスをブロックする。

- データスクレイピングが疑われるまたは確認された場合には、スクレイピング情報の削除を要求し、その削除の確認を取得するなどの「差し止め通知」を送付するなど、適切な法的措置を講じる。また、データスクレイピングを禁止する利用規約の強制を行うための他の法的措置を講じる。

- データスクレイピングがデータ漏洩とみなされる管轄区域では、被害を受けた個人およびプライバシー規制当局に通知する。

15. 上記のようなセキュリティコントロールに加え、SMCおよびその他のウェブサイトは、ユーザーがプライバシーを保護しながらサービスを利用できるよう支援する役割も果たすべきです。この目的のために、SMCおよびその他のウェブサイトは、ユーザーがプラットフォームの利用方法や共有する個人情報について情報に基づいた判断を下せるよう積極的にサポートするべきです。また、以下でさらに詳述するように、ユーザーが利用できるプライバシー設定についての認識と理解を高めることも含まれるべきです。

16. データスクレイピングからの保護のために実施される保護策が個人情報の処理を伴う場合、SMCおよびその他のウェブサイトは、この処理が適用されるデータ保護またはプライバシー法の要件を遵守するよう確保する必要があります。良い実践の一環として、また透明性を確保するために、これらの組織はデータスクレイピングから保護するために講じた手段についてユーザーに知らせるべきです。

17. データスクレイピングの脅威の動的な性質を考慮し、SMCおよびその他のウェブサイトは新たなセキュリティリスクや悪意のある者や無許可の関係者からの脅威に機敏に対応し、継続的に監視する必要があります。コントロールは定期的にストレステストを行い、変化する技術に対応できるよう更新して効果を維持する必要があります。また、SMCおよびその他のウェブサイトは、スクレイピングインシデントの指標を収集・分析し、自社のセキュリティ管理フレームワークの改善点を特定するために活用するべきです。

個人がデータスクレイピングによるプライバシーリスクを最小限に抑えるために取れる対策

18. 上記のセキュリティ対策によりデータスクレイピングに関連するリスクを軽減できるかもしれませんが、完全な効果が保証されるわけではなく、個人がオンラインで共有する個人情報がリスクにさらされる可能性があることを念頭に置くべきです。

19. 本共同声明は、データスクレイピングのリスクを軽減するためにSMCおよびその他のウェブサイトが実施できる対策に焦点を当てていますが、個人も自らのプライバシー保護に積極的に関与し、個人情報をより良く守るために以下のような対策を講じることができます：

- SMCやその他のウェブサイトが個人情報をどのように共有するかについて提供する情報を読む –
特にプライバシーポリシーに注目し、ウェブサイトの共有・開示に関する方針を確認することで、共有する情報の選択に関して情報に基づいた判断を行い、またそれに伴うプライバシーリスクを理解することができます。

- 共有する情報の量と種類について考える –
個人は、オンラインに投稿する情報を制限することを検討すべきです。特に、センシティブな情報の共有を制限することに注意し、特定の情報（例えば個人情報、アカウント番号、識別番号など）の共有が評判の損失、差別、嫌がらせ、身元詐欺や盗難のリスクにさらす可能性があるかどうかを考慮するべきです。

- プライバシー設定を理解し管理する –
個別のユーザー設定だけでは十分なプライバシー保護には限界があるものの、オンラインでの個人情報の共有方法に対するコントロールを高めるのに役立ちます。したがって、ウェブサイトの利用者は、プライバシー設定を利用して公開アクセス可能な情報を制限することを検討するべきです。

20. 最終的に、私たちは個人が長期的な視点で考えることを推奨します。今日共有する情報について、数年後にどのように感じるでしょうか？SMCやその他のウェブサイトは情報を削除したり非表示にしたりするためのツールを提供するかもしれませんが、同じ情報がインデックス化されたりスクレイピングされたりして、その後もウェブ上で永続的に残る可能性があります。

21. 個人が自身のデータが違法または不適切にスクレイピングされた可能性について懸念がある場合、SMCやウェブサイトに連絡することができ、回答に満足できない場合には、関連するデータ保護当局に苦情を申し立てることができます。また、プライバシー設定やオンラインで共有している情報を見直し、必要に応じて変更や個人情報の削除を行うことも検討すると良いでしょう。

結論

22. 本共同声明で示された期待事項は、特に世界中のデータ保護およびプライバシー法への準拠を確保するため、SMCおよびその他のウェブサイトが自社のウェブサイトでアクセス可能な個人情報をデータスクレイピングから保護するために重点を置くべき主要な分野を示しています。データスクレイピングからの保護は、SMCおよびその他のウェブサイトがユーザー基盤の信頼と安心を築くことにも寄与するでしょう。

23. SMCおよびその他のウェブサイトは、ユーザーに対して、前述のような個人情報保護のための措置を積極的に知らせることで、さらにユーザーの情報を保護し、信頼を強化することができます。

24. 私たちは、SMCからのフィードバックを本声明の発行から1か月以内に歓迎します。このフィードバックは、本共同声明で示された期待事項にどのように準拠しているかを示すものであることが求められます。提出された回答は、署名者間で共有され、公開される可能性もあります。

共同声明メンバー（12カ国）

本声明は、GPA国際執行協力ワーキンググループ（「IEWG」）の以下のメンバーによって承認されています。

エリザベス・ハンプトン
副コミッショナーオーストラリア情報委員会事務局 オーストラリア

フィリップ・デュフレン
コミッショナーカナダプライバシー委員会事務局 カナダ

スティーブン・ボナー
副コミッショナー（規制監督）情報コミッショナー事務局 イギリス

エイダ・チョン・ライリン
プライバシーコミッショナー個人情報保護委員会事務局香港、中国

エイドリアン・ロブシガー
コミッショナー連邦データ保護および情報委員会 スイス

トビアス・ジュディン
国際セクション責任者データ保護庁（Datatilsynet） ノルウェー

マイケル・ウェブスター
プライバシーコミッショナープライバシーコミッショナー事務局 ニュージーランド

シエロ・アンヘラ・ペーニャ・ロドリゲス
個人データ保護副監督官産業商業監督庁 コロンビア

ポール・ヴェイン
情報コミッショナージャージー情報コミッショナー事務局 ジャージー

オマール・セグルシュニ
会長個人データ保護委員会（CNDP） モロッコ

ベアトリス・デ・アンチョレーナ
ディレクター公共情報アクセス庁（AAIP） アルゼンチン

ホセフィナ・ロマン・ベルガラ
コミッショナー国家透明性・情報アクセスおよび個人データ保護機関（INAI） メキシコ

感想

いかがでしたでしょうか？

個人的には、「データスクレイピング」という狭いテーマに特化したこの複数国の規制当局の取組みはよい取組みだなと思いました！

具体的に、よいと思ったのは、以下の6点です。

①法律VS実務でのもやもやをそのままにせず、何が問題なのか？、何をすべきか？を１ページのWebでまとめて公表していること

②データ保護法・プライバシー保護法における考え方は、国を超えて共通的であるとして、世界共通の課題を整理し、世界各国のデータ保護当局のコミュニティを広げていること（2023年：12カ国→2024年：16カ国）

③「データスクレイピング」をされる側のソーシャルメディア事業者やWebの提供者、スクレイピングを行う者、それにより侵害を受ける可能性がある個人、それぞれの立場でできることを汎用的にまとめていること

④「データスクレイピング」の問題の複数ステークホルダーと対話を行い、規制当局と事業者という対立構造ではなく、それぞれの立場を理解しあいながら、あるべき姿を結論づけていること

⑤「データスクレイピング」が必要とされる背景を理解し、適正なデータ利用に向けAPIの提供や利用規約等でのルールの明記などにも言及していること

⑥技術の進展をふまえアップデートを行い、今後も予定していること

一方、欲しかったなと思う点は、
「データスクレイピング」そのものが全く認められないわけではない中で、スクレイピングを行う人向けの論点があったらよいのに、と感じました。

先日、社内のAI開発部門に、個人情報保護法遵守上のお悩みをヒアリングしたのですが、その際こんな意見が出ていました。

「データスクレイピングは、機械的に行うもの。robot.textなどの設定があれば、機械が自動で判断できる。一方、各Webサイトの利用規約の日本語を読んで、スクレイピング対象からはずすということを自動で行うのは難しい。」

スクレイピングされる側、スクレイピングする側双方が規律を守りやすくするルール、という視点があってもよい気もしますね！

それでは、また！

今日のAI画

邦訳【AI】違法データスクレイピングの16カ国共同声明フォローアップ（2024/10/２８)

ざっくり言うと

対象文書

①データスクレイピングとプライバシー保護に関する共同声明の結論 2024年10月

はじめに

業界との協議

得られた教訓と共同署名者の期待

データスクレイピング技術の進展に対応する上での課題と解決策

中小企業（SME）

SMCが許可するスクレイピングと合法的なスクレイピング

研究およびその他の社会的利益をもたらす可能性のある目的のためのデータアクセス

AI開発のためのSMCによるスクレイピングデータおよび自社プラットフォームデータの利用

結論

共同声明国（１６カ国）

②データスクレイピングとプライバシー保護に関する共同声明 2023年8月24日 12カ国

主要なポイント

はじめに

プライバシーリスク(Privacy risks)

SMCおよびその他のウェブサイトは違法なデータスクレイピングから個人情報を保護すべき

個人がデータスクレイピングによるプライバシーリスクを最小限に抑えるために取れる対策

結論

共同声明メンバー（12カ国）

感想

いいなと思ったら応援しよう！

①データスクレイピングとプライバシー保護に関する共同声明の結論　2024年10月

②データスクレイピングとプライバシー保護に関する共同声明　2023年8月24日 12カ国