Googleデータアナリティックス - 11週目 データの信頼性と完全性・個人情報保護
Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。
データのバイアス・バリアンスや、信憑性を分析する方法を学ぶ。(良いデータ vs 悪いデータ)またデータ倫理や個人情報保護、アクセス権限の管理についても学習しました。
バイアス(偏見)、およびバイアスの掛かったデータ
バイアスとは、特定の人やグループ・物事に対して好意的・あるいはその逆に物事が作用することである。ヒトの脳は、直感的で素早い判断ができるようヒューリスティックと呼ばれる、バイアスを助長するようなアルゴリズムが備わっている。これらは意識的である場合もあれば、無意識的である場合もある。
データにもバイアスが備わっていて、データの内容を体系的にゆがめているケースがある。データバイアスは、アンケートが誘導質問である場合や母集団からの標本抽出に偏りがある場合に発生する可能性が高い。例として、アメリカ合衆国の心臓の健康に関する臨床研究に男性の参加者が多く、患者が女性である場合のデータが十分に集まらなかったケースがある。
データバイアスの種別
「良い」データソース
「良い」データとは、その信頼性を検証できるようなデータである。
データの信頼性の検証には、構造化思考に基づいてROCCCというフレームワークを用いる。
データ倫理
倫理とは、人間が何をするべきかを規定する根拠ある善悪の基準である。
一般に、倫理は権利や義務・社会への利益、平等と公平性・美徳等々の善意志の基準となっている。
倫理のあり方は個人ごとに異なり、また成人するにつれてより合理的・かつ職業倫理などの広範的な倫理の在り方を学ぶことになる。
データアナリストの仕事は、個人的な倫理観だけでは対処できないケースが多く存在する。データ倫理は、こうしたデータの収集・共有・使用方法を左右する根拠ある善悪の基準となる。
ヨーロッパ連合(EU)では、データ倫理に基づきデータの収集に関する規則を定めたGDPR(General Data Protection Regulations of the Europian Union)という法律が存在する。
データの匿名化
データ倫理においては、特に 個人を特定できる情報(PII)の匿名化が重要となる。組織には、データおよびそのデータが含む可能性のある個人情報を保護する責任がある。データアナリストの場合は、テストや開発のためにデータのコピーを使用する際にそのデータを扱う前に匿名化することを求められる可能性がある。
ヘルスケアと金融のデータは、特に機密性の高いデータとなる。これらのデータの取り扱いに対するリスクは非常に高いため、通常、個人を特定できるデータをすべて消去する「非識別化」を行いデータを保護する。
個人を特定するデータ=非識別化するべきデータは、以下となる
オープンデータの使い方
オープンデータとは、自由にアクセス・使用・共有できるデータの事を指す。オープンデータを使った分析等を行う際は、データがデータ倫理の6側面を満たしているかを確認する必要がある。
data.govというサイトでは、アメリカ合衆国で収集された
データ倫理に沿って公開された様々な業界・研究のデータをDLすることができる。
オープンデータを公開したい場合は、再利用・再配布を可能とする条件で提供する等公共の利益になるような状態にする必要がある。オープンデータを活用・公開する利点は、信頼性の高いデータベースをより幅広く活用できるようになる点である。これを相互運用性と呼ぶ。
オープンデータに関するサイトやリソース