![見出し画像](https://assets.st-note.com/production/uploads/images/95737784/rectangle_large_type_2_d84c8d6253ce741cdb2d2fa254734888.png?width=1200)
Googleデータアナリティックス - 11週目 データの信頼性と完全性・個人情報保護
Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。
データのバイアス・バリアンスや、信憑性を分析する方法を学ぶ。(良いデータ vs 悪いデータ)またデータ倫理や個人情報保護、アクセス権限の管理についても学習しました。
バイアス(偏見)、およびバイアスの掛かったデータ
バイアスとは、特定の人やグループ・物事に対して好意的・あるいはその逆に物事が作用することである。ヒトの脳は、直感的で素早い判断ができるようヒューリスティックと呼ばれる、バイアスを助長するようなアルゴリズムが備わっている。これらは意識的である場合もあれば、無意識的である場合もある。
データにもバイアスが備わっていて、データの内容を体系的にゆがめているケースがある。データバイアスは、アンケートが誘導質問である場合や母集団からの標本抽出に偏りがある場合に発生する可能性が高い。例として、アメリカ合衆国の心臓の健康に関する臨床研究に男性の参加者が多く、患者が女性である場合のデータが十分に集まらなかったケースがある。
データバイアスの種別
サンプリングバイアス(Sampling Bias)
サンプルされた標本集団が、母集団全体を表していない事で生じるバイアス
サンプリングバイアスを防ぐには、フィッシャーの3原則(無作為・繰り返し・局所管理)に基づいた無作為抽出を行って不偏サンプリング(Unbiased sampling)とする。
観測者バイアス(Observer bias)
人によって物事の観察内容が異なることで生じるバイアス。例として、医師が血圧を四捨五入することでデータが正確に記録できなかったケースがある
認知バイアス(Interpretation bias)
曖昧な状況を常に肯定的・または否定的に解釈してしまうことで生じるバイアス。例として、2人の異なる人物が上司の態度を全く違う方向に解釈するケースがある
確証バイアス(Confirmation bias)
人は見たいものだけを見る。既存の信念を確認する形でデータを探索・解釈した結果生じるバイアス特定のウェブサイトやTV番組だけからの偏った情報、「自分だけは大丈夫」といった思い込みなど日常生活でもありがちなヤツである
「良い」データソース
「良い」データとは、その信頼性を検証できるようなデータである。
データの信頼性の検証には、構造化思考に基づいてROCCCというフレームワークを用いる。
ROCCC
・信頼性(Reliable)
・独自性(Original)
・包括性(Comprehensive)
・最新性(Current)
・引用元(Cited)
ROCCCを特定するための問い
・データを作成したのは誰か
・データは信頼できる組織が作成したか
・データが更新されたのはいつか
データ倫理
倫理とは、人間が何をするべきかを規定する根拠ある善悪の基準である。
一般に、倫理は権利や義務・社会への利益、平等と公平性・美徳等々の善意志の基準となっている。
倫理のあり方は個人ごとに異なり、また成人するにつれてより合理的・かつ職業倫理などの広範的な倫理の在り方を学ぶことになる。
データアナリストの仕事は、個人的な倫理観だけでは対処できないケースが多く存在する。データ倫理は、こうしたデータの収集・共有・使用方法を左右する根拠ある善悪の基準となる。
データ倫理の6側面
・所有権(ローデータは個人が所有する)
・取引の透明性
・ユーザーの同意
・カレンシー(金融取引のオプトアウト)
・プライバシー保護
・オープンネス
ヨーロッパ連合(EU)では、データ倫理に基づきデータの収集に関する規則を定めたGDPR(General Data Protection Regulations of the Europian Union)という法律が存在する。
データの匿名化
データ倫理においては、特に 個人を特定できる情報(PII)の匿名化が重要となる。組織には、データおよびそのデータが含む可能性のある個人情報を保護する責任がある。データアナリストの場合は、テストや開発のためにデータのコピーを使用する際にそのデータを扱う前に匿名化することを求められる可能性がある。
ヘルスケアと金融のデータは、特に機密性の高いデータとなる。これらのデータの取り扱いに対するリスクは非常に高いため、通常、個人を特定できるデータをすべて消去する「非識別化」を行いデータを保護する。
個人を特定するデータ=非識別化するべきデータは、以下となる
・電話番号
・名前
・ナンバープレートと免許証番号
・社会保障番号
・IP アドレス
・医療機関の受診記録
・電子メールアドレス
・写真
・銀行口座番号
オープンデータの使い方
オープンデータとは、自由にアクセス・使用・共有できるデータの事を指す。オープンデータを使った分析等を行う際は、データがデータ倫理の6側面を満たしているかを確認する必要がある。
data.govというサイトでは、アメリカ合衆国で収集された
データ倫理に沿って公開された様々な業界・研究のデータをDLすることができる。
オープンデータを公開したい場合は、再利用・再配布を可能とする条件で提供する等公共の利益になるような状態にする必要がある。オープンデータを活用・公開する利点は、信頼性の高いデータベースをより幅広く活用できるようになる点である。これを相互運用性と呼ぶ。
相互運用性
システムやサービスをオープンに接続すること、またはデータを共有できる状態にすること。相互運用性が活用されている例としては、電子カルテシステム等がある。
オープンデータの要件
・完全なデータセットとして一般公開されており、アクセスできる
・再利用や再配布が可能な条件のもと、提供されている
・あらゆる人がデータを利用し、再利用し、再配布できる
オープンデータに関するサイトやリソース
アメリカ合衆国政府データサイト:https://data.gov
アメリカ合衆国国勢調査局:https://www.census.gov/data.html
オープンデータ ネットワーク:https://www.opendatanetwork.com
GoogleCloud一般公開データセット:https://cloud.google.com/datasets
データセット検索:https://datasetsearch.research.google.com