Googleデータアナリティックス - 15週目 データの前処理・標本調査の手法
Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。
今回はデータの前処理、そして統計学に基づいた標本調査・統計的仮説検定の手法について学びました。私がつい数か月前に統計検定2級で嫌というほど学んだ奴です。(笑)
データの前処理・標本調査の手法
これまでに学んだこと:分析のためのデータの集め方・整理・管理の仕方
これからは、整理したデータを前処理し完全・正確にする方法を学ぶ
(データ分析の6段階のうち、「処理」に相当する)
・初めてデータセットを開く手順
データがどのように、だれが収集したかという1次情報を確認する。
データが信頼できる1次情報であることが分かったら、次にどのような形でデータが保管されているかというデータの構造を把握する。
最後に、データの分析に適したツールを考案する。
・データセットを探索する際に応用できること
なぜデータ分析をする必要があるのかという、問いかけを明確にする
問いかけを明確にしたら、その課題に取り組むのに役立つデータを探索する。データを分析する手段としては、Excel, RStudio, BigQuery等のサービスを活用できる。
データの完全性と分析の目的
データの完全性 - データライフサイクルに正確性・完全性・一貫性・信頼性が保たれていること。例えばサンプリングバイアスや破損したファイルがあるデータは完全ではない。
データ主導の意思決定をするには、ビジネス上の目的との整合性、
データのクリーニングから正確な結論を得られるようにしておく必要がある。
データが部分的にしか目標と整合していない場合は、
目標を修正する方法を考えるかビジネス上の目的により一致するデータの抽出を考案する。
不十分なデータへの対処
データが不十分である場合は、このように対処することができる
サンプルサイズについて
母集団全体の収集ができない場合は、標本調査を行って母集団の一部を抽出する。適切なサンプルサイズを守れば、サンプリングバイアスを生むことなく母集団全体の傾向を分析できる。
サンプリングはフィッシャーの三原則という、無作為抽出をするための手法を使って行われる。
標本平均の95%信頼区間の誤差が±30%程となるのがサンプルサイズが30、
±25%となるのがサンプルサイズが100。サンプルサイズが1000程となると、標本平均の95%信頼区間は母平均の±3%以内となる。
標本平均を正確に求めたい時は少なくとも30~100、更に精度を挙げたい際はサンプルサイズを1000~10000以上に引き上げるのが好ましい。
信頼度・信頼区間は95%を用いるのが一般的。場合によって90%・99%信頼度を用いる。以下のような場合には、プロジェクトの必要に応じてサンプルサイズを大きくする。
定義一覧
統計的仮説検定について
サンプルの平均や分散の信頼度を検定したい際は、仮説が正しいと仮定した場合に統計量が確率分布に従うことを利用して統計的有意性を検定するという、統計的仮説検定を利用する。
等平均の検定にはZ検定・t検定、等分散の検定にはF検定を用いる。
統計的仮説検定は一般に、帰無仮説の統計的有意性が低い事を証明し対立仮説を採用することを目的とする。
検定力の活用
統計的検定力(Statistical Power)とは、有意差検定を行った際に正しい検定を行う事ができる確率を表す。
サンプルサイズが1000、標本平均の95%信頼区間を用いる統計的仮説検定の帰無仮説に対する検出力は約94%となる。
p値だけでは対立仮説の検出力を求めることは出来ないが、一般に約80%以上となる様サンプルサイズを大きくするべきである。
対立仮説の検出力は、帰無仮説との有意差・サンプルサイズが大きくなると上昇する。
信頼度
信頼度(Confidence Level)とはサンプルが母集団を正確に反映する確率を表す。一般には、標本平均の95%信頼区間を信頼度とするケースが多い。
医薬品・ヘルスケア等人命に関わる研究・調査では、99%・99.99%など信頼度をなるべく高くする事が好ましい。
サンプルの傾向を大まかに把握したい場合は、80%・90%など比較的低い信頼度が使われることもある。
許容誤差の活用
統計的な許容誤差は、信頼度とサンプルサイズから計算することができる。
研究調査の場合は信頼度を99%、サンプルサイズを1000とし許容誤差の範囲が4.08%以下となるようにするのが慣例である。