Googleデータアナリティックス - 15週目データの前処理・標本調査の手法

2023年1月28日 10:55

Googleデータアナリティックスという、データ分析を仕事にしたい人向けの講座を受講してます。全6か月分、計30週分のコースで優秀なデータアナリストになろうという内容です。

今回はデータの前処理、そして統計学に基づいた標本調査・統計的仮説検定の手法について学びました。私がつい数か月前に統計検定2級で嫌というほど学んだ奴です。（笑）

データの前処理・標本調査の手法

これまでに学んだこと：分析のためのデータの集め方・整理・管理の仕方
これからは、整理したデータを前処理し完全・正確にする方法を学ぶ
(データ分析の6段階のうち、「処理」に相当する)

データの完全性（Data integrity）を確保する方法

１，データ完全性を確保する: データの量が十分でない場合、サンプルのサイズ、サンプルバイアスの回避、ランダムサンプルの活用
２，クリーンデータを理解する: クリーンデータとダーティデータの違い
３，Excel・SQL を活用したデータクリーニング
４，クリーニング結果を検証し、レポートする

・初めてデータセットを開く手順
データがどのように、だれが収集したかという１次情報を確認する。
データが信頼できる１次情報であることが分かったら、次にどのような形でデータが保管されているかというデータの構造を把握する。
最後に、データの分析に適したツールを考案する。

・データセットを探索する際に応用できること
なぜデータ分析をする必要があるのかという、問いかけを明確にする
問いかけを明確にしたら、その課題に取り組むのに役立つデータを探索する。データを分析する手段としては、Excel, RStudio, BigQuery等のサービスを活用できる。

データの完全性と分析の目的

データの完全性 - データライフサイクルに正確性・完全性・一貫性・信頼性が保たれていること。例えばサンプリングバイアスや破損したファイルがあるデータは完全ではない。

データ主導の意思決定をするには、ビジネス上の目的との整合性、
データのクリーニングから正確な結論を得られるようにしておく必要がある。
データが部分的にしか目標と整合していない場合は、
目標を修正する方法を考えるかビジネス上の目的により一致するデータの抽出を考案する。

データの完全性にリスクが発生するケース

・データの複製
・データの転送
・データの操作
・ヒューマンエラー、ウイルス、マルウェア等の人為的要因
データの完全性は、主にデータウェアハウス・データエンジニアリングといった部門が担保する。

不十分なデータへの対処

「不十分」とみなされるデータの性質
・ソースが1つしかない
・アップデートの途上である
・型落ち・旧式のデータである

データが不十分である場合は、このように対処することができる

・ビジネス上の目的を明確化→目的に合ったデータを収集する
・必要なデータの傾向を分析→入手可能なデータを増やす
・時間・期限に余裕がある場合→必要なデータを更に収集する
・時間・期限に余裕がない場合→ビジネス目的の変更・分析する内容を再検討する

サンプルサイズについて

母集団全体の収集ができない場合は、標本調査を行って母集団の一部を抽出する。適切なサンプルサイズを守れば、サンプリングバイアスを生むことなく母集団全体の傾向を分析できる。

サンプリングはフィッシャーの三原則という、無作為抽出をするための手法を使って行われる。

・無作為抽出(ランダムサンプリング)
・局所管理（性別・年齢などのサブカテゴリーに大きな偏りが生じないようにする）
・繰り返し（サンプリングによって生じる誤差を検証する）

標本平均の95%信頼区間の誤差が±30%程となるのがサンプルサイズが30、
±25%となるのがサンプルサイズが100。サンプルサイズが1000程となると、標本平均の95%信頼区間は母平均の±3%以内となる。
標本平均を正確に求めたい時は少なくとも30~100、更に精度を挙げたい際はサンプルサイズを1000~10000以上に引き上げるのが好ましい。

信頼度・信頼区間は95%を用いるのが一般的。場合によって90%・99%信頼度を用いる。以下のような場合には、プロジェクトの必要に応じてサンプルサイズを大きくする。

・信頼度を上げたい場合
・誤差を小さくしたい場合
・統計的有意性を高めたい場合

定義一覧

・母集団 - 調査の対象となるグループ全体
・サンプル - 母集団全体から抽出した一部の集合
・誤差 - サンプルの結果が実際の母集団の結果と異なることが許容される値の範囲
・信頼度 - サンプルが母集団を正確に反映する確率
・信頼区間 - 統計的推定値が母集団をどの程度反映できているかを示す値の範囲
・統計的有意性 - サンプル結果が無作為の偶然ではない確率(p値)

統計的仮説検定について

サンプルの平均や分散の信頼度を検定したい際は、仮説が正しいと仮定した場合に統計量が確率分布に従うことを利用して統計的有意性を検定するという、統計的仮説検定を利用する。
等平均の検定にはZ検定・t検定、等分散の検定にはF検定を用いる。
統計的仮説検定は一般に、帰無仮説の統計的有意性が低い事を証明し対立仮説を採用することを目的とする。

検定力の活用

統計的検定力(Statistical Power)とは、有意差検定を行った際に正しい検定を行う事ができる確率を表す。

サンプルサイズが1000、標本平均の95%信頼区間を用いる統計的仮説検定の帰無仮説に対する検出力は約94%となる。
p値だけでは対立仮説の検出力を求めることは出来ないが、一般に約80%以上となる様サンプルサイズを大きくするべきである。
対立仮説の検出力は、帰無仮説との有意差・サンプルサイズが大きくなると上昇する。

信頼度

信頼度(Confidence Level)とはサンプルが母集団を正確に反映する確率を表す。一般には、標本平均の95%信頼区間を信頼度とするケースが多い。
医薬品・ヘルスケア等人命に関わる研究・調査では、99%・99.99%など信頼度をなるべく高くする事が好ましい。
サンプルの傾向を大まかに把握したい場合は、80%・90%など比較的低い信頼度が使われることもある。

許容誤差の活用

統計的な許容誤差は、信頼度とサンプルサイズから計算することができる。
研究調査の場合は信頼度を99%、サンプルサイズを1000とし許容誤差の範囲が4.08%以下となるようにするのが慣例である。

Googleデータアナリティックス - 15週目 データの前処理・標本調査の手法