【読了】統計学の基礎から学ぶ Excelデータ分析の全知識
網羅的ではないけど、ストーリーを1〜2本通すような本。入門書としては理に適ってる。
Excelスキルってこうゆうのも含むよね。
データ駆動課題解決の全体像
思考サイクル
①見かけの課題(現象)の具体化:5W1H
②検証可能な仮説(課題の仮説)の策定
③データ分析による仮説の検証:逆算思考(アウトプットイメージの定義→データ収集→データ分析→示唆出し)
④検証された仮説に基づくアクションの実施/見直し:KDI
⑤アクションの効果検証:アクションは実施できたか?効果はどうか?
⑥仮説のアップデート(②に戻る)
なんとなく感じた「見かけの課題」を直接的に考えるのではなく、まず「真の課題は何か?」という問いを持って、ちゃんと検証(その手段がデータ分析)してから、アクションを打っていくというのがデータを活用するということ。
データ活用の段階
①現状の定量化:集計、可視化
②関連性の把握:散布図、回帰分析
③因果関係の把握:仮説検定、RCT(ランダム化比較試験)、効果検証
④将来の予測:時系列分析、予測器(機械学習)
⑤最適解の導出:数理最適化
必要とされるスキルも、記述統計→推測統計→機械学習と移ってくイメージ。
記述統計
基本統計量とか可視化(グラフ、ヒートマップ)とか。簡単なので省略。
分析対象とするデータ自体を理解するためには不可欠なスキル。
推測統計
推測統計は、推定と検定(仮説検定)に分類できる。
検定
差異が偶然生じたものかどうかを結論づけるために使う手法。
数ある検定のうち、本書で扱うのは「t検定」と「χ2検定」のみ。
仮説検定のステップ
①帰無仮説H0/対立仮説H1の設定
②有意水準(危険率α)の設定
③検定統計量の選択
④検定統計量の算出(p値も算出)
⑤有意性の評価:p値が有意水準(危険率)よりも小さければ帰無仮説を棄却できる
検定統計量とp値がいつも混乱する。
・p値:帰無仮説を前提とした場合に、観測した事象(得られたデータ)よりも珍しいこと起こる確率probability(=確率分布の面積)。
・検定統計量:p値を算出するための確率変数。t値(t分布に従う)、χ2値(χ2分布に従う)、など。
背理法の理屈。
・算出したp値が有意水準より小さい→観測事象は極めて珍しい(あり得ない)→帰無仮説が棄却される→対立仮説は正しいと結論できる
・算出したp値が有意水準より大きい→観測事象は珍しくない→帰無仮説が棄却されない→対立仮説が正しいかどうかは不明
有意水準αを小さくすればするほど、TypeⅠエラー(誤棄却)を起こす確率は下がる。一方で、TypeⅡエラー(誤採択)を起こす確率が上がる(検出力1-βが下がる)。
t検定
t検定といっても、母平均に関する検定、母平均の差に関する検定(「等分散を仮定する」スチューデント、「等分散を仮定しない」ウェルチ、「一対の」対応あり)、いろいろある。
Excelでは「分析ツール」を使えば、一通り検定できるらしい。
χ2検定
χ2検定の方も、母分散に関する検定、独立性検定、適合度検定、とかいろいろある。本書で扱ってるのは独立性検定(A/Bテストの例)。
独立性検定も適合度検定も似たような2次元テーブルを使うから混乱してたけど、自由度が違うらしい。
・独立性検定:2個以上のカテゴリカル変数に関係があるか(独立性があるか)を検定するので、クロス集計表(n×m)
・適合度検定:期待度数と実測値のズレが偶然かどうかを検定するので、n×2
本書では言及されてないけど、独立性検定を行った後には、具体的にどのカテゴリカル変数間に関係があったのか、残差分析で更に検証するらしい。
Excelで残差分析する方法はこちら。
前処理
欠損値、表記ゆれ、外れ値(外れ値のうち原因が判るものを異常値と呼ぶ)の処理、カテゴリカル変数のダミー変数化、などなど。
省略。
回帰分析
記述統計と推測統計の両方に使う手法。
説明変数(特徴量)と目的変数の関係、および各説明変数の寄与度合いを把握できる。
機械学習アルゴリズムで得られるモデルと比較して、回帰分析で得られるモデルは「解釈可能性が高い」、つまりホモサピに理解できるほどシンプル。
・記述統計における回帰分析:散布図に近似曲線を引く
・推測統計における回帰分析:真の回帰曲線を推定/検定する
回帰分析の種類
・線形回帰分析
・単回帰分析
・重回帰分析
・ロジスティック回帰
・ガンマ回帰
Excelの「分析ツール」を使うと、各説明変数に対するp値(帰無仮説H0「傾き=0」)も出力してくれるらしい。
また、決定係数R2(Excelでは「重決定R2」)というのも着目すべき指標で、回帰分析で見つけた説明変数で目的変数を説明できている割合(当てはまりの良さ)を示している。
回帰分析の精度を高める
・外れ値を除外する
・多重共線性を解消する(説明変数を減らす)
最適化
・数理最適化:制約条件(変数の取り得る範囲)のもとで、目的関数の値を最大/最小にする変数の値(最適解)を求めること
代数的に解ける(解析解)場合もあるし、近似的にしか解けない(数値解)場合もある。
Excelの「ソルバー」を使うと数理最適化が実行できる。
追記
分散分析
重回帰分析
①回帰統計:補正R^2、1に近いほどよい
②分散分析表(帰無仮説:母重相関係数=0):有意F、0.05未満ならよい
③偏回帰係数のt検定(帰無仮説:偏回帰係数=0):P-値、0.05未満ならよい