![見出し画像](https://assets.st-note.com/production/uploads/images/126389003/rectangle_large_type_2_a285a565110ea3ca11f8a9b11b263f2d.png?width=1200)
統計学が最強の学問である 実践編②:「スポーツをすれば出世する!?」を検定するには?
読書ノート(142日目)
年末年始の読書テーマである
「統計学が最強~」の2冊目として、
本日もこちらの本からです。
・第2章:統計学が「最強」であるもう一つの理由
標準誤差と仮説検定
・あわて者とぼんやり者の間にある「最強」という考え方
・検出力とは「何らかの差が存在しているという仮説が正しいときに、
きちんと有意差であるという事ができる確率」
・「あわて者の過ち」、「ぼんやり者の過ち」
・「間違った仮説を正しいとしてしまう」ことをαエラー、
「正しい仮説を見逃してしまう」ことをβエラー
と呼んで統計学では区別している
・たいていの教科書では、それぞれの頭文字に対応させ
αエラーを「あわて者の過ち」、
βエラーを「ぼんやり者の過ち」として紹介している
・例えば、常に「もうすぐ不況になる」と予測し続ける経済評論家や、
ビジネスで顧客を慎重に見続けているだけで競合他社に奪われてしまう
などがその例
・統計学では、あわて者とぼんやり者の間で、
いかに現実的に正しい判断を行うかが定式化されている
・あわて者とぼんやり者の過ちはトレードオフ
・考慮する順番は、まず先に、
あわて者の過ちのリスクをどこまで許容するかを決め、
次に、ぼんやり者の過ちを最小化する方法、
または検出力を最大化する方法を考える
・慣例的には5%(20回に1回)のエラー発生(有意水準)を許容
することが多いが、より厳密な意思決定が求められる場合は
1%や0.1%といった有意水準を設けることもある
・想定する有意水準の中で最も検出力が高い検定手法のことを、
最強検定や最強力検定と呼ぶ
・「誤差の範囲」とデータの数の関係
・統計学的な意味での誤差とは、
限られたデータ量から求めた平均値や割合が、
「真の値」からどの程度の確率でどの程度ブレたものに
なりうるかを示すこと
・標準偏差と同様に、標準誤差も±2の範囲で
約95%の確率でデータが存在すると考える
※本書でも正確には±1.96の範囲で95%、
±2の範囲では95.4%を簡略化して記載と紹介されている
・例えば、平均値が4千円で標準誤差が100円だった場合、
標準誤差の±2倍の、3800円~4200円が誤差の範囲内となる
・標準誤差は標準偏差とサンプルサイズで計算され、
求めたい標準誤差が決まれば必要なデータ量(サンプルサイズ)を
算出でき、これをサンプルサイズ設計と呼ぶ
・不毛な議論に終止符を打つ仮説検定の考え方
・「スポーツをすれば出世する」と主張する”あわて者の仮説”を、
どうすれば統計学的に検定できるか
・仮に「スポーツをする」を「大学の体育会出身」、
「出世する」を「主任以上の役職者」とした場合
・大学の体育会出身者が300人いて、
そのうち主任以上が21%、役職なしが79%
・その他の出身者が200人いて、
そのうち主任以上が18.5%、役職なしが80.5%のとき
・これらの出世率21%と18.5%の差2.5%が、
誤差なのか、それとも有意なのかを検定する
・検定の流れ
両グループの出世率の差2.5%に対する「標準誤差を算出」→3.65%
95%信頼区間を算出:2.5%×(2×±3.65%)=-4.8%~9.8%
・つまりこの場合は、
「体育会出身者の方が9.8%も出世率が高いという仮説も
否定しきれないが、一方で逆に4.8%出世率が低い、
という仮説も否定しきれない」となる
※本書ではz検定の説明が続きますが、その後、z検定のデメリットである
データ量が少ない(数十しかない)場合の検定方法として
t検定が紹介されます。t検定はデータ量が数百や数千以上と
多くなった場合でも用いることに問題はなく、
z検定との結果と一致するということから、
「とりあえずt検定を選んでおくのが基本」とのことです。
・検定の多重性
・1回の検定でp値が5%未満ならば95%の確率で
「あわて者とはならない」となるが、
2回の検定で一度もあわて者にならない確率は95%の二乗で90.25%、
3回の検定の場合では85.74%、仮に100のp値で判断した場合は
一度もあわて者にならない確率は0.59%しかない
・つまり、判断に使うp値は算出すればするほど良いというものではなく、
検定数が多ければそれだけ、あわて者のリスクを上昇させてしまう
・これを「検定の多重性」と呼ぶ
・検定の多重性への処方箋(※備忘メモ)
①ボンフェロー二補正:有意水準を検定回数で割り算する
(有意水準5%に対して10回の検定ならp値0.5%を目指す。
同時に、ぼんやり者のリスクは上昇してしまう)
②基準カテゴリーを1つ決めて、そこからの比較を行う
③探索的なp値と検証的なp値を使い分ける
前著「統計学が最強の学問である」
のオリジナル版で、
データを集計するだけの分析は
19世紀どまりで、誤差を考えてこそ
現代の統計学である。
ということを学んだばかりでもあり、
今回の章は丁寧に読み進めました。
ただ、本書をnoteにまとめている中で
難しいことを易しく伝える、
ということの難しさを実感しています…
せっかくここまで読んで頂いているのに
疑問点や分かりにくい箇所が
まだまだ多かったら申し訳ないです…
個人的には
「スポーツをすれば出世する」という
検定を一つとっても、
「スポーツをする」とは、どういうこと?
「出世する」とは、どういうこと?…と、
データ分析側と、分析を依頼する側の
双方で1つ1つの定義の解像度を上げることが
データリテラシー向上の第一歩だなぁと
2023年の仕事を振り返り、
しみじみと思い出した、そんな章でした。
ということで、今日はこの辺で!
今日もnoteを読んでくださり、
どうもありがとうございました!
それではまたー!😉✨