統計学が最強の学問である 実践編①:中央値と平均値、因果関係を見るならどっちを使うべきか?
読書ノート(141日目)
明けましておめでとうございます🎍✨
2024年も引き続き、
どうぞよろしくお願いいたします。
さて、新年最初の読書ノートは…
昨年12月に宣言した目標の通り
「統計学が最強~」シリーズを読破する!
ということで、
今日からは「実践編」となります。
さて、今日からは
「統計学が最強~」シリーズ全4冊のうち
2冊目に突入しました。
当初の予定からはやや遅れ気味ですが
今日はこの後で初詣など外出もあるので
明日から読書ペースを挽回する予定です!
さて今回は、数ある代表値の中でも
因果関係を見つけたいなら
中央値よりも平均値を使うべき。
でも平均値だけではデータの幅が
分からないから、四分位点も使おう!
という内容でした。
本書ではグラフ付きで
標準偏差から因果関係を洞察する
という内容が説明されており、
僕自身も重要だと感じたのですが
紙の本を写真で撮影しても
あまり綺麗にアップロードできず…
ということで、同じような内容が
こちらのサイトに記載されていたので、
お借りして説明すると…
以下の棒グラフは、
A群とB群の平均値を比較したもので、
B群の平均値の方がA群よりも
高いことは分かりますが、
この差がたまたま偶然なのか、
そうでなく有意差なのかは
このグラフだけでは分からない…
そこで、標準偏差の出番!
ということで、
標準偏差をグラフ上に表すと
以下のようになりました。
一見すると、ヒゲの部分が
A群とB群で重なっている面積が
大きいので、平均値の差は
なんだか偶然生じているようにも
見えますが…
ここで平均値の差を検定する
T検定を実施したところ
偶然性を示すp値は0.003だったようで
(有意差がない可能性がある確率は0.3%)
つまり
たまたま偶然では起きない差がある
と統計的に検定ができた。
ということになります。
もしA群とB群がランダムに選ばれていて
何かの施策や処置がB群だけにされた。
という条件があって、この結果が出れば
その施策や処置は効果があっただろう。
と言え、因果関係の洞察ができます。
ExcelでもT検定はt.test関数で
簡単にp値を計算することができるので、
シンプルながら強力な武器ですね…!
ということで今日はこの辺で!
それでは皆さんも
良い元日をお過ごしくださいー!
そして、皆さんにとっても
僕にとっても素敵な2024年にしましょう!✨
それではまたー!😉