【読書メモ】西内啓『統計学が最強の学問である9
読んだ本
読書マインドマップ
読書メモ
第5章 ランダム化できなかったらどうするか?
一般化線形モデル:データ間の関連性を示し、誤差を検定する手法
t検定
カイ二乗検定
分散分析
回帰分析
平均値への回帰
→身長の高い親の子どもほど、実際はそれほど背が高くない(逆もあり)なぜ「平均値への回帰」という現象が起こるのか?
→この世のすべての現象が「バラつき」を持っているからバラつきを持つ現象に対する理論的な予測はそれほどうまくいかない
→きちんとデータをとって分析を行い、関係性を分析する必要がある予測式は最も誤差が最小化するようして得られたもの
→にもかかわらず、誤差が存在していることにはかわらない
ゴルトンの回帰分析:データの中心を通る直線とそれを表す数式を導いただけのもの
→回帰係数が同じだと、バラつきが小さい回帰分析とバラつきが大きい回帰分析を区別できない回帰係数そのものにもバラつきがある
→統計量を計算すれば、毎回算出される統計量は異なる
→回帰係数も平均値も、統計量のバラつきを考えなければならない真値:真に知りたいデータ
→偶然得られたデータから算出された統計量がどの程度の誤差で真値を推定しているかを数学的に推定
→無限にデータを集めることなく適切な判断が下せる回帰分析の基礎用語
回帰係数の推定値:切片・傾き
標準誤差:推定値の誤差の大きさ
95%信頼区間:この間に推定値があるとみて間違いない範囲
p値:回帰係数が0だったとき、バラつきのせいだけで回帰係数が推定されてしまう確率
感想
カイ2乗検定と回帰分析が同じ一般化線形モデルにカテゴライズされることを知り、少し驚きました。違う尺度のデータを扱うので、まったく別物だと考えていました。
数理統計を勉強し始めたとき、95%信頼区間やp値という発想がなかなか理解できず、手こずりました。『統計学が最強の学問である』のように、理論が成立した背景や歴史から勉強していくと、その理論が発生した理由がわかるので、少し、理解しやすく感じます。
最後まで読んでくださった方ありがとうございます。よろしければサポートいただけますと幸いです。本を買い、noteを書き続け、読書文化の輪を広げるために使います。