読書ノート(143日目)
年末年始の読書テーマである
「統計学が最強~」の2冊目として、
本日もこちらの本からです。
今回は統計学の王道である
「回帰分析」についてでした。
また、この章では筆者が
データ分析の手法を整理して一覧表
で示してくださっています。
説明変数とアウトカムのデータ型に応じて
9つの手法を使い分けることになるのですが、
本書の中で紹介されていた
「データ量が多い時でもt検定で良い」
ということを反映すると、
以下のように再整理ができそうです。
さて、本書の中でも紹介されていた
重回帰分析での交互作用項を使った
分析は非常に興味深く、
もしこれを見つけることができれば、
分析依頼者側のサプライズにもなり
分析レポートの質を一気に上げられそう!
なのですが、
そもそも肝心なのは、どうやって見つけるか…
これは個人的な考えですが、
分析依頼者の仮説から当たりをつけるか、
性別・年代などの分類ごとに
総当たりで散布図を並べてみて、
明らかに傾きが異なっている変数を
見つけ出す、というのが現実的でしょうか。
また、重回帰分析は万能で強力は反面、
注意事項や取説もあり…
・説明変数を増やすほど、学習データへの
当てはまりの良さが上がる
オーバーフィッテイングが発生してしまう
・各説明変数は相互に影響し合わない
「独立」している必要がある
これら2つが主な注意事項でしょうか。
…と、奥が深い重回帰分析ですが
筆者が「統計学の王道」と言うほどに、
使いこなせれば大きな武器になります!
ところで、私が2023年に分析して
お客様に納品した分析レポートも
既にすべて検収済ではあるものの、
相手側へのサプライズが少なかったのでは?
と思い返す分析が少なくとも2つあり…
どうすればもっと良い分析ができただろう?
改めてデータを見つめ直してみたら何か
新しい発見があるのではないか?
という思いを、本書を読みながら
ふつふつと感じていました。
幸いなことに、24年2月に同じお客様に
関連した分析レポートを納品させていただく
機会があるので、1月中は過去の分析を見直し
ひそかに再挑戦するチャンスだとも考えています。
自分の信用残高を少しずつでも高め続けられるよう
今年は一層、真摯に仕事に取組もう!という
想いを固め、今日はこの辺で締めたいと思います。
途中からまとまりの無い話に
なってしまいましたが…
最後まで読んでくださり
どうもありがとうございました!!
それではまたー!😉✨