データサイエンティストの仮説思考①:(+相関分析に必要なサンプル数とは?)
読書ノート(126日目)
先週から読書の時間を少しずつ作り始め
約4カ月ぶりに読書ノートの更新です。
この本の著者の一人であるNECの河野さんが
講師を務めるデータ分析に関するセミナーを
受けたことがあり、凄く分かりやすかったので
本書を手にとることにしました。
この本の第1章では
と紹介がされています。
さて、この読書ノートでは
今回から全5回に分けて
①データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。
では、今日は①データを読む力
についてです。
データ分析の基礎知識として
様々なキーワードが出てきましたが
ここまでは聞き馴染みがある方も
多いかと思います。
僕自身、プロとして仕事をするためにも
もう一歩踏み込んで、以下についてを
調べてみようと思います。
(以下からは本書の内容とは異なります)
●外れ値と見なす基準
●相関係数を分析するために必要なサンプル数
●外れ値と見なす基準について
⇒標準偏差から±3倍以上離れているかで判定!
これは受験などで馴染みがある偏差値でいうと、
80以上・20以下となり、
確率的には各0.13%の出現率ということで
1000人に1人ずつということですね。
確かに1000回に1回の出現率なら
外れ値と言われても納得できそうです。
(ただし外れ値は必ず除去すべき
とも言えないのが難しいところですが…)
●相関係数を分析するために必要なサンプル数
⇒相関係数0.4の場合、47サンプルが必要!
相関係数は直感的にも分かりやすく
僕自身も使用する機会は多いのですが、
算出された相関係数の値に対して
必要なサンプル数を下回っていると
偶然性を排除できない…となってしまうので
分析する際は気をつけています。
詳しくは「無相関検定」を行い
有意水準を満たしているかを
確認しないといけないのですが、
こちらのサイトでは
様々なパターンを計算をした上で
非常に分かりやすい一覧表を
掲載してくださっているので紹介します。
(便利すぎます!ありがたいっ!!)
まず、相関係数が示す意味はこちら
そして、相関係数ごとに目安となる
サンプル数の一覧表がこちらです。
分析をする際に、
かなり相関関係があるとされる「0.4」
を一つの目指す基準とするならば
必要なサンプル数は47例、
もし0.3の相関係数を偶然ではなく
意味あるものと言うためには85例が必要。
ということで、この表があることで
相関係数ごとに必要なサンプル数の
目安を持つことができました。
ということで、今日はこの辺で!^^
データ分析の書籍紹介のはずが
つい、自分の興味のままに専門知識を
調べてたら、結果として深堀りしている
文章の方が増えてしまいました…
でも、
こういう素朴な疑問を1つずつ解消することが
データ分析を自分の武器として利用する際の
解像度を上げることにも繋がっているはず!
だと信じ、今後も専門知識の深掘りは
時間が許す限り続けていきたいと思います。
最後まで読んでくださり
ありがとうございました!
それでは皆さんも良い週末を~!😉✨
この記事が気に入ったらサポートをしてみませんか?