統計学を装備する!5 〜データ(共分散と相関関数)〜
二つの変数の関係について知ることができる指標がある。
それは共分散と相関関数
変数とは項目のこと。耕作面積と収穫量みたいな。
1.共分散
共分散は、2つの変数がどのように一緒に変動しているか、すなわち片方の変数が増えるともう片方も増えるかどうかを測る指標。
プラスの共分散:2つの変数が同じ方向に動く(両方増える、または両方減る)。
マイナスの共分散:2つの変数が逆の方向に動く(片方が増えると、もう片方が減る)。
共分散は、変数の単位によって値が異なるため、そのままでは比較が難しい場合がある。
<共分散の計算手順>
1. 2つの変数(X,Y)の算術平均値を求める。
2. 各データポイントについて、変数X,Yの偏差を計算する。
3. その偏差を掛け合わせる。
4. その値をすべて合計する。
5. 合計をデータの個数で割る。
2. 相関係数
相関係数は、共分散を標準化したもので、変数の単位に依存しない形で、2つの変数がどれだけ強く関連しているかを示す指標。
共分散を標準偏差で割ることによって求めるため、単位が消えて、結果として単位に依存しない-1から+1の範囲が表現される。このため、相関係数は単位が異なる2つの変数でも、関係の強さを正確に比較することができる。
追記:どういうシチュエーションで使用するか
相関係数は単位に依存せず、2つの変数の関連性をシンプルに示す指標として使える。
共分散は単位を保ちながら変数間の関連性を実際の変動として捉えるのに適している。どちらを使うかは、分析の目的によって決まる。