G検定 / 統計検定 相関と回帰 #2 相関係数
株式会社リュディアです。G検定 / 統計検定 相関と回帰についてのまとめの続きです。今回は相関係数についてまとめてみます。
前回までの相関と回帰についてのまとめへのリンクは以下を参考にしてください。
2019年度の17歳男子の身長と体重の関係を例にします。データは以下から入手しました。
では散布図にしたものを以下に示します。
散布図を最初見た限りでは正の相関があるように感じますが思っていたより相関が小さいように感じました。皆様はどう思われましたか?
まず共分散 (Co-variance) という指標を紹介します。共分散とは2種類のデータの関係を表す指標の1つで2つの変数の偏差の積の平均を表します。
また復習として変数 x の分散 = 標準偏差の2乗の式も以下に記載しておきます。
これらを使って 2つの変数の間に相関があるかどうかを定量的に示す指標として相関係数を導入します。式は以下のようになります。
相関係数は -1 ~ +1 の値をとり +1は正の相関、-1 は負の相関が最も強くなります。正の相関とは一方が増えると他方も増える関係、負の相関は一方が増えると他方は減る関係です。相関係数が 0 のときは相関関係が弱いことを示します。
今回の例で計算してみましょう。x = 身長の標準偏差は 0.610743, y = 体重の標準偏差は 0.990753、x, y の共分散は 0.254926、相関係数は 0.421299 となりました。最初の印象通り正の相関はありますが強くはないですね。
散布図を見て相関の有無を雰囲気で議論することも可能です。しかし相関係数を利用して具体的な数値で判断する方がより論理的な判断が可能になります。おおよそ相関係数が 0.7 以上であれば強い相関があると考えてよいのではないでしょうか。
散布図を使う機会がある方はもう一歩踏み込んで相関係数も使うとより説得力のある議論ができるようになると思います。是非使ってみてください。
では、ごきげんよう。