見出し画像

データから相関関係を導く

2つの変数に対して、表や図を用いて相関関係を見出すことができる。

特に、データをグラフ上に打点として記録する散布図を用いると、資格的に相関関係の有無がわかる。

しかし、軸や縦横比によっては情報を読み間違える可能性もある。

そこで、客観的なデータの評価のため、2変数の関係を数値として表す指標が必要になる。

共分散はその1つの例である。

x,yの観測値の組み合わせからなるデータを(X1,Y1),...(Xn,Yn)とすると、

2変数の共分散Sxyは以下の式で求められる。

Sxy = Σ(Xi-Xの平均)(Yi-Yの平均) ÷ n

共分散とは、平均値と観測値を頂点とした四角形の面積の合計を求め、その値を観測値の個数で割ったものである。

ただし、上記の式より、片方の変数のみが平均値より低い場合は負の面積となる。
負の面積はそのまま負の面積として総和に組み込む。
両方の変数が平均値より高い、あるいは低い場合は正の面積となる。

これにより、平均値に対して右上と左下に偏って観測値が分布している(正の相関)ときは共分散の値は大きな正の値となり、
平均値に対して左上と右下に偏って観測値が分布している場合(負の相関)、共分散は大きな負の値となる。

つまり、共分散は平均からみた観測値の分布を表す上で重要である。

共分散により2つの変数の同時の関係の強さを測れるが、共分散の値は変数の単位に依存して変化してしまう。

この点を修正して相関関係を測る尺度として、
相関係数が定義される。

相関係数rは以下の式で求められる。

r=Sxy÷xの共分散÷yの共分散

相関係数は、平均偏差値の積を標準偏差の積で割って計算することができる。

また、相関係数は標準化された値同士の共分散とも考えられる。

相関係数は、-1〜1の値を取り、直線に近い関係になる程絶対値が1に近づく。

ただし、相関係数は直線状の関係を測るものである。2変数間の関係が直線状でなければその強さを測ることができない。
また、相関係数は外れ値の影響を大きく受けてしまう。
そのため、相関係数を考える際には必ず散布図を見ることが大切である。

この記事が気に入ったらサポートをしてみませんか?