共分散って何のための指標なの?
共分散
共分散は,モデルとデータの適合度を検定するときに使いますが,それ以外ではあまりに使いません。しかし,共分散は相関係数を学ぶときに不可欠な概念です。母集団の共分散の値を算出する場合は,以下の式で表現されます。
式
$$
s_{xy} = \frac{1}{n} \displaystyle \sum_{k = 1}^n
{(x_k - \overline{x})(y_k- \overline{y})}
$$
上の式は,母集団の共分散を算出するときに使います。母集団の共分散の推定値を算出する際には,次の式を使います。
$$
\sigma_{xy} = \frac{1}{n-1} \displaystyle \sum_{k = 1}^n
{(x_k - \overline{x})(y_k- \overline{y})}
$$
ふたつの式のちがいは,$${ n }$$ でわるのか,$${ n-1}$$ でわるのかのちがいです。分散の値を求める際に,母分散は$${ n }$$ でわり,不偏分散はで$${ n-1}$$でわるのと同じですね。
式の意味
共分散の値は,ふたつの変数の間の関係の強さを表しています。
例えば,下の Figure 1 で表されている二つの変数の間にはあまり関連がないように見えます。共分散の値はおよそ .30 です。
一方,次の Figure 2 の二つの変数の間には関係がありそうです。一方が大きくなると他方も大きくなっています。このデータの共分散の値はおよそ .92 です。Figure 1 と Figure 2 のプロットのされ方,それぞれの共分散値をみるとわかりますが,共分散の値は,ふたつの変数の間の関係の強さを示しています。
Rで求める
次の cvs ファイルをダウンロードし,R のカレントディレクトリにおいてください。
ファイルに入っているのは,先ほどの Figure 1 の作図に使われたデータです。サンプル数2,変数 $${x}$$ と $${y}$$,サンプルサイズ500のデータです。
共分散を求めるには関数 cov を使います。
data <- read.csv("cor090.csv", header=TRUE)
cov(data$x, data$y)
計算すると .92 という値が表示されます。R の cov は,母集団の推定値を求める式を使って算出されています。さきほど述べた,$${n-1}$$ でわる方ですね。母集団の共分散を求める場合にはどうすればいいでしょう。cov で得られた値に $${\frac{n-1}{n}}$$ を掛けたらいいですね。