見出し画像

2-5 相関係数からの共分散計算 〜 相関係数を創る素データの可視化

今回の統計トピック


標準偏差と相関係数の値をもとに共分散を計算します。
次に、問題集の標準偏差・相関係数と同じ値を持つ実データ(100個)を利用して、標準偏差・相関係数・共分散と具体的なデータの関係性を探ります。
データをさまざまな角度から眺めることを通じて、「相関係数の成り立ち」の理解をいっそう深めましょう!

公式問題集の準備

「公式問題集」の問題を利用します。お手元に公式問題集をご用意ください。
公式問題集が無い場合もご安心ください!
「知る」「実践する」の章で、のんびり統計をお楽しみください!

問題を解く


📘公式問題集のカテゴリ

2変数記述統計の分野
問5 相関係数からの共分散計算(国語と数学の得点)

試験実施年月
統計検定2級 2019年6月 問2(回答番号5)

問題

公式問題集をご参照ください。

解き方

題意
標準偏差・共分散・相関係数の関係の理解を確認する問題です。

共分散の計算
問題文の以下の点に注目します。

国語の得点の標準偏差 12.5
数学の得点の標準偏差 16.4
国語の得点と数学の得点の相関係数 0.72

公式問題集より抜粋

2つの変数(国語の得点、数学の得点)の「標準偏差」と「相関係数」、そして「共分散」の関係は、「相関係数の計算式」に現れます。

相関係数の計算式
国語の得点と数学の得点に関する標準偏差、相関係数、共分散は、次のように相関係数の計算式で表すことができます。

$${相関係数 \rho_{XY}= \cfrac{国語と数学の共分散 \sigma_{XY}}{国語の標準偏差 \sigma_X \times 数学の標準偏差 \sigma_Y}}$$

計算式の記号の意味をまとめます。

  • $${X}$$:国語の得点

  • $${Y}$$:数学の得点

  • $${\sigma_X}$$:国語の得点の標準偏差

  • $${\sigma_Y}$$:数学の得点の標準偏差

  • $${\sigma_{XY}}$$:国語の得点と数学の得点の共分散

  • $${\rho_{XY}}$$:国語の得点と数学の得点の相関係数

共分散の計算
相関係数の計算式に、問題文の具体的な数字を当てはめます。

$${相関係数 \rho_{XY}\ 0.72= \cfrac{国語と数学の共分散 \sigma_{XY}}{国語の標準偏差 \sigma_X\ 12.5 \times 数学の標準偏差 \sigma_Y\ 16.4}}$$

両辺に「$${国語の標準偏差 \sigma_X\ 12.5 \times 数学の標準偏差 \sigma_Y\ 16.4}$$」を掛けます。

$${相関係数 \rho_{XY}\ 0.72 \times 国語の標準偏差 \sigma_X\ 12.5 \times 数学の標準偏差 \sigma_Y\ 16.4 \\= 国語と数学の共分散 \sigma_{XY}}$$

両辺を逆転します。

$${国語と数学の共分散 \sigma_{XY} \\=相関係数 \rho_{XY}\ 0.72 \times 国語の標準偏差 \sigma_X\ 12.5 \times 数学の標準偏差 \sigma_Y\ 16.4}$$

右辺の値を計算します。

$${国語と数学の共分散 \sigma_{XY}=0.72 \times 12.5 \times 16.4 = 147.6}$$

国語の得点と数学の得点の共分散は 147.6 です。

解答

②147.6 です。

難易度 やさしい

・知識:相関係数、標準偏差、共分散
・計算力:数式組み立て(低)、電卓(低)
・時間目安:1分

知る


おしながき

公式問題集の問題に接近してみましょう!
ここでは「ランダムに生成した100個の国語と数学の得点風の数値データ」を用います。
公式問題集の標準偏差・共分散・相関係数の各値と合致するようにデータを作りました!

国語の得点の標準偏差 12.5
数学の得点の標準偏差 16.4
国語の得点と数学の得点の相関係数 0.72
国語の得点と数学の得点の共分散 147.6

公式問題集より抜粋
データイメージ(抜粋)

問題文の標準偏差・共分散・相関係数の値をグラフでビジュアル化して、無味乾燥的な計算の内側に存在する「データたちのイメージ・息遣い」をつかみましょう

その前に、相関係数の計算式の形態をいくつか見ておきましょう。

相関係数の計算式 アラカルト

📕公式テキスト:1.6.2 相関係数(29ページ~)

相関係数の計算式について、いくつかのバージョンを書きます。
本質的には同じ内容(のはず)です。
統計検定でよく出題されるお題ですので、複数のバリエーションを見慣れておくのがいいと思います。

■相関係数-標準偏差バージョンその1
2つのデータを$${X,Y}$$、相関係数を$${\rho_{XY}}$$、共分散を$${\sigma_{XY}}$$、標準偏差を$${\sigma_X, \sigma_Y}$$で表す場合、

$${\rho_{XY}= \cfrac{\sigma_{XY}}{ \sigma_X\ \sigma_Y}}$$

■相関係数-標準偏差バージョンその2
2つのデータを$${X,Y}$$、相関係数を$${r_{XY}}$$、共分散を$${s_{XY}}$$、標準偏差を$${s_X, s_Y}$$で表す場合、

$${r_{XY}= \cfrac{s_{XY}}{ s_X\ s_Y}}$$

■相関係数-分散バージョンその1
2つのデータを$${X,Y}$$、相関係数を$${\rho_{XY}}$$、共分散を$${\sigma_{XY}}$$、分散を$${\sigma^2_X, \sigma^2_Y}$$で表す場合、

$${\rho_{XY}= \cfrac{\sigma_{XY}}{ \sqrt{\sigma^2_X\ \sigma^2_Y}}}$$

■相関係数-分散バージョンその2
2つのデータを$${X,Y}$$、相関係数を$${r_{XY}}$$、共分散を$${s_{XY}}$$、分散を$${s^2_X, s^2_Y}$$で表す場合、

$${r_{XY}= \cfrac{s_{XY}}{ \sqrt{s^2_X\ s^2_Y}}}$$

■相関係数-分散&日本語バージョン
2つのデータを$${X,Y}$$で表す場合、

$${XとYの相関係数= \cfrac{XとYの共分散}{ \sqrt{Xの分散 \times\ Yの分散}}}$$

公式問題集のデータの可視化
次の統計量を持つデータを「見て」みましょう。

国語の得点の標準偏差 12.5
数学の得点の標準偏差 16.4
国語の得点と数学の得点の相関係数 0.72
国語の得点と数学の得点の共分散 147.6

公式問題集より抜粋

■データ総覧
「ランダムに生成した100個の国語と数学の得点風の数値データ」の実際の値です。

100人の得点表(一例)

【注意事項】
このデータのほかにも同一の統計量を充足するデータ例が存在することに注意しましょう。

■基本統計量
上記の数値データの統計量を計算しました。
ピンクの部分をご覧ください。
公式問題集の標準偏差、共分散、相関係数と一致しています。

基本統計量イメージ

統計量を眺めてみましょう。
平均点は高めです。
数学のほうが標準偏差の値が大きくて、バラツキが高いようです。
最小値も数学の方が小さいです。
数学のテストは難しかったのでしょうか?

■散布図
散布図を見てみましょう。
横軸が国語の得点、縦軸が数学の得点です。
右肩上がりの傾向が見られます。
正の相関(相関係数 0.72)が表れています。
国語の得点が高くなると数学の得点も高くなる傾向です。

散布図イメージ

相関係数が大きいので、共分散の値も大きい可能性が高いです。
グラフ中央のグリーンの線は平均値を示します。
データ各点が横軸・縦軸の平均線から均等に乖離している場合、共分散の値は大きくなりやすいです。

■箱ひげ図
国語と数学それぞれのデータの範囲・ばらつき等を比較します。

箱ひげ図イメージ

国語の方が四分位範囲(箱の高さ)が小さくて、ギュッと集まっている様子が分かります。
四分位範囲はデータ数の中央50%が集まる範囲です。
数学と比べて、国語のほうが分散や標準偏差が小さい様子が、箱ひげ図の箱の高さ、ひげの長さでも確認できます。
平均と中央値もほぼ一致しています。
100点は外れ値になっています。

数学はデータの範囲と四分位範囲の両方が大きいです。
平均よりも中央値の値が大きいので、分布の峰が右に寄っている(左の裾が長い)形状と思われます。
得点の低い層に一定数が集まっていそうです。

■ヒストグラム(ビン数=10)
国語と数学の得点の分布をヒストグラムで確認しましょう。
国語は真ん中あたりに高い峰があり、両脇の裾は低くて長い感じです。
数学は峰が右に寄っていて、左の裾が長い感じです。

ヒストグラムイメージ

数学の得点はバラツキが大きく、不得意な人の長い裾が見られます。
数学の理解度を高められるような施策を打つ必要があるかもしれません。

まとめ
数式という仮面を付けたかのように無表情(無味乾燥的)な統計数値。
しかし素データまで掘り下げると、個性豊かな表情が見えてきました。
計算式の羅列にめまいがするとき、うちに秘められたデータたちの様子を想像してみてはいかがでしょう。

実践する


データを操作して特定の相関係数の値に近づけてみよう

「知る」で利用した「ランダムに生成した100個の国語と数学の得点風の数値データ」を用いて、共分散や相関係数のシミュレーションをしましょう。

具体的には、「国語の得点・数学の得点をさまざまな値に変えて、相関係数の目標値に一致するように」試行錯誤するのです!

EXCELファイルをダウンロードして、シミュレーションを実施しましょう。

数字を変えて目標の相関係数に近づける。

相関係数の目標値(例)
たとえば、次の相関係数を目標値にして、変更してはいかがでしょう。
 ① 0.9
 ② 0.6
 ③ 0.3
 ④ 0.0
 ⑤-0.3
 ⑥-0.6
 ⑦-0.9

余力がありましたら、国語の標準偏差と数学の標準偏差の値を(なるべく)変化させないで、相関係数の目標値を作ってみてください。
かなりの難しさを伴いますが、共分散の値の成り立ちに近づけると思います。

EXCELファイルのダウンロード
こちらのリンクからEXCELファイルをダウンロードできます。


電卓・手作業で作成してみよう!

今回はお休みです。


EXCELで作成してみよう!

上述の「データを操作して特定の相関係数の値に近づけてみよう」を実践します。


Pythonで作成してみよう!

今回はお休みです。

Pythonサンプルファイルのダウンロード
今回はファイル提供はありません。



おわりに

初めてPythonをお休みしました。一足早いGW!?
公式問題集のお題によって、PythonやEXCELの活用に考えが及ばない時があります。
お勧めのPythonコードがありましたら、教えてください。

最後までお読みいただきまして、ありがとうございました。


のんびり統計シリーズの記事

次の記事

前の記事

目次

いいなと思ったら応援しよう!

この記事が参加している募集