見出し画像

【第10回】相関関係-後編

前回に引き続きまして、データの相関についての理解を深めていくような高校数学と高校情報の授業を考えていきたいと思います。

前回の復習

前回の記事では相関係数の定義をしました。これまでに出てきた統計量を一度、文字式を使って整理しておきましょう。

2つの変量$${ x,\ y }$$の組からなる大きさ$${ n }$$のデータ

$$
(x_1, y_1),\ (x_2, y_2),\quad \cdots \quad (x_n, y_n)
$$

変量$${ x,\ y }$$の平均$${ \overline{x},\ \overline{y} }$$:

$$
\overline{x} = \frac{x_1 + x_2 +\ \cdots \ +  x_n}{n}\ ,\quad \overline{y} = \frac{y_1 + y_2 +\ \cdots \ +  y_n}{n}
$$

変量$${ x,\ y }$$の分散$${ s_x^2,\ s_y^2 }$$:

$$
s_x^2 = \frac{(x_1-\overline{x})^2  + (x_2-\overline{x})^2 +\ \cdots \ +  (x_n-\overline{x})^2}{n}
$$

$$
s_y^2= \frac{(y_1-\overline{y})^2  + (y_2-\overline{y})^2 +\ \cdots \ +  (y_n-\overline{y})^2}{n}
$$

変量$${ x,\ y }$$の標準偏差$${ s_x,\ s_y }$$: $${ \ s_{x} = \sqrt{ s_x^2 } \ ,\quad s_y = \sqrt{ s_y^2 } }$$

変量$${ x,\ y }$$の共分散$${ s_{xy} }$$:

$$
s_{xy} = \frac{(x_1-\overline{x})(y_1-\overline{y}) + (x_2-\overline{x})(y_2-\overline{y}) +\ \cdots \ +  (x_n-\overline{x})(y_n-\overline{y})}{n}
$$

変量$${ x,\ y }$$の相関係数$${ r }$$:

$$
r = \frac{ s_{xy} }{s_x \cdot s_y}
$$

相関係数の性質を調べる

数学Iの範囲でどこまで厳密に?

「相関係数の絶対値が1以下であり、絶対値が1に近いほど相関が強い(散布図上でデータを表す点が1つの直線に沿って並ぶ傾向にある)こと」をどのように説明するかが悩ましいところです。
個人的には真っ向勝負でシュワルツの不等式を証明するのも好きなのですが、統計量をもとにデータを分析するところに時間をかけることを優先し、表計算ソフトでイメージをつかむだけに留めてみます。

表計算ソフトで回帰直線をかく

散布図において、点の配列に「できるだけ合うように引いた直線」を回帰直線と言います。こちらについては、また改めて記事を書きたいと思っていますが、今はイメージをつかむための補助に使います。

Googleスプレッドシートでは回帰直線を容易にかくことができます。
前回の記事で使った数学と情報のテストのデータを今回も使ってみたいと思います。

図1: 前回記事のデータ

ここでかいた散布図を再編集してみたいと思います。
散布図を選択後、右上の3点マーク→グラフを編集の順に選択をし、グラフエディタのカスタマイズタブから、「系列」を選びます。

図2: トレンドライン

その中にある、トレンドラインのチェックボックスにチェックを入れます。これにより、回帰直線をかくことができます。

極端な場合を考える

最も相関が強いのは、散布図上でデータを表す点がすべて1つの直線に沿って並ぶ場合のことです。
まずは、そのようなデータを用意して相関係数を見てみることにします。
例えば、10名の生徒全員が数学の得点$${ x }$$より、情報の得点$${ y }$$のほうが1点高い場合を考えます。
先程のスプレッドシートのシートをコピーして、実際にこのようなデータを入力してみると、下のようになります。

図3: 散布図上の点が傾きが正の直線上に並ぶ場合

この場合、相関係数が$${ 1 }$$になることが分かります。(セルI14)
これにより「一方の値が増加すれば他方の値がある1つの直線に沿って増加する」関係が最も強い場合(すべての点が1つの直線上にあるとき)の相関係数は$${ 1 }$$になることが分かりました。

次は、「一方の値が増加すれば他方の値がある1つの直線に沿って減少する」関係が最も強い場合を見てみたいと思います。
例えば、10名の生徒全員が数学と情報の点数の和が10であるような場合を考えてみます。

図4: 散布図上の点が傾きが負の直線上に並ぶ場合

この場合、相関係数が$${ -1 }$$になることが分かります。(セルI14)

これ以降は値を少しずつ変え、散布図上の点が1つの直線に沿った並びから離れるほど0に近くなっていくことを試行錯誤しながら、何となくつかめればよいかと思っています。

図5: 相関係数の比較

表計算ソフトを使うことで、元のデータの値を変化させたときの、散布図や統計量の変化が直ちにわかります。実際に生徒が操作をしながら、さまざまな気づきをそこで得られることを期待しています。

外れ値の影響

相関係数が2つの変量の相関を表す統計量として有効に利用できそうなことは分かりましたが、単に相関係数だけを見て判断をすることが危うい場合もあります。その1つが外れ値の影響です。次のようなデータを考えてみましょう。

図6: 外れ値の影響を考える(入力前)

これまでは、定義に従って相関係数を求めていましたが、表計算ソフトには相関係数を求めるCORREL関数が用意されておりますので、今回はこれを使ってみましょう。セルE1に =CORREL(C3:C12, B3:B12) を入力します。

図7: CORREL関数

Googleスプレッドシートの入力補助を見ますと、CORREL関数に2つのデータの系列を入力するときは、(y軸のデータ, x軸のデータ)の順にいうガイドになっています(図7)。もちろん逆にしても同じ値が出るのですが、これに従って入力することにします。
これにより、相関係数は0.833であることが分かりました。強い正の相関があると判断して良さそうです。

それでは、生徒Jの点数(セルB12・C12)を入力してみます。数学が10点、情報が1点のとき、次のようになります。

図8: 外れ値の影響を考える(入力後)

相関係数は$${ -0.088 }$$となりました。これだけ見ると相関係数はないと判断をすることになります。
この判断は果たして妥当と言えるでしょうか。この場合は、生徒Jのデータが全体の傾向と著しく異なり、それに相関係数が引きずられていることが明らかです。標準偏差も共分散も平均をもとに算出している統計量のわけですから外れ値の影響を大きく受けます。このことに注意しないと、ある特定の極端な値をとるデータに大きく影響を受けた相関係数を見て、全体の傾向が正しくとらえられていない判断をしてしまうことになります。
まずは散布図を見て、データ全体の傾向を知り、外れ値がある場合はそれを一度除外して考えるなどのデータ分析の工夫が求められるところです。

まとめ

相関係数の定義およびそれに基づいた相関関係の説明といった相関分析の導入部分をまとめてみました。
数学の授業の中で定義や性質の理解を深め、それをもとに情報の授業の中でコンピュータを活用して、より大きなデータをさまざまな手法で分析していくのが大きな流れになると思われます。また一方で、コンピュータを扱うのを情報の授業に限定することなく、すべての教科においてコンピュータを適切に活用して学びを深めていくことがこれからはより一層求められていくと考えます。今後も数学と情報の授業の連携を考えることをテーマにした記事を書きながら研究を深めて参ります。どうぞよろしくお願い致します。
最後までお読みいただき、ありがとうございました。