見出し画像

分散の変化をグラフにしてみる:n=2の場合

前回前々回で、n=2のデータを用いて、平均値と分散について考えてきた。そして、分散や標準偏差は、データの数値たちが「お互い、どのくらい離れているのか」を表している、とまとめた。このことを、グラフで確認してみたい。

シミュレーション

「数値どうしの差が大きいほど、分散も標準偏差も大きな値になっている」ことを確かめるために、さまざまな「差」をもったデータを用いて分散や標準偏差を計算し、数値どうしの「差」と、分散や標準偏差との関係をグラフに表してみよう。
このような、仮の数値を用いたシミュレーションは、統計の概念を理解するのに役立つことがある。ただし、決して万能な方法ではない。
今回使ったデータは次のようなものである。

シミュレーション用データ

2つの数値をx1、x2として、中央値median、平均mean、分散var、標準偏差sd、数値同士の「差」(その絶対値)difを計算した。数値同士の「差」に興味があるので、x1は1に固定し、x2だけを変化させている。上のデータでは、x2が0.5きざみで変化しているが、以下に示すグラフでは、x2を0.1ずつ変化させた表を使っている。

中央値と平均値の変化

青の破線とオレンジの破線がそれぞれx1、x2である。グレーの実践が中央値、黄色い実線が平均値である。n=2なので、両者は一致していて(当然だ)グラフは1本しか見えない。

中央値と平均値

数値同士の差と標準偏差

では、数値同士の差(差の絶対値)と、標準偏差の関係を見てみよう。差が大きい方が、標準偏差も大きいはずだ。青い破線が差の絶対値で、2つの数値が同じ値になる点(x1=x2=1)を境にしてV字型になる。標準偏差も、同じ点を境にV字型を描く。ただし、差の絶対値そのものよりも、傾きは緩やかである。なぜだろう。
標準偏差を計算する過程を思い出そう。いったん偏差を2乗して平均し、平方根を求めている。「2乗して平均してから平方根を取る」という、計算方法が鍵である。

差の絶対値と標準偏差

分散と標準偏差

では、標準偏差の計算のもとになっている分散の変化を見てみよう。青い実線が分散である。分散は放物線を描く。「放物線っぽい」のではなく、きちんとした放物線である。最初に示した表を見ると、分散varの列には、平方数が並んでいるのを確認できるはずだ。

分散と標準偏差

分散とは何者か

このようにグラフを描くと、分散という指標の特徴がよく見えてくる。

  1. まず、数値同士の差が大きくなればなるほど、分散はあっという間に大きくなる。数値同士の差が大きいことを、ことさらに強調するようにだ。強調してくれるのはいいことだ。なぜなら、分散が大きいことは、「遠く離れているデータがあるぞ」とか、「なんだか広い範囲にちらばっているぞ」ということを教えてくれるからだ。このことは、これから先、n=3やもっとサイズの大きいデータでシミュレーションすることで実感できる。

  2. とはいえ、分散をそのまま「数値の散らばりの指標」として用いるのは少々やっかいだ。なぜかというと、上で見たように、あっという間に大きな数になってしまうことが理由その1。理由その2は、単位が変わってしまうこと。通常、数値データには何らかの単位がつくのが普通で、たとえばこのデータが、何かの作業に要する時間(分)だったとしよう。x1もx2も、平均値も、偏差も、単位は(分)だが、分散は偏差を2乗しているので、(分の2乗?)という妙な単位になってしまう。だから、「分散は単位がない」などと書いてある教科書もある。「単位がない」のではない。「分の2乗」と言われてもなんのことやらわからないから、そのままでは使えないだけの話である。

  3. というわけで、標準偏差の出番である。標準偏差は、分散の平方根(もちろん正の値だけ考える)ので、値は大きくなりすぎない。平方根をとるので、単位が元に戻っている。よって、意味を考えやすい。

ここでは、分散と標準偏差が「正義!」みたいな書き方をしているが、分析の対象になるデータによっては、中央値しか使えないとか、逆に、分散にする前の「偏差平方和」のほうが好都合とか、いろいろと事情はある。しかし、中央値しか使えないデータの話はずいぶん難しくなるので、「分散分析ってのはなあ、…」と、後輩相手に話せるようになってから勉強しても遅くはない。つまり、まだ知らなくて全然大丈夫。
「偏差平方和」のほうが都合がいいのは、その「分散分析」なのだが、これも、分散について、「そもそもなんで2乗するんだよ!?」というあたりをもう少し理解してからにしたほうがいい。だから、まだ知らなくて大丈夫。

n=3だったらどうなるかなあ???

n=2というのは、データ分析のもっとも小さいサイズだろう。n=1だったら平均も分散も考える必要が無いから。
では、1つだけ増やしてn=3だったらどうだろう。分散や標準偏差は、n=2のときと同じようなグラフになるのだろうか。そもそも、数値同士の「差」は、どれとどれの「差」を考えるんだろう。3つならまだいいけど、4つ、5つと増えて行ったら、やばいことになりそうだ。
などという話は、次回。