見出し画像

散布度の指標をどう作るか~平均値からの偏差か中央値からの偏差か。絶対値をとるのか2乗するのか

Cover Photo by Christopher Burns on Unsplash

どうして2乗してから合計するのか

前回、分散を求めるのに、どうしていちいち「偏差を2乗して」から合計していくのかについて書きました。今回は、そのあたりを深掘りしてみます。「解説」では、次の2つの点から散布度について考えさせる方法が提案されていました。すなわち、
(1)(A)平均値との偏差か、(B)中央値との偏差か
(2)その偏差を合計するとき、(a)そのまま使うか、(b)絶対値にして使うか、(c)2乗してから使うか
です。合計6通りあるのですね。早速、やってみましょう。

サンプルデータ(n=5)

n=5のデータ(2,3,6,7,9)を用いて、上記の6通りを計算してみましょう。

サンプルデータを用いた計算

まず統計量を確認します。左下にあるように、このn=5のデータの平均値は5.4、中央値は6です。
表の中央の3列は、平均値からの偏差(データから平均値を引き算)、その絶対値、その2乗値を並べてあります。
表の右側の3列は、中央値からの偏差(データから中央値を引き算)、その絶対値、その2乗値を並べてあります。
この表で見るべきポイントは、「平均値からの偏差」の合計が0であるという点です。平均値と言うのは、平らに均した値です。値の大きいところ(山)をけずって、値の小さいところ(谷)に埋めて、平らにするのが平均するという計算のイメージでした。ですから、値の大きいところは偏差が正になり、小さいところは偏差が負になり、合計すると0になります。平均値とは、「平均値からの偏差の合計が0になるような値」なのです。

それ以外に見るべきポイントは、「平均値からの偏差」を用いても、「中央値からの偏差」を用いても、偏差絶対値や、偏差二乗値の合計が、わりと近い値になっていることです。当然と言えば当然でしょう。データから5.4を引くか、6を引くかの違いで、その他の計算はまったく同じです。平均値(5.4)と中央値(6)の違いが、偏差絶対値や、偏差二乗値の合計の違いになって現れているわけです。
そうであるなら、もっといろいろな値を使って、偏差絶対値や、偏差二乗値の合計を調べてみたら、何かわかりそうですね。

任意の定数を「仮の代表値」と見立てる

そこで、任意の定数を、「仮の代表値」と見立てて実験してみましょう。実際の平均値は5.4ですが、もし平均値が5.2だったらどうなるかなあ、とか、実際の中央値は6ですが、もし中央値が6.5だったらどうなるかなあ、と考えて、偏差絶対値や、偏差二乗値の合計を計算してみるのです。5.2や6.5は、実際の統計量ではない仮の値ですから、以下、「仮の代表値」と呼ぶことにします。
実際に実験してみたのが次の表です。表の一番左が仮の代表値で、ここでは4.5から6.5まで、0.1きざみで変化させています。

仮の代表値を使って偏差・偏差絶対値・偏差二乗値を計算する

偏差の合計は直線的に変化する

中央の3列のうち、水色で染めた列は、偏差の合計を示しています。「変化量」の「偏差」の列は、仮の代表値が0.1大きくなるごとに、偏差の合計がどれだけ変化するかを計算しています。仮の代表値が0.1大きくなるごとに、0.5ずつ小さくなっていることがわかります。そして、仮の代表値が5.4のときに、0になっています。5.4というのは、本来の平均値ですね。
偏差の合計は、一次関数的に単調に変化します。仮の代表値の取り方によって、いくらでも大きくなるし、いくらでも小さくなるわけですね。そして、仮の代表値が本来の平均値に一致した時に、必ず0になります。つまり、「このデータでは偏差の合計が大きい(小さい)」のように、評価することができないのです。これが、偏差の合計が散布度の指標として使えない理由です。

偏差絶対値の合計は(複雑な)折れ線になる

次に、その隣、黄色く染めた列を見てみましょう。これは、偏差絶対値の合計を示しています。「変化量」の「絶対値」の列は、さきほどと同様に、仮の代表値が0.1大きくなるごとに、偏差絶対値の合計がどれだけ変化するかを計算しています。仮の代表値が0.1大きくなるごとに、途中までは0.1ずつ減少し、そこからは0.1ずつ増加しています。減少から増加に変化するタイミングは、仮の代表値が6になる前後です。6というのは、本来の中央値ですね。
このデータでは、減少や増加の幅が0.1で一定でしたが、データによっては、これが変わります。実験するとわかりますが、どこでどのように変化するかは、データに依存します。
また、絶対値と言うのは、数学的には扱いにくいものです。偏差絶対値を計算するときに、仮の代表値と大きさの比較をして、符号を入れ替える必要があるからです。
以上のことが、偏差絶対値を散布度の指標として積極的に使わない理由です。
ただし、偏差絶対値は、データが代表値からどれくらい離れているかの指標として、解釈しやすいものです(南風原, 2002, p.29)。回帰分析や分散分析には登場しませんが、使いようによっては有用な指標となりうるのです。

偏差二乗の合計は2次関数的に変化する

最後に偏差二乗の合計です。オレンジ色の列です。「変化量」の「二乗値」を見ると、変化量もまた変化していることが分かります。「変化量」がどのように変化しているかをさらに計算したのが一番右の列です。きれいに0.1ずつ増加しています。これは、二次関数の特徴ですね。
そして、もっとも小さい値(つまり放物線の山の頂上)は、33.2で、これは仮の代表値が5.4のときです。仮の代表値と本来の平均値が一致するとき、偏差二乗の合計は最小になるのです。平均値とは、「偏差二乗の合計が最小になる値」ともいえるのです。(このことは数式を使って証明できますが、今は省略します。)

グラフで確認

左から、偏差の合計、偏差絶対値の合計、偏差二乗の合計をグラフにしたものです。変化の様子が強調されるように、3つに分けて表示しています。縦軸の値が異なっている点に注意してください。

偏差・偏差絶対値・偏差二乗の合計の変化(横軸は仮の代表値)

偏差をわざわざ2乗する理由

というわけで、偏差をわざわざ2乗する理由が見えてきました。

  1. 偏差の2乗の合計は、仮の代表値が平均値と一致した時最小になる。つまり、平均値と相性が良い。

  2. 偏差の2乗の合計は、2次関数的に変化するので、数学的に扱いやすい。(「微分」が使える!)

  3. 仮の代表値が、本来の平均値から離れるほど、偏差の2乗の合計は大きくなる。このことは、「このデータの平均値は、予想(あるいは理論的な値)とは異なっているのではないか?」という仮説の検証に使える。

3の内容は、1標本のt検定の考え方にそのままつながるものです。これについては、いずれ書きます。

いやあ、統計って楽しいですよね。