(4):nなのか?n-1なのか?どっちなんだい!

nか、n-1か、それが問題だ

標準偏差を求めるには、基本的にはローデータが必要なんですが、大量の仮想ローデータを載せて「計算せよ」なんていう試験問題は出ません。データの入力に時間を使わせてしまっては他の問題が解けませんからね。というわけで、標準偏差を求める問題には、サンプルサイズと偏差二乗和が示されています。

偏差二乗和って何さ

「偏差二乗和」ってそもそも何? といっていると問題は解けません。分散や標準偏差の元になる値です。なんだかいかつい言葉なんですが、次のように3つに分けて理解しましょう。
 偏差二乗和={(偏差)の二乗 }の合計
まず偏差があります。それを二乗します。そしてそれを合計します。小さいデータで確かめましょう。「二乗」のことは「平方」ともいうので、「偏差平方和」ともいいます。

練習用データ {2,6,7}

このデータの平均値は$${(2+6+7)\div3=15\div3=5}$$です。

  1. 偏差:それぞれのデータから平均値を引き算します。このとき、「データから平均を引く」という順序で計算します。逆にすると符号が反対になり、結果、ほかの問題で間違えます。偏差はデータと同じ数だけ計算できます。計算すると、1つ目は $${2-5=-3}$$、2つ目は $${6-5=1}$$、3つ目は $${7-5=2}$$ になります。見てわかるように、偏差の合計は0になります($${-3+1+2=0}$$)。

  2. 偏差二乗:さっき計算した偏差をそれぞれ二乗します。1つ目は $${(-3)\times (-3)=9}$$、2つ目は$${1\times 1=1}$$、3つ目は $${2\times2=4}$$ です。

  3. 偏差二乗和:偏差は正の値になったり負の値になったりしますが、二乗すると必ず正の数になるので、合計も必ず正の数になります。合計は、$${9+1+4=14}$$ です。

これで、偏差二乗和が求められました。偏差二乗和には別名があって、「変動」とか、単に「平方和」とか言ったりします。分散分析で「平方和」という言葉が出てきませんでしたか? 基本的には同じものです。ただし、分散分析では、どのデータからどの平均値をひくのかによって、「○○平方和」と名前をつけて区別されます。この話はいずれ。

nで割るのか、n-1で割るのか

偏差二乗和は、サンプルサイズで割ると標本分散になります。その平方根が標準偏差です。
偏差二乗和 ÷ n = 標本分散、 ルート(標本分散) = 標準偏差
また、偏差二乗和は、自由度(サンプルサイズー1、とここでは考えましょう)で割ると、不偏分散になります。その平方根が標準偏差です。
偏差二乗和 ÷ (n-1)  = 不偏分散、 ルート(不偏分散) = 標準偏差

気をつけなければいけないのは、分散は「標本分散」「不偏分散」と呼び分けることで、nで割ったのか、n-1で割ったのかを区別することがあります(文脈によって明らかなときは単に「分散」と書きます)。
しかし、標準偏差にはそのような用語の区別はありません。「不偏標準偏差」という用語はありません。したがって、どちらの分散の標準偏差なのかを、注釈で書いておくのが親切です。

しかし、問題に注釈はない

さて、「社会統計学入門」の試験問題に、そのような注釈はありません。ならばどっちでもいいのかというと、そうではありません。不偏分散の平方根を標準偏差として用いるのが、この問題の場合の正解です。その理由は以下の2点。

  1. 問題に、「標本を抽出した」ことが書かれている。つまり、母集団の特徴を推測するためにデータをとっていることが明記されているので、推測統計の枠組みで考えるべきである。よって、標準偏差は不偏分散の平方根と考えるのが妥当である。

  2. 教科書に示されている標準偏差の計算式では、(n-1)で割る形が示されていて、nで割る形は示されていない。よって、教科書に示されている「(n-1)で割る分散(不偏分散)の平方根」を標準偏差として用いるのが妥当である。

見事な選択肢構成

上記のようなことを念頭に選択肢を見ていくと、この問題では、

  1. 標準偏差とは不偏分散(偏差二乗和をn-1で割った分散)の平方根であると理解しているか

  2. 標準得点は(観測値-平均値)を標準偏差で割った値であると理解しているか

の2つが問われていることがわかります。
標準偏差として2種類の数値が示されていますが、1つは不偏分散の平方根、もう1つは標本分散の平方根です。どちらが正解かは自明です。
標準得点は4種類の数値が示されていますが、値が大きく異なるのは、観測値から平均値を引いて計算しているか否かです。(観測値÷標準偏差)ではなく、正しくは((観測値-平均値)÷標準偏差)としなければなりません。あとは、どちらの標準偏差を使うかで計算結果が微妙に異なり、結果として4種類になります。整理すると、

  1. 不偏分散の平方根と、それを用いて正しい式で求めた標準得点

  2. 不偏分散の平方根と、それを用いて誤った式で求めた標準得点

  3. 標本分散の平方根と、それを用いて正しい式で求めた標準得点

  4. 標本分散の平方根と、それを用いて誤った式で求めた標準得点

のように構成されています。より以前の問題でも、同じように選択肢が構成されている問題がありました。いやあ、美しいじゃありませんか。うんうん、ぼくはちゃんと理解しているよ、先生。そんなふうに返事したくなってくるではありませんか。
ん? そんなことない?
そうかなあ。ぼくだけかなあ・・・・