見出し画像

n=3にしてみよう:平均と標準偏差

nが1つ増えると何が起きるのだろう

前回まで、n=2のデータで、平均と標準偏差について考えてきた。

今回は、データを1つ増やしてn=3でやってみよう。何が変わるだろうか。何が変わらないだろうか。

平均と標準偏差を計算しよう(n=3)

データ1:{ 1, 2, 3 }
データ2:{ 2, 4, 6 }
データ3:{ 41, 42, 43 }

平均の計算方法の復習(データ1を例に)

  1. 数値をすべて足す。$${1+2+3=6}$$

  2. 数値の数で割る。$${6\div3=2}$$・・・平均は2。

標準偏差の計算方法の復習(データ1を例に)

  1. 数値から平均を引いて偏差にする。$${\{1,2,3\}}$$のそれぞれから、平均の2を引いて、$${\{-1,0,1\}}$$。これを偏差といった。

  2. 偏差を2乗する。$${\{-1,0,1\}}$$をそれぞれ2乗して$${\{1,0,1\}}$$。偏差を2乗したので、偏差二乗あるいは偏差平方といった。

  3. 偏差平方をすべて足す。$${1+0+1=2}$$

  4. 数値の数で割る。$${2\div3=\frac23=0.66…}$$。これが分散であった。

  5. ルートを取る。$${\sqrt{2/3}=0.816…}$$

割り切れない問題

n=3になると、多くの場合、分散の値は割り切れないことが多い。上の問題は、平均値が整数になるように数値を選んでいるが、平均値もまた、割り切れないことが多い。このとき、ちょっとした悩みが生ずる。(読んでいる方はどうかわからないが、少なくとも私にはもやもやが生じる)

  1. どこで四捨五入したらよいのか。あるいは分数のままでよいのか。

  2. 適当な桁で丸めたら、その後の計算結果が大きく歪むのではないか。

さしあたり1の疑問については、次のように理解してよいと思う。

心理学領域では、平均や分散が(当然標準偏差も)割り切れいない時は、小数点以下が2ケタになるように四捨五入しておけば、実用上の問題は少ない。つまり、$${0.66666…\to0.67}$$というようにである。

私見

この私見について2つほど注釈をしておくと、

  1. あくまでも心理学領域の、たとえばレポートなどで数値を報告するときの考え方について述べている。物理や化学などの領域では、それぞれの専門領域の見解があるはずで、それらの領域に踏み込むつもりは全くない。

  2. ソフトウェアが計算するときに、途中経過をどう処理しているか(どの桁で丸めているか、あるいは、どの桁まで処理可能であるか)は、ソフトウェアによって異なるかもしれないので、これについても口を出すつもりはない。あくまでも、計算方法の理解のために、電卓で計算するときの話である。

問題の答え

データ1:{ 1, 2, 3 }
平均=2、分散=0.67(2/3)、標準偏差=0.82( $${\sqrt{2/3}}$$ )

データ2:{ 2, 4, 6 }
平均=4、分散=2.67(8/3)、標準偏差=1.63( $${\sqrt{8/3}}$$ )

データ3:{ 41, 42, 43 }
平均=42、分散=0.67(2/3)、標準偏差=0.82( $${\sqrt{2/3}}$$ )

データ1とデータ3は何が違って何が同じか

データ1とデータ3で、分散と標準偏差が同じ値になった。
そりゃそうだ。当たり前だ。そう思えるなら、分散についてよくわかっていると言えそうだ。
え? 数値がぜんぜん違うのに、どうして分散が同じなの? と思っているなら、分散についての理解がまだ足りていないと言えそうだ。

n=2の結果から考える~分散って何?の会で、分散の意味について図示してみた。同じ図を、今回のデータ1とデータ3にあてはめてみよう。
数直線に数値が入っていないが、データ1なら、🔷の部分に$${1,2,3}$$が入り、データ3では$${41,42,43}$$が入る。2つ目の赤い印🔶は、2つ目のデータの位置でもあり、平均値の位置でもある。

分散は数値どうしの距離で考える

要するに、データ1もデータ3も、3つの数値が「1ずつ離れた位置にある」という点が同じである。だから分散も標準偏差も等しい。ただし(3つの数値を1つのまとまりとして見てほしいのだが)、数値の置かれている位置が違う。
$${1,2,3}$$というデータ1を、(3つの数値をまとめて)ひょいと持ち上げて、$${41,42,43}$$の位置までずらしたのがデータ3である。だから、平均値が異なっている。

このように、「いくつかの数値たち」を、「ひとまとまりのもの(=データセット)」として捉え、それが「おおむねどのあたりに置かれているか(=平均)」、「おおむねどれくらいの範囲に広がっているか(=標準偏差)」という2つの指標で見る

という見方は、データ分析においてとても大事な視点であると思う。このことは、今後いろいろな記事の中で繰り返し語られるはずである。