見出し画像

統計学を装備する!19 〜推測統計学-不偏分散〜

サブタイトルは「不偏分散」。
一応「〜〜」で囲むサブタイトルは「概要」とか「課題」とか「推定」とかわりと章レベルのビックなやつにするのだが今回は「不偏分散」。重要ではあるのだがわりとスモールなやつ。なぜか。

それは、、、、、

マジで理解できずにつまづいていたからだよ!(゚∀゚)アヒャアヒャアヒャアヒャアヒャアヒャワケカンネエンダヨ

正直ちょっとやる気なくなりかけた。
だがいろいろなんとかわかった感じになったので、その経緯を書いておこう。ただこれはCHATGPTに聞いて、それを本で自分なりにCHATGPTの答えが間違えてないか調べて理解したものなので、実は間違っている可能性はある。でもそんなの気にしない。今は。仮説をたて、間違えてを繰り返して学んでいくんだヨ。きっと。そうだよね学問の神よ。


不偏分散とは

母集団分散の推定値としてサンプルデータから計算される値。これにより、母集団分散をより正確に推定することが可能になる。

不偏分散を求める式:

n: サンプル数
x i ​ : 各データの値
xˉ : サンプル平均

「n-1」は自由度
自由度
とはデータの中で「自由に変動できる値の数」を指す。
例えばデータが3個(A,B,C)あって、このデータセットの平均が10だとすると、A=5,B=15だとCは10に決まってしまう。
                (A+B+C) / 3 = 10
                (5+15+C) / 3 = 10  (Cは10に決まる) 
この値が決まってしまう変数の数(制約の数)をデータ数から引いた値が自由度
                      自由度 = データの総数 - 制約の数
偏差平方和
をデータ総数で割る分散より自由度で割る不偏分散のほうが母分散(母集団分散))に近づく。つまり母集団分散推定するのに有利。


ふむ、、、、そうかね。
では実際計算してみるか、、、(まあ計算させたわけだが)

母集団: [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
サンプル: [10, 30, 50, 80]

、、、、一致せえへんの?(ここで思い違い。一致せなあかんと思っている俺)

不偏分散母分散推定するための値であり、サンプルから計算されるため母分散と異なる結果になる。ただし、不偏分散期待値(※1)は母分散に一致するように設計されている。つまりたくさんのサンプルを無作為に取り出して計算した不偏分散の平均値(期待値)が、真の母分散と一致するということを意味する。
つまり、1つのサンプルから計算した不偏分散母分散と一致するわけではないが、同じ母集団から何度もサンプルを取り、各サンプルの不偏分散を計算した場合、それらの平均値は母分散に近づく。この性質が「不偏性」と呼ばれるもの。
※1 期待値とはある変数が長期的に取る平均値のことを指す。

、、、よく読んで考えたらわかってたことなのに、なんで一致しねえんだ!と悩んで再び計算したりいろいろ見当違いな質問をCHATGPTに投げたりして勝手にドツボにハマっていった。。。

要はサンプルって1回しかとらないことが多いと思う。ということははなからサンプルから計算した不偏分散値は真の母分散値とは離れているということはわかっているということだな。でもサンプルの分散値を計算するときに偏差平方和をサンプルデータ数nで割るよりもn-1(自由度)で割るほうがより真の母分散値に近づくからそうしようぜということだな。
とりあへずそういうことで。


次回からは課題を通じて学んでいくとしよう。


いいなと思ったら応援しよう!