見出し画像

標準誤差とは

いまさらですが、「標準誤差」について。
↓↓の書籍を進めていくなかで、学びにつながった項目を一つずつ取り上げていきます。
「標準誤差」の説明がとても分かりやすかったので。まとめてみます。

標本データがある。本当は母集団(全購買者)のアンケート調査結果を得たい。
しかしそれは不可能なので、標本データ(一部のデータ)から母集団の結果を推定する。

標本データの平均値が4.38だったとする(100人分の値を合計し、100人で割った値)。
これは母集団のデータではない。
なのでこの結果に”誤差の範囲”を加味する必要がある。
その”誤差の範囲”が標準誤差
それを加味して「母集団の平均値はこのくらいになる」と推定できる。

$$
{標準誤差} = \frac{\text{データのばらつき}}{\sqrt{\text{データの個数}}}
$$

このケースで標準誤差を計算すると0.06。
よって、母集団の平均値は、4.38 ± 0.06 の範囲と推定される。
標準誤差を「平均値の推定精度」とされていて、この表現も分かりやすい。

「基礎から学ぶ統計学」では

p.121に解説されている。
統計検定2級対策をしていると「標準誤差」という用語自体を目にする機会が少ないため、いつまでも用語のイメージをもつことができなかった。

「標本分布の標準偏差」を標準誤差(standard eroor)と呼びます。記号には、頭文字を使って「SE」 や「se」を使います。

中原治:基礎から学ぶ統計学.p121,羊土社,2022

なお、標本平均 x̄ の標準誤差に限っては、記号に「SEM」や「sem」も使います。これは「standard error of the (sample) mean(標本平均の標準誤差)」の頭文字に由来します。

中原治:基礎から学ぶ統計学.p121,羊土社,2022

標準誤差とは、標本分布の標準偏差であり、
標本平均 x̄ の標準誤差は、標本平均の標本分布の標準偏差、ということになる。

$$
\text{標準偏差} :\frac{\sigma}{\sqrt{n}}
$$

単純に、「標準誤差=標準偏差(標本において)」と解釈してしまってよいかを chatGPT に壁打ちして確認。 

chatGPTに壁打ち

「標準誤差=標準偏差(標本において)」というのは適切な表現ではありません。理由は以下の通りです。

標本データの標準偏差:これは標本内の値が標本平均の周囲にどれだけ散らばっているかを示す尺度です。これ自体は、その標本における変動の大きさを表しています。

標準誤差(Standard Error, SE):これは、異なる標本の標本平均を取ったときの標本平均の分布の標準偏差です。つまり、ある母集団から様々な標本を取り出したときに、それらの標本平均がどの程度ばらつくかを示しています。

標準誤差は次の式で計算されます。

$$
SE_{\bar{x}} = \frac{s}{\sqrt{n}}
$$

ここで s は標本データの標準偏差、n は標本のサイズです。標準誤差は、標本の標準偏差 s を標本サイズ n の平方根で割ったものです。標準誤差は母集団の標準偏差 σ の良い推定値であると考えられている場合が多いですが、それ自体は標本平均のばらつきを測るものであり、単なる標本のばらつき(標準偏差)とは異なります。標準誤差は特に、推定値(例えば標本平均)の精度を表すのに使われます。サンプルサイズが大きくなると標準誤差は小さくなり、これは推定値が母集団の真の平均に近づくことを意味します。標準偏差と標準誤差は密接に関連していますが、それらは明確に異なる統計的概念です。

chatGPT 4

chatGPT からは「適切な表現ではない」「それらは明確に異なる統計的概念」と指摘されてしまったが、それは重々承知している。
あくまでも、私が「標準誤差」を理解する際の捉え方。ただこの辺りの解釈は混乱につながりかねないので、人に説明できるようにはしていきたい。

この記事が気に入ったらサポートをしてみませんか?