【書評】分析者のためのデータ解釈学入門 第2章 誤差とばらつきについて


こちらの書籍の第2章を読んだので、メモ。

誤差の分解

基本的に観測された値というのは、真の値とずれている。この時、真の値と観測された値の差の事を誤差という。
誤差は、計測のたびに変化する誤差と変化しない誤差があり、前者をランダム誤差(random error)といい、後者をバイアス(bias)または、系統誤差(systematic error)という。

本書では、ランダム誤差の大小とバイアスの大小で4つに分類し、どのような状況を生むのかを解説している。

1. 両方小さい
・信頼できる値が計測されている状態。
2. バイアスは小さくランダム誤差だけ大きい
・毎回の計測が大きくばらついている状態。
・1回の計測での値は信頼できない。
・何回も計測を繰り返す事によって信頼性のある値を得ることができる。
3. バイアスだけ大きい
・ランダム誤差による結果のばらつきは小さいものの、真の値からずれてしまっている状態。
・バイアスの原因を特定し、何らかの方法で影響を取り除く必要がある。
4. ランダム誤差もバイアスも大きい
・値のずれがどこから生じているのかを捉えることが困難な状態(お手上げ)。

誤差と確率分布

ランダム誤差は、ランダムであるため値そのものを予測することは出来ない。しかし、そのばらつき方を特徴づけることは可能である。
特徴づけるために必要となるのが、確率分布である。
誤差は、「ある確率分布からランダムに得られた値」と仮定し、その確率分布について調べることである程度の情報を知ることができる。

誤差の分布として最も使われるのは、正規分布(normal distribution)、別名ガウス分布(Gaussian distribution)。
正規分布は、平均(μ)と標準偏差(σ)の2つのパラメータで形状が決まる分布であり、μを中心として、±σの範囲に約68.3%、±2σの範囲に約95.4%、±3σの範囲に約99.7%が含まれるという特徴を持っている。
この特徴を利用することで、データが平均からプラスマイナスどれくらいブレうるのかを知ることが出来る。

ランダム誤差のばらつきに対処する

ランダム誤差に対する基本的な対処の方法は、複数の観測値を平均することでばらつきを抑える事である。バイアスは無視できるものと考えた場合、観測値は、「真の値+ランダム誤差」、ランダム誤差は、平均0の分布を仮定することが出来る。
観測値の平均は、観測値の平均+ ランダム誤差の平均に分解出来る。
ランダム誤差の標準偏差がσの時、「ランダム誤差の平均」の分布は、平均0、標準偏差σ/√n の正規分布になる(中心極限定理)。したがって、データの件数nが大きくなるほどばらつきが小さくなり、真の値に近づいていく。


いいなと思ったら応援しよう!