Excelを使った統計解析(3) - 母集団と標本調査について
全体から一部を抽出する
統計の目的は複数の数値データから有益な情報を引き出すことですが、実際に目的とする母集団全てのデータが手に入れるのは難しい場合があります。
これを全数調査といいますが、実際には調査対象の一部から全体の傾向を分析する、標本調査という手法が用いられることが多いです。
標本調査の利点は、選挙報道の様に少ないアンケート結果から正確かつ迅速に調査と分析結果を導き出せるところです。
標本調査
標本調査の目的は、全数調査とほぼ同等の精度で情報を引き出すことです。その際に重要なのが、データの抽出に「ひいき」が無いように選び出すことです。これを無作為抽出を言います。Excelを使って無作為抽出を行うには、VLOOKUP関数とRANDBETWEEN関数を使用します。
今回は1000個の母集団から30の標本の抽出を行います。
母集団・標本集団の分析
母集団と標本とでは平均や分散の性質に違いが出ます。今回は、平均・分散に注目して2つの集団の違いに注目してみましょう。
まず、母集団の平均(母平均)と標本集団の平均(標本平均)とそれぞれの中央値はお互いに近い値が出る傾向があります。
しかし、標本集団の平均は抽出するたびに値が変わるので、これを使って集団の性質を正確に知ることはできません。
次に、「標本平均」の平均を求めてみましょう。具体的には、標本集団の平均を求める作業を15回繰り返して、それを15で割ります。
「標本集団の平均」の平均と標本平均そのものを比べてみると、「標本集団の平均」の平均を求めた方がより正確な母集団の平均に近づくという事が分かります。
母集団と標本の分散に注目してみましょう。標本平均の分散の値は、母分散を無作為抽出したデータ数で割った値に近い値を取ります。
全ての標本を使って標本平均の分散を求めるとこの値は母分散を無作為抽出したデータ数で割った値に完全に一致しますが、
ここではその完全な証明は割愛させて頂きます。
( 母分散 = 標本平均の分散/標本の大きさ )
母平均・標本平均の性質 - 一様分布と正規分布
次に、異なるデータを使って母集団・標本集団の分布についての性質を調べてみます。RAND関数を使って400個のデータを作成し、標本数が8個の標本平均値を50個作成します。
Rand関数による母集団の分布はどの値もほぼ同じ数値となります。このような分布を、一様分布と呼びます。一方、標本平均値のヒストグラムは0.5の近傍が最大値をとる正規分布となります。一様分布の母集団の標本平均値が正規分布となることを、中心極限定理と呼びます。
統計の面白い性質
①一様分布の母集団の標本平均値は正規分布となる
②標本平均の分散の値は、母分散を無作為抽出したデータ数で割った値に近い値を取る