見出し画像

統計準1級 2017年6月問12解説 [ブートストラップ法]

問題の紹介については割愛します。

ブートストラップ法とは

ブートストラップ法は有限のデータから統計量の分布や不確実性を推定するための再サンプリング手法である。具体的には、得られたN個の標本から複復元抽出してN個の副標本(ブートストラップ標本)を取り出し、そこから得られる統計量(例えば平均や分散など)を計算することで、その統計量の分布を推定する。

イメージしやすいように例をあげて考える。身長の調査をするために街中で10人の身長を測ったとして、得られた標本を以下に表す。

$$
X = (X_1, X_2, X_3, … X_{10}) = (152, 181, 174, 169, 165, 140, 171, 165, 163, 170)
$$

この得られた標本から復元抽出でN個のデータを取り出す。ここで復元抽出なので、重複する値も許容されるのに注意。

$$
X^* = (X_1^*, X_2^*, X_3^*, … X_{10}^*) = (181, 181, 174, 181, 152, 171, 163, 165, 140, 152)
$$

同様にしてブートストラップ標本を複数得て、それぞれから母平均や母分散等の推定量を獲得する。

これらを使用すれば、元の母集団の母平均や母分散が見えてくると言うのがブートストラップ法のアプローチだ。

統計学実践ワークブック32章で紹介があるが母集団が従う分布を仮定せずに標本から母集団を推測する手法、つまりは13章で扱うノンパラメトリック法の1つであると見ると良い。

また、機械学習でよく扱うバギング(Bagging)はBootrapping Aggregatingの略称であり、それぞれのブートストラップ標本を使ってモデルを学習させ組み合わせる手法だ。10個のブートストラップ標本を作れば10個のモデルができ、その組み合わせにより予測を行うことができる。

問12[1]

ブートストラップ推定値?を求める問題だが、文章通り標本平均$${\bar X}$$=6.2よりも小さい確率$${P(\bar X^* < \bar X)}$$を求めれば良い。
10個の$${\bar X^*}$$のうち$${\bar X}$$=6.2より小さい値を取るのは4個なので、4/10 = 0.4が答えとなる。

問12[2]

$${\bar X^*}$$の累計度数が与えられている。母平均μの90%信頼区間は下側5%と上側5%を抜いた区間であることから、1000個のブートストラップ標本の下側5%である累計度数50を超えた57の地点の[4, 4.5]区間の平均4.25から上側5%である950を超えた978の地点の[8, 8.5]区間の平均8.25までが母平均μの90%信頼区間と言える。

いいなと思ったら応援しよう!