見出し画像

3-1 各標本抽出法の性質

今回の統計トピック


さまざまな標本抽出方法を学びます。
「いらすとや」さんのイラストで楽しく学びましょう!

公式問題集の準備

「公式問題集」の問題を利用します。お手元に公式問題集をご用意ください。
公式問題集が無い場合もご安心ください!
「知る」「実践する」の章で、のんびり統計をお楽しみください!

問題を解く


📘公式問題集のカテゴリ

データ収集の分野
問1 各標本抽出法の性質(航空会社のアンケート)

試験実施年月
統計検定2級 2019年11月 問6(回答番号10)

問題

公式問題集をご参照ください。

解き方

題意
代表的な標本抽出法の理解を確認する問題です。
ひとまず、標本調査法を見ておきましょう。

標本抽出法の概要
調査対象の全体を母集団と呼びます。
母集団の全てを調査するにはコストや時間がかかるため、母集団の一部を抽出して、抽出した標本(サンプル)を調査することが多いと思います。
この標本を抽出する方法が標本抽出法です。

代表的な標本抽出法

①全数調査
標本抽出をしないで、母集団の全数を調査する場合のことです。

全数調査のイメージ

②単純無作為抽出法
母集団から無作為(ランダム)に調査対象となる標本を抽出する方法です。


単純無作為抽出法のイメージ

③層化抽出法
母集団の中がいくつかの種類(グループ)に層別できる場合に、各層ごとに無作為に抽出する方法です。
層の例には、性別、年代別、職業別などがあります。
単純無作為抽出法との違いは、層ごとに抽出する点です。

層化抽出法のイメージ

④二段抽出法・多段抽出法
抽出単位を2段階に分けて無作為に抽出する方法です。
たとえば、全国調査をする際に、
・1段階目に全国の市区町村から100市区町村を無作為に抽出
・2段階目に抽出した100市区町村のそれぞれから無作為に住人を50人抽出
のように、二段で合計5000人を抽出する感じです。
また、複数段階で抽出する方法を多段抽出法とも呼びます。

二段抽出法のイメージ

⑤集落抽出法(クラスター抽出法)
母集団を小さな単位である「集落」(またはクラスター)に分割して、集落を無作為に抽出し、抽出した集落の全体を調査対象とする方法です。
たとえば、全国の市区町村から無作為に10市区町村を抽出して、この10市区町村の住民全員を調査対象とするような感じです。
二段抽出法との違いは、抽出した集落(クラスター)の全数を調査対象にする点です。

集落抽出法のイメージ

⑥系統抽出法
母集団の調査対象に予め連続番号を付与して、最初の番号を無作為に抽出し、その後は、予め定めた一定間隔等のルールにしたがって、必要な標本の大きさ(人数等)に達するまで抽出する方法です。
たとえば、母集団100人全員に1番から100番までの連続番号を割り当てて、間隔を3と定め、10人抽出するとします。最初の番号を無作為に抽出して5番を引いたときには、5番から3番間隔で、5、8、11、・・・と10人に達するまで抽出を行います。

系統抽出法のイメージ

問題に戻ります
問題文の3つの調査方法を確認します。

■調査方法1
当日のすべての搭乗客(母集団)から無作為に200人抽出する方法は「単純無作為抽出法」です。

■調査方法2
午前便と午後便に層別して、午前便の搭乗客から無作為に100人抽出し、午後便の搭乗客から無作為に100人抽出する方法は「層化抽出法」です。

■調査方法3
当日の便(クラスター)から無作為に2便を抽出し、抽出した便(クラスター)の搭乗客全員を抽出する方法は「集落抽出法」です。

解答

④です。

難易度 やさしい

・知識:代表的な標本抽出法
・計算力:不要
・時間目安:1分

知る


おしながき

公式問題集の問題に接近してみましょう!
ここでは「架空の名簿」データを用います。
20名の構成員の氏名と所属事業本部・所属部門の一覧表です。

今回は具体的な例を用いて代表的な標本抽出法の体得を目指します

標本抽出法

📕公式テキスト:3.2.3 標本調査と抽出方法(103ページ~)

名簿の内容と抽出方法の見方です。
・抽出する範囲を色で区別しています。
・抽出が無作為かどうかを丸の形で区別しています。

また、ここでは抽出したデータを以降の抽出の対象にしない「非復元抽出」を取り扱います。

①全数調査
全数調査は、抽出単位が「全員(ブルー)」で、抽出は抽出単位全件(◯)です。
20人全員が調査対象になります。

全件調査

②単純無作為抽出法
単純無作為抽出法は、抽出単位が「全員(ブルー)」で、抽出は無作為(◎)です。
20人の全体から5人をランダムに抽出します。

単純無作為抽出法

③層化抽出法
層化抽出法は、抽出単位を層別します。
ここでは「事業本部」を層にしています。
第1事業本部がイエロー、第2事業本部がピンクです。
抽出は各層ごとに無作為(◎)です。
第1事業本部(イエロー)から2人、第2事業本部(ピンク)から3人を、それぞれ無作為抽出で選びます。

層化抽出法

④二段抽出法
二段抽出法は、抽出単位を2段階設定します。
ここでは、第1段階を部門、第2段階を部門内の構成員にしています。

第1段階の部門の抽出は無作為です。
選ばれた部門はA部門とD部門です。
この2つの部門の構成員全員を抽出します(◯)。

第2段階の抽出は、部門ごとに無作為(◎)です。
A部門(オレンジ)から3人、D部門(グリーン)から2人を、それぞれ無作為抽出で選びます。

二段抽出法

⑤集落抽出法(クラスター抽出法)
集落抽出法は集落(クラスター)を抽出単位にします。
ここでは「部門」を集落にしています。
5つの部門(集落)から無作為に2部門を抽出します。
選ばれた部門はB部門とE部門です。
この2つの部門の構成員全員を抽出します(◯)。

集落抽出法

⑥系統抽出法
系統抽出法は、抽出単位が「全員(ブルー)」です。
1番目のID番号を無作為(◎)に抽出します。
2番目以降は一定間隔(⚫)のルールで抽出します。
無作為に抽出した1番目のID番号は 6 です。
6番から+3番ごとに5人をルールどおりに抽出します。

系統抽出法


実践する


さまざまな標本抽出法でデータを抽出してみよう

「知る」で利用した「架空の名簿」データを用いて、6つの標本抽出法による抽出を実施してみましょう。

EXCELファイルをダウンロードして、データ抽出のシミュレーションを実施しましょう。
「無作為」に抽出するやり方はいろいろあります。

  • くじを作って引く

  • EXCELのRANDBETWEEN関数で乱数を作る
    =RANDBETWEEN(1, 20)・・・1から20の範囲で整数の乱数を生成

  • Pythonなどのプログラムで乱数を作る

    • random.randint(1, 20)・・・1から20の範囲で整数の乱数を生成

  • 整数の一様乱数の生成ができるWebサイトで乱数を作る

EXCELファイルのダウンロード
こちらのリンクからEXCELファイルをダウンロードできます。


電卓・手作業で作成してみよう!

「知る」と「実践する」の「さまざまな標本抽出法でデータを抽出してみよう」の内容をもとにして、さまざまな標本抽出法を実施しましょう!

EXCELで作成してみよう!

上述の「さまざまな標本抽出法でデータを抽出してみよう」を実践します。
ちなみに「データ分析」に「サンプリング」機能があるようです。
【メニューパス】
メニュー>「データ」>「データ分析」>「サンプリング」

EXCEL:データ分析のサンプリング画面

「ランダム」を少し試してみたのですが、同じ数字を重複してサンプリングする仕様のようでした。

EXCELサンプルファイルのダウンロード
今回はファイル提供はありません。

Pythonで作成してみよう!

今回はお休みです。

ちなみに情報です。
■無作為抽出法の例
pandasのデータフレームのデータから無作為抽出する方法は「2-6 相関関係の記述」の「⑥ランダムに100件を抽出」のステップにサンプルコードを記載しています。

df_random = df.sample(n=100, axis=0, replace=False, random_state=123)

引数は、n:サンプルの大きさ(抽出するデータ数)、replace=Falseで重複抽出を許可しない、random_state:乱数シードです。

■層化抽出法の例
機械学習で訓練データセットと検証データセットの分割に使用するscikit-learnのtrain_test_splitにて、stratifyで層化対象のカラムを指定すると、層化抽出法によるデータ抽出ができるようです。
ただし、標本の大きさはデータに占める「比率」で指定することになります。

import pandas as pd
from sklearn.model_selection import train_test_split
df = pd.DataFrame({'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
                   '動物': ['イヌ', 'ネコ', 'サル', 'トラ', 'ウシ',
                            'トリ', 'クマ', 'ヤギ', 'ウマ', 'エビ'],
                   '色彩': ['赤', '青', '黄', '黄', '黄',
                            '赤', '青', '赤', '黄', '青']})
x_sample, _ = train_test_split(df, train_size=0.7, stratify=df['色彩'],
                               random_state=123)
display(x_sample)
出力イメージ

Pythonサンプルファイルのダウンロード
今回はファイル提供はありません。


おわりに

「いらすとや」さんのイラストから「ほのぼの」した癒やしをいただいています。
ほのぼのイラストがきっかけになって、統計の記事を「何となく分かるかも」と思っていただけたら、嬉しいです。
のんびり、のんびり。

最後までお読みいただきまして、ありがとうございました。


のんびり統計シリーズの記事

次の記事

前の記事

目次

この記事が気に入ったらサポートをしてみませんか?