それ、意味のある調査ですか?全てを無に帰すバイアスに気を付けよう
みなさんは何か調査する機会はあるでしょうか。
学生の研究、ビジネスでのABテスト、なぜあの人のnoteはあんなに伸びているのか etc
日々何かしら調査をしながら生きている私たちにとって、気を付けたいのがサンプリングに伴うバイアスです。
今回はサンプリングとは何か、なぜ必要か、どんな手法があるか、どんなバイアスがあるかについてお話します。
サンプリングって?
あなたが食品会社のマーケターだとして、自社と競合の製品の売れ方をアンケート調査したいとします。
このとき誰にアンケートを回答してもらうかというと、自社製品を買ってくれた人の一部ですよね。
このように関心のある集団を特定して母集団(自社製品を買ってくれた全員)を決め、母集団から実際に調査対象を選び出す作業をサンプリングといいます。
なぜサンプリングが必要?
なぜ母集団全体を調査対象(=全数調査)にしないかというと、次の理由があります。
全数調査は時間も費用も膨大なので不可能
自動車の衝突試験のような破壊検査の場合一回きりで試験が終わってしまう
限界収益の効果でサンプルと全数調査でさほど結果が変わらない
とはいえ例えば選挙の投票のように全ての票を得ることに意味があるのもあります。
通常の研究やビジネスの範囲ではサンプルで必要十分というわけですね。
サンプリングの方法にはどんなのがある?
確率的サンプリング
母集団からランダムに抽出することを指します。
単純無作為抽出法
母集団からランダムに抽出
層別抽出法
母集団を重複しない層に分けてそれぞれの層からランダム抽出
例 性年代ごとに10人ずつ抽出
系統的抽出法
母集団を一連のリストに並べてN人ごとに抽出
例 3番目の人から始めて10人ごとに抽出(3番目, 13番目, 23番目...)
クラスター抽出法
母集団をいくつかの群に分けて群をランダムに抽出
例 ある学校の生徒全員を抽出
非確率的サンプリング
実施者の主観で抽出する、確率的ではないものを非確率的サンプリングといいます。
一般に確率的サンプリングができないときに行います。
機会的抽出
簡単に接触できる人たちを抽出
例 同じゼミの生徒たちを抽出
自発的応答抽出
呼びかけに応じてくれた人を抽出
目的抽出
調査目的に合った人たちを抽出
例 男性スキンケア製品の調査用に30代男性を抽出
スノーボール抽出
抽出した人から紹介してもらって雪だるま式に対象を抽出
抽出するときに気を付けることは?
大前提としてサンプルが母集団を代表していないといけません。
例えば小学生の学力を調査なのに大人に試験を受けてもらうとどうでしょうか。
一体何の調査なんだという話になります。
調査対象がちゃんと母集団を代表していないと調査結果の妥当性が保証されず無意味な調査になるのです。
バイアスに注意する
サンプルが母集団を代表していないことをバイアスといいます。
選択バイアス
選んで抽出した結果のバイアス
例 水質調査を海岸沿いの土地で行う
無回答バイアス
回答が得られないことによって生じるバイアス
例 システムエラーでログを返せないのにエラーの割合をログ件数から確認する
自己選択バイアス
抽出手続きの誤りでサンプルが偏ること
政治的意見についてのオンライン調査で政治に興味がある人が回答する
生存者バイアス
現存している人や物だけを抽出することによるバイアス
例 帰還した戦闘機を対象にして被弾損傷を調査する
どう気を付ける?
バイアスを完全になくすことは難しいです。
どんなバイアスがあるかを知って注意しつつ、取り除けなかったバイアスは調査報告のときに報告するようにしましょう。
参考
Is Your Data Lying To You? Avoid Bias with Smarter Data Sampling