見出し画像

エクセルを使った集計のあれこれ(単純、クロス、ウェイトバック)

こんにちは! Dynata Marketing &PRチーム です。

今日は、集計についてお話しします。
アンケート調査の結果集計は、設問ごとに集計する単純集計GTと、回答結果をより細分化して(絞り込んで)把握することができるために行うクロス集計があります。単純集計の結果は、「実数(回答者数)」「比率(%)」の2種類でアウトプットされることが基本となります。

単純集計

単純集計は集計の基点となります。後述するクロス集計を行う前に必ず整理します。質問項目ごとに各選択肢について回答結果を集計します。

単純集計の例/よくみるエクセルの表ですね。

このとき、一般的に回答数のことを度数(N)、構成比のことを割合(%)と呼んでいます。単純集計の結果は通常、この度数と割合の2種類が併記されます。

なお、この構成費については、選択肢を一つのみ選ぶSA(シングルアンサー、単一回答)と複数選択が可能なMA(マルチプルアンサー、複数回答)により異なります。

  • SA 総回答数に対する構成比を算出

  • MA 回答人数を母数として構成比を算出。合計100%にならない

クロス集計

クロス集計とはクロス集計とは設問と設問をかけ合わせて集計する方法です。回答結果を、属性や回答結果をもとにしてより詳細に分析して現状把握することができるため、アンケート調査では広く実施されている集計方法です。上記の単純集計の結果を性別ごとに修正したものが以下です。

単純集計よりも少し属性による差がわかりやすくなりましたね

このようにクロス集計により男性は女性よりやや関心が高いことが見られます。

なお、一般的に表の縦を表頭、横を表側と呼びます。

属性間クロス集計と設問間クロス集計

設問と設問をかけ合わせて集計するクロス集計には次の2つの方法があります。

  • 属性クロス集計 回答者の属性から分析。例えば、年代、性別、居住地、職業、未既婚、職業などの、回答者に紐づく情報により集計。

  • 設問間クロス集計は、属性以外の設問と設問をかけ合せて集計する方法。設問間の相互関係を把握するために集計。

設問間クロスの例としては以下のようなものがあります。

  • 勤務時間、勤務形態と運動する頻度

  • サービスの使用頻度と満足度

  • 所得水準と外食の頻度

  • 音声メディアの利用頻度と通勤の平均所要時間

このように設問間クロスの例は、「特定の考えや行動を持つ人は、どういう傾向にあるのか?」「ある習慣を持つ人にはどのような行動や思考の違いがあるのか?」といった複雑な仮説を検証したい場合に行われます。

留意点

属性間クロス集計、設問間クロス、いずれを行う場合においても、クロス修正の軸については調査設計段階で仮説として確認・整理して、質問事項に反映することが基本となります。例えば年齢階層ごとの傾向を把握する場合には必ず年齢を問う設問が必要となります。特に事前段階での検討が求められるのは設問間クロスです。あらかじめ想定される状況を仮設として整理して、それをどの設問と、どの設問の掛け合わせで集計するのかを基に調査票を設計することが求められます。

  • またクロス修正を行う場合には、回収サンプル数にも留意が必要です。分析軸が多くなるほど精度が高い分析に必要なサンプル数も必要となります。一般的には各セルで100以上回収することが目安になります。

  • 一般にモニター調査会社は回答結果が入力されたローデータ、単純集計GTは調査票に含まれていることが多いのですが、クロス集計は有料の場合もあります。また集計ソフトや表計算ソフトでもクロス集計を行うことが可能です。マイクロソフトのエクセルのピポットテーブルが、その代表例です。

ウェイトバック集計

ウェイトバック集計とは、回収されたサンプル(標本)母集団の構成にあわせて集計する方法です。母集団と回収サンプルの構成比が異なる場合に、属性の抽出率や回収率の違いを補正し母集団構成比を復元する場合などに使用します。社会調査では国勢調査など正確な実態把握の際においてのみ集計データに集計値をウェイトバックします。また自然科学では医療や実験の正確なデータ測定の際に用いられます。

ウェイトバック集計の計算例

例えば、あるメンバー会員登録している方全員(2,0000人<男性:1000人、女性:1000人>)に対して利用者満足度評価をアンケートで行いました。結果、男性700人、女性500人から回答を取得して、以下の例1のような結果を得ました。

例1

これを単純に計算すると、満足している人(はいと回答した人)の割合は回答者数1200人中600人で全体の50%となります。
しかし性別ごとにみると、回答者数、回答率は男性の方が高く、かつ満足度についても男性57.1%、女性40.0%と、男性の方が高い。
男性の回答数が多いため全体の結果にも男性の意見がより反映されています。全体の満足度が男性意見の比重により歪められている可能性が推定されます。

  • そのためウェイトバック集計により、男性の回答の重みを小さくし、女性の回答の重みを大きくしてサンプルの構成比を母集団の構成比(1:1)に合わせて集計します。総メンバー数の男女比は1:1なので、男女それぞれのアンケート結果が600:600になるように修正します。

         男性:600(補正後の値) ÷ 700(補正前の値) = 0.857

         女性:600(補正後の値) ÷ 500(補正前の値) = 1.2

  • この値をウエイト値(重み)と呼び、回答結果に乗じて補正します。補正したものが以下の例2です。

例2

なおウェイトバック前後では属性ごとの比率に変化は起きず、複数の属性を合わせた比率や全体の比率に変化が生じます。
従って、この事例では個々の満足度、男性57.1%、女性40.0%について変化はなく、全体が50.0%⇒48.6%に修正されます。

ちなみに、「全体をみる」必要がない場合、ウェイトバック集計は不要と言えます。

ウェイトバック集計の留意点

ウェイトバック集計はサンプルの属性に偏りがある場合に用いる方法で、母集団の構成比が分からない場合、信頼できる母集団データがない場合はウェイトバックできません。そのような場合には、ウェイトバックせずにデータを信頼して集計します。

また上記例のように値は1.2倍であればよいのですが、特定のサンプル数が極端に少なくて5倍、10倍という大きなウエイトをかける必要があるとなった場合には、一つの回答が5倍、10倍に補正されるので、修正後の値を信用することに疑念が持たれます。一般的にはウエイト2倍程度までが許容と言われています。ウェイトバック値があまりにも大きくなってしまう場合、ウェイトバック集計は適していないと言えます。

なお上記の計算例では、男性の回答者の比重が高いことからウェイトバック集計を行いましたが、全体の満足度は50.0%⇒48.6%に修正されただけです。『おおよそ半分のメンバーが満足している』という結論には、ウェイトバック集計した場合でもほぼ影響しません。

その他に、アンケート回答総数が少ない場合、ウェイトバック集計は適していない、ウェイトバック後の統計処理、解析は正解が不明瞭になるため回避したほうが無難という点にも留意が必要です。

インターネットモニター調査におけるウェイトバック集計

モニター調査では割り付けした回収数が確保され、かつ母集団の構成を反映していれば、正確なサンプルデータ収集か可能となり、ウェイトバック集計も不要となります。

ただし、特定の割り付けの回収数か不足している場合にはウェイトバック集計の要否を検討しますが、インターネットモニター調査は書面調査と異なりターゲット層の回収が一定程度は確保できることから、ウェイトバック集計は基本的には不要です。ウェイトバック集計は社会調査では国勢調査などの高度の正確性が求められる調査以外では一般的には採用しないと考えた方が適切です。

本日は様々な集計方法についてお話ししました。
次回は分析についてお話ししたいと思います。

グローバル調査、ネット調査などご興味のある方はぜひ以下よりお問合せください!(日本語で大丈夫ですよ!)


いいなと思ったら応援しよう!