マーケティング調査の重箱の隅|其の壱
マーケティングリサーチの主戦場がネットリサーチ(WEB調査)になった2000年代の頃から、調査のリテラシーがそれほど高くなくても手軽に安価にリサーチを行うことが可能になった。一方で、市場調査の基礎的なノウハウが反映されていない「粗い」調査もいまだに横行している。
調査を仕事にする筆者が、調査設計時に意識すること(そして正解がなくて時折頭を悩ませること)について、このnoteでも時々書いていきたいと思う。今回はその第一弾。調査に関わる者なら誰でも一度は考えることのあるテーマを3つほど挙げてみたい。
サンプルサイズはどのくらいあれば良いのか?
調査会社の営業スタッフや、リサーチャーをも時に悩ませる問題の一つとして、サンプルサイズはいくつが適正なのか?という問いがある。実際に筆者が調査会社に所属していた時も、若手の営業からこれを何度も相談された。サンプルサイズはダイレクトに価格に結びつくので、クライアントを説得するにはどう説明したらいいか?という相談だ。
実のところ、これには明確な正解がない。大数の法則により、サンプルサイズは多ければ多いほど良い(真の値に近付く)わけだが、だからといって何万サンプルもの調査を、予算の限られているクライアントに提案するわけにもいかない(国の統計調査とかなら別だが)。
一般的にnが30以上あればよい、という通説がある。最小分析単位が30サンプル以上あれば統計的に解釈してもよい、という経験則だ。最小分析単位が性×年代(たとえば20代女性)という集計計画があれば、1セル30サンプルで合計300サンプル、といった設計ができる。
ただしこれを理論的に説明できる人は案外少ない。中心極限定理により、サンプルサイズが多いほど正規分布に近付くので統計的解釈が可能になる。その最低ラインが30サンプル程度と言われている、というのが一応の説明になるが、これを統計に長けていないクライアントに納得させるのはなかなか苦労する。
ちなみに筆者の経験上、n=30は結構誤差が大きいと感じる。全体との差異が10~15pt以上ないと高い・低いという判断ができないレベルだと思う。
筆者の場合、「30あれば統計的に解釈可能と言われているが、経験的には40~50あるとベター」という説明を試みることが多い。n=50であれば10ptの差がつけば「他方に比べて高い」というコメントをしても差し支えないと感じている。(それでも有意差検定では有意差なしと出てくる場合もある。検定はあくまでも検定にすぎないが)
また別の話になるが、母集団からのサンプリング誤差(標本誤差)が±5%の範囲に収まるサンプルサイズとして400前後という一般則もある。単純に「Z世代で◯◯を購入したことがあるのは◯%」という結果を導きたいだけなら、Z世代を400サンプル集めればよいということになる。(性×年齢別割付を人口構成比に合わせると尚良しだが、男女比さえ保てば自然出現でもある程度は許容される)これについては簡易的な計算ツールもネットにあるので参照されたし。ただし、もちろんこれも統計的な一つの指標でしかないので、n=200だからといって根拠がない、ということにはならない。どの程度の誤差を許容するか、という「程度の問題」だ。
リッカート尺度は何段階にするべきか?
一般的なアンケート調査票で頻出するのがリッカート尺度、すなわち「非常にそう思う」~「全くそう思わない」といった段階評価の調査項目だ。
この尺度についても、何段階で取るのが正解なのか?という永遠の問いがある。これについては、無意識に、あるいは慣習的に5~7段階程度を設定するリサーチャーが多い。次のような感じだ。
《5段階評価》
非常にそう思う
ややそう思う
どちらともいえない
あまりそう思わない
全くそう思わない
《7段階評価》
非常に強くそう思う
かなりそう思う
ややそう思う
どちらともいえない
あまりそう思わない
ほとんどそう思わない
全くそう思わない
また、NPS調査の場合は、その定義上、0~10の11段階評価になる。NPSでない項目でも、強度の違いをより詳細に取るため、11段階評価が採用されることもある。
調査票の基本は「対象者の回答負荷をできるだけ低くする」が正解だ。直感的に答えられるのは「はい」「いいえ」の2択、あるいはそれに「どちらでもない/わからない」を入れた3択になるが、価値観などに関する意見は明確にYES/NOで答えることに抵抗感を持つ人もいるし、分析精度も粗くなる。
筆者の経験的には5段階評価を基本とし、程度の違いをよりハッキリさせたい場合は7段階を使う、という手法が一番おさまりが良い気がする。(ちなみに欧米では7段階評価が一般的と言われている)
5段階評価は「どちらともいえない」という形で判断が難しい場合の選択余地を確保しつつ、ポジとネガの強度を2段階ずつに設定しており、おそらく日本人にとっては最も回答負荷が少ない。7段階になると「かなり」「強く」といった修飾語の程度感が人によって異なるし、そもそも両者の違いってどの程度の違いなのか?という疑問も生じる。ただし加重平均値で比較するなどの場合は尺度を細かく取った方が精度が高い場合もあるので、一概にこれが正しい・間違いとは言えないのも事実だ。(まあそれでも、11段階はNPS以外では細かすぎる印象がある)
また、やや強引すぎるきらいもあるが、4段階や6段階といった偶数で設定することもある。この場合は「どちらともいえない」という中立の選択肢を敢えて外し、ポジかネガかのどちらかに強制的に振分ける形になるので、対象者側からするとやや回答負荷が高い方法だ。日本人は中立を好むので、「どちらともいえない」を入れておいた方が対象者の回答負荷は小さい。反面、中立が圧倒的多数派を占めてしまうと解釈が難しくなるリスクもある。分析者の視点からするとポジネガがハッキリ出た方が「わかりやすい」ので時折偶数尺度が採用されることもある。
これも決まった正解はない。調査課題と目的、分析方針に応じて最適なものを選ぶことが望ましい、というのが全てだ。特に理由やこだわりがない場合は、回答負荷が低く分析上も必要十分と考えられる5段階で良いかと思うが、絶対ではない。このあたりの感覚はリサーチャーとしての経験値による。余裕があれば5段階尺度の場合と7段階尺度の場合を比べる実験調査をしてみれば良いのだろうが、実務上そこまでこだわる必要があるのかは疑問だ。
ランダマイズは本当に「ランダム」なのか?
初頭効果や順序効果(提示された順序によって回答のブレが起こること。最初に呈示された選択肢が多く選ばれてしまう、呈示物の呈示順によって評価がプラスまたはマイナスの方向にブレるなど)を避けるために、選択肢のランダマイズや、設問順のランダマイズを設定することは多い。WEBの調査票なら乱数の発生等で比較的簡単にランダマイズをかけることができるので多用される。
しかし(マニアックな話だが)ランダム化を試みたにもかかわらず、結果が非ランダムになることがあるという事実は知っておくべきだ。原因はいくつか考えられる。ちなみにAIに聞いてみたら下記のような原因が返ってきた。
疑似乱数生成器の限界: コンピュータで使われる乱数生成アルゴリズムは、完全なランダム性を持つわけではない。多くの場合、理論的なアルゴリズムに基づいているため、パターンが生じる可能性がある。
シード値の問題: 乱数生成器のシード値が適切に設定されていない場合、同じシーケンスが繰り返し生成される可能性がある。
サンプルサイズの不足: 小さなサンプルサイズでは、ランダム性が明確に現れない場合がある。大数の法則により、サンプル数が増えるほどランダム性が大きくなる。
人間の認知偏見: 人間は無意識にパターンを見出す傾向があるため、実際にはランダムな結果でも、パターンがあるように感じてしまうことが起こり得る。
実装の誤り: ランダム化アルゴリズムの実装に誤りがあると、意図せずにずれが生じる可能性がある。
物理的な賭け: 物理的な方法(サイコロを振るなど)でランダム性を生成しようとする場合、環境削減や物理法則により、完全なランダム性が得られないことは起こる。
これらの現象により、ランダム化を意図しても結果が非ランダムになることが起こり得る。
ただこれを気にしたところで、調査プラットフォームの仕様上どうしようもないのが現状だ。プラットフォーム側がどの程度、ランダム性担保のための工夫をしているかは知る由もない。
それよりも一般的な回答誤差の方が大きいのだから気にしても仕方ないという意見もあるし、ランダム性を大きくするためにサンプル数を多めに取るという選択もできないわけではない。ただ、こういうことが起こり得ることを、リサーチャーは十分に理解しておく必要がある。
ちなみにサンプリングの際の「ランダムサンプリング(無作為抽出)」においても同様のことが起こり得る。これもサンプル数を十分に取らないと機能しないことを覚えておくべきだろう。
まとめ
今回書いたのは経験則によるところが大きい題目なので、リサーチャーの教科書にはあまり書いていない、しかもかなり個人的なノウハウだ。他にも調査に関する細かいTips、議論点、リサーチャーの頭を悩ませる事柄はいくつもある。(例えばマトリクス設問による回答負荷、選択肢の適正な数、ワーディングのコツなど)また、今回は定量調査をベースに書いたが、定性調査に関しても生々しい経験則が多々存在する。
自分の知見のシェア、と言うとなんだか偉そうだけど、経験値を棚卸しするような感覚で、今後もこのテーマについて時々書いていこうと思う。ご意見やご感想、それは違う!みたいなご指摘などもコメントいただけると嬉しいです。