2024年11月8日 雑記「なんでも統計を見ればよいというわけではない」

 「なんかそういうデータあるんですか?」が"必殺技"扱いされるこの時代、調べればだいたいの統計は見つかるし、何かを主張するとすぐに統計を求められるようになった。主張にはその根拠が必要であるというのは真だが、多くの人には「主張」と「統計」という単純な対応関係しか見えていないような印象を受ける(この"印象"にも統計を求められてしまいそうだが……)。

 統計を主張に結び付けるには、必ず「解釈」が必要となる。単なる数値の羅列が、本当にその主張を補強するような意味を帯び得るものなのか? ということはきっちりと考えておいてほしい。
 極端な例を挙げよう。「日本の高校生の平均身長」を調べるために、ある高校のすべての生徒の身長を測定した。地域差は考慮しないとすると、これでだいたい「日本の高校生の平均身長」に近いものが得られそうだ。
 しかし、実はこの高校が男子校だったということが発覚した。先ほど得られた「平均身長」を見た者は「これでは実際の平均身長よりも大きな値になってしまっているじゃないか」と言うだろう。このようなサンプルの全体(今回の場合は日本の全高校生)に対する偏り(今回の場合は性別の偏り)を「サンプリングバイアス」という。
 上記の例なら気づきやすいが、サンプリングバイアスを完全に取り除くことは不可能だ。なぜなら、その偏りが「集めていない/集めることのできない情報」についてのものかもしれないからだ。ある地域で健康調査を実施した。実はその地域は極めて喫煙率の高い地域だったが、調査者が喫煙有無を誰にも聞いていなかったためその事実が記録されることはなかった。このようなデータを見て、裏に隠れたサンプリングバイアスに気づくことができるだろうか? さらに巧妙にバイアスが隠れていたら? 取り除ききることができないとはいえ、データ収集方法や集計結果の解釈に問題がないかをもっと疑ってかかってみるべきだろう。少なくとも、Twitterで流れてきた魅力的なグラフにすぐ飛びつくのは控えたほうがいい。

 統計は実際に起こったことのディティールを潰してしまう、ということにも注意したほうがいい。もしあなたが大勢の豊富な行動データから「あるWebサイトにアクセスした人が特定の行動に至る」ことを確かめたいとする。単純に「Webサイトにアクセスした人」のうちの「特定の行動に至った人」の割合を出し、このWebサイトへのアクセスはこんなに高い割合でこの行動を引き起こしている、と主張するのは簡単だ。しかし、本当にその結論でいいのだろうか?
 さらに行動データを細かく見たところ、上記のような行動が見られた人のうち半数は対象のWebサイトを1秒も見ておらず、そこへリンクを張っている別のWebサイトをその前に30秒以上見ていた、ということがわかったとする。あるいは、特定の行動に至った場合はすべてそのWebサイトにあるバナーが表示されているときであって、そのバナーが表示されていないときにその行動はまったく見られない、ということがわかったとする。この場合、「このWebサイトにアクセスした人はこの行動に至る」ことだけを確かめるだけでは明らかに不十分だし、少し条件が変わるだけでこの主張も成り立たなくなる可能性が高い。

 統計から何かを主張する、これはかなり難しい作業だ。本当にその主張の補強になっているのか、バイアスの大きいデータではないか、など気にするべきことはたくさんある。その主張ができたとして、本当にそれが真に解き明かすべきことなのか、そこに至る理由や人々の行動心理が潰れた集計結果になっていないか、と気を配ることができればなおよい。少なくとも、棒グラフや折れ線グラフが出てきたからといって直ちに何かが言えたわけではない、ということはもっと多くの人が意識できてほしい。

この記事が気に入ったらサポートをしてみませんか?