「正しいデータを使う」のはこんなにも難しい、というお話
Diamond Onlineの記事でこんなものを見つけました。
フェイスブックには「おじさん、おばさんしかいない」説は本当か
とても興味を惹く記事ですので、興味がある方は記事をご覧頂ければと思うのですが、そこで検証に使われていたデータがこちらです。
Facebookの利用率(情報通信白書の平成29年版)
10代…18.6%
20代…54.8%
30代…51.7%
40代…34.5%
50代…23.5%
60代…10.6%
では、ちょっと考えてみてください。このデータから、記事のタイトルに反して「Facebookの利用者はおじさんやおばさんばかりではないぞ」ということになるでしょうか。
この記事では20代の54.8%という大きさに注目して、「そうでもない」というトーンで書かれていますし、実際このデータを見た人は同じように思う人は少なくないのではないでしょうか?
でも私は、「あれ?」と思いました。
知りたいことは、あくまで「フェイスブックには「おじさん、おばさんしかいない」説は本当か」なわけです。
20代の人口の中の54.8%が、Facebook利用者全体のどのくらいの割合なのかが、ここからは見えてきません。でも、それがわからないと、この問いに対する答えは出せないはずだと思ったのです。特に、20代よりも30代や団塊世代ジュニアである40代の人口の方が多いことは事実なはずですから尚更です。
そこで、こんなものを作ってみました。
総務省のHPから、年齢ごとの人口を取り、先のFacebook利用率を掛け、実際に利用している”人口(人数)”を算出し、Facebook全利用者数の内訳を示したものです。
先ほどと印象や結論は変わるでしょうか?
かなり大雑把ではりますが、仮に利用者1名ごとに1つの記事をアップするとして、Facebookの日本語ページにアップされる記事の約2/3(=27%+23%+13%)は30~50代の利用者によるもので埋め尽くされているわけです。これをパッと見ると、「おじさんやおばさんの投稿が多いな」ということにはならないでしょうか。
この結論をどう見るかはどうでも良いのですが、ここではよくあるデータを使うときの難しさの一例が示されています。
「フェイスブックには「おじさん、おばさんしかいない」説は本当か」
という目的をデータで確かめるときに、年齢層ごとの利用率の高低の比較が目的に対して適切かどうか、という点です。20代の50%と40代の50%は、利用者の数として大きな差があります。
使っている人の人数で多いのはどの年齢か、に答えを出すときに適切なデータとは言えません。
実はこういうところでうまくデータが使えていないことって少なくないのです。
この記事が気に入ったらサポートをしてみませんか?