【統計学コラム】平均の平均は平均ではない
こんにちは、D2CIDでWEBアナリストをしております高野です。
本日はアナリスト同志でもよく話題に出る「平均の平均は平均ではない」というお話しをしたいと思います。
まるで仙人の呪文ですね www
ある日社内のメンバーから下記表の「期間合計」について数値が誤っているのではないかと意見がありました。
確かに(50+80+80)÷ 3 の計算式では 70 なります。
でも期間合計の56%は正しい数値なのです。
なぜかをご説明します。
実はこの表、隠れている部分があります。
お見せしますとこうなります。
直帰率は「直帰したセッション」÷「すべてのセッション」×「100」で算出されます。
1月だけでみてみると全部で40,000のセッション(訪問)があって、そのうちの20,000は直帰したセッションなので、
20,000 ÷ 40,000 × 100 = 50
となり直帰率は50%という計算になります。
これは1月だけでみたときの直帰率の平均値ということになります。
しかし3か月で合計した値で直帰率を出すと
28,000 ÷ 50,000 × 100 = 56 となります。
期間合計の直帰率はこれが正しい数値になります。
このことから
・1月の平均直帰率
・2月の平均直帰率
・3月の平均直帰率
について
単純に(50+80+80)÷3 の計算式で導き出すことと、実際の期間合計の平均値は違うということがわかります。
これが「平均の平均は平均ではない」の理由になります。
実はこれには母数のバラつきが関係しています。
例えば、同じ直帰率(50%、80%、80%)で、今回で言う所の母数(=セッション)が1月、2月、3月ですべて同じだった場合を考えてみましょう。
この場合は期間合計が 70%となっており、(50+80+80)÷ 3 の計算式と全く同じになります。
これは母数であるセッション数が均等だからです。
つまり、均等だったら(50+80+80)÷3 の計算式で算出することができるが、母数が均等でないときは直帰率だけが見えている状態では算出できない。ということになります。
〇〇率や平均値などのデータしか見えていない場合は、
母数にバラつきが生じていることがあり、平均の平均が平均にならないことがあるということを思い出しましょう。
これは、アクセス解析の直帰率だけでなく、ビジネスでデータを取り扱う際はわかっておいたほうがよい内容になります。
最近はデータの重要性が唱えられ、アナリストでなくともデータを解読する場面は多くあると思います。
今回は、そういったときのヒントになればと思い書かせていただきました。
D2C IDでは、マーケティングとクリエイティブの力でCX(顧客体験)の課題解決をお手伝いしております。
是非、お気軽にお問い合わせください。