ウェイトバック集計による購買履歴データの補正
はじめに
こんにちは、アポロ株式会社でデータサイエンティストをしている肱岡です。
今回は、ある企業様とのプロジェクトから、ウェイトバック集計を用いて、商品ごとの購買傾向を推定するためのロジック構築について、ご紹介します。
ウェイトバック集計の意義
ウェイトバック集計は、ある集団全体(母集団といいます)から一部のデータ(標本といいます)しか得られない状況において、その集団全体における傾向を推定する手法の一つです。
ビジネスにおいては、集団全体のデータを集められることはほとんどなく、一部のデータから全体の傾向を推測して施策を考える場面が多いと思います。
例えば、メーカが自社商品に関してどのような属性の人に買われているかをもとに販促施策を考えるためにID-POSデータやレシートデータを使うことや、チェーン店が既存店舗の利用者層に基づいて新規出店を検討するために会員の利用履歴データを使うことが想定されます。
これらのデータは、購買者(利用者)全体のうち、会員となっている人の情報で構成されているため、地域の人口動態や店舗の利用者構成と異なることが想定されます。したがって、そのまま集計してしまうと、集計結果・分析示唆が実際の状況にそぐわないものとなり、販促効果が出ない、新規出店に失敗してしまうというような結果につながる可能性があります。
ウェイトバック集計を用いることによって、保有しているデータをより確からしい分布に修正して適切な集計・分析を行うことができます。
購買履歴データに対するウェイトバック集計
ウェイトバック集計の手順
当該プロジェクトでは、小売店における購買履歴のデータに対して、2段階のウェイトバックを実施することによって、顧客の性年代と店舗所在地とカテゴリごとの購買比率を考慮した集計となるようにしています。ウェイトバック集計の適用手順を図1に示します。
オリジナルの購買履歴データにおける性×年代×エリアの人数構成比が、e-Statで提供されている性×年代×エリアの人口構成比と等しくなるよう重みを計算します。
オリジナルの購買履歴データにおけるカテゴリ別売上構成比が、業界団体やデータ販売会社が提供しているカテゴリごとの売上構成比と等しくなるように重みを計算します。
オリジナルの購買履歴データによる集計結果に対して、1と2によって求められる重みを掛けることによってウェイトバックを適用済みの集計結果を得ます。
ウェイトバックの有無による結果の違い
ある商品に関して実際にウェイトバックを実施した結果を図2に示します。この商品は、右のグラフに示しているように40代以上の購買比率が高いですが、オリジナルの購買履歴データによる集計結果は20~30代の購買比率が高いです。ウェイトバック集計を実施することによって、適切な購買比率に修正されていることがわかります。
ウェイトバックの有無による解釈の違い
オリジナルの購買履歴データによる集計結果に基づいて購買率の低い層に向けて販促施策を考えると、50~60代を対象にする必要があると想定されますが、実際に購買率が低い年代は20~30代ですので、施策の対象と内容は大きく異なる可能性があります。一例として、50~60代に対してはテレビCMが効果的と思われますが、20~30代に対しては動画配信サイトの広告が効果的かもしれません。
オリジナルの購買履歴データを集計すると本来の傾向と異なる結果になることがあり、その後の解釈、実際の施策の方向性がずれてしまう可能性があります。ウェイトバック集計を行うことによって本来の傾向を推定することによって、適切な施策へとつなげることができるようになると考えています。
最後まで読んでいただき、ありがとうございます。
アポロならではの技術的課題に対する取り組みやプロダクト開発の試行錯誤で得た学びなどを定期的に発信していきます。少しでも業界へ貢献できれば嬉しいです。
今後ともよろしくお願いいたします。
アポロでは、一緒に働く仲間を募集中です。
興味のある方は、ぜひ下記の採用サイトをご覧ください。
この記事が気に入ったらサポートをしてみませんか?