見出し画像

【読書メモ】Excelでできるデータドリブン・マーケティング

1.はじめに

本書について

株式会社秤代表でマーケティングアナリストの小川貴史さん著作『Excelでできるデータドリブン・マーケティング』を読んでみました。

小川貴史さんを知ったキッカケはGoogle検索やnote経由でした。

マーケティングパートナー刀の森岡毅さん・今西聖貴さんが書いた『確率思考の戦略論』を読み、確率論NBDモデルをマーケティング業務(需要予測など)に活かしたいと考えて、Google検索をしたら小川 貴史さんのnoteに辿り着き、結果的に本書も知るに至りました。

この本の良い点

本書にはマーケティング担当者が頭を悩ませがちな①施策の効果説明、②需要予測を助ける分析方法が紹介されています。

私は普段デジタルマーケティング担当者として事業会社で働いていますが、上記①は特にモヤモヤしていました。具体的には認知施策効果(CM、タクシー広告など)と新規会員登録の相関・因果関係の可視化です。

Excelを使って軽やかに分析を開始できるのが本書の魅力だと思いますので業務で活用していければと思います。

注意点

また1点注意点として、一部分析手法はExcel統計解析ソフトの利用が前提になっているので今後読まれる方はご認識頂いたほうが良いかと思います。

2.感想

あえて読み飛ばしても良さそうな所

同書が書かれたのは約6年前です。

当時と2024年現在を比較すると今は生成AIが分析アシスタントになってくれるので、Excelで関数を組む工数が軽減できます。

統計知識が少ないビジネスマン(≒市民データサイエンティスト)であってもChat GPT4がサポートしてくれるので、本書のExcel集計に関する詳細な段取り理解はあえてスキップしても良いのかなと思いました。

私自身は、紹介されている分析手法が何を解決してくれるのか?分析を進める際にどこに注意すべきか?(つまづきやすいか?)等のポイント把握を重要視して読みました。

生成AI時代の本書活用方法を考える

記載したような大きな環境変化がある中で、本書はマーケティング担当者が分析業務を進める上で必要になる規範(判断・評価・行為などの、拠るべき規則・規準)を提示してくれていると感じました。

分析結果を正しく評価する、第三者に説明するだけでなく、Chat GPTに最適な依頼をするために、統計的な知識や分析手法の特性理解が必要になるかと思います。

マーケターやデータアナリストは本書に書かれている知見を活用することで、より組織貢献度の高いデータ分析に取り組むことができるのではないかと思います。

3.読書メモ(学びになった点)

専門用語を理解しよう

本書を読み進める中で学んだ統計・マーケティング関連の用語を洗い出してました。

GRP(Gross Rating Point)
Gross Rating Point(グロス・レイティング・ポイント)」の略語。一定期間に放送されたテレビCMの視聴率を合計したもの。

放送したCMの結果分析や、新しくCMを放送する際にどのくらい露出させるかを決める指標としても使われている。

本書内でも回帰分析の演習用データとしてTVCMのGRPデータ(サンプル)が用意されていた。

GRPは個人全体視聴率(+タイムシフト視聴率)が使われていて、15秒CMが1単位です。つまりGRPは、調査地域において延べ何人が”そのCMが放送されたチャンネルをつけていたか”(※タイムシフト含む)を意味します。

広告の残存効果
広告は出稿したその時だけではなく、しばらくの間消費者の意識や行動に影響を及ぼすことがあり、それを残存効果という。例えば今日見た広告は翌週や翌々週も覚えていることがあるが、左記は広告の残存効果が影響している。

CPR(Cost Per Response)
CPRとは、顧客からのレスポンスを得るのためにかかったコストのことです。 商品購入以外に問い合わせなども含まれます。 CPOが実際に売りたい商品(本商品)を対象にしているのに対し、CPRはサンプル品やお試し品などの本商品購入を促すための商品も含まれます。

CPO(Cost Per Order)
CPOとは、新規顧客獲得単価のことです。つまり、新規顧客が初めて商品やサービスを購入するためにかかったコストです。コスト/受注件数で算出できます。主に通販業界で使用されるワードです。

インフォマーシャル
インフォマーシャルとは、商品やサービスに関する情報をテレビで紹介する通販CMの一種です。インフォメーション(情報)とコマーシャル(広告)という2つの言葉から作られました。主に食品や健康食品、化粧品の宣伝に多く活用されていますが、車や家電など、さまざまなジャンルにも活用されています。

引き上げ率
通販やECでは、「お試し商品」や「トライアルセット」を販売して見込み客を集めている企業も多くあります。その見込み客が、「どの程度の割合で本商品を購入しているのか?」を表すのが、引き上げ率です。

有意水準

有意水準は、検定において帰無仮説を設定したときにその帰無仮説を棄却する基準となる確率のこと。α(アルファ)で表され5%(0.05)や1%(0.01)といった値がよく使われる。有意水準は検定を行う前に設定しておく。

第1種の過誤と第2種の過誤
第一種の過誤は統計的仮説検定において、帰無仮説が真であるのにもかかわらず、帰無仮説を偽として棄却してしまう誤りのこと。生産者危険とも言う。

第二種の過誤は統計的仮説検定において、帰無仮説が偽であるのにもかかわらずそれを真として棄却しない誤りのこと。消費者危険とも言う。

統計Web上の説明はこちら

尖度(せんど) と歪度(わいど)
尖度は分布の裾の長さを測る尺度。
歪度とは、分布の非対称性を表す値のこと。

多重共線性
回帰分析を行う際に出てくる言葉。

説明変数動詞の相関が強すぎると想定結果が信用できなくなる 「多重共線性」というエラーが発生することがある。回帰分析を行う際に用いる説明変数同士の相関関係が±0.7以上になっている場合は、 多重共線性のリスクが高いので注意が必要。

ちなみに「共線性」とは、説明変数のある変数とある変数がお互いに強く相関しすぎている状態です。例えば”座高”と”身長”のような場合がイメージしやすい。

座高が高ければ身長もたいてい高くなる。この場合、”座高”と”身長”に共線性を認めている。この共線性が多変量解析で複数起きている状態を、多重共線性が生じている状態と表現します。

疑似相関
目的変数と各説明変数の相関係数はいわば「1対多」の関係で見ると実は 相性が悪かったとなるケースがある。これを「見かけ上の相関」、 または「疑似相関」と言います。

これを見抜くための手法の1つとして、偏相関係数(へんそうかん)という指標がある。 Excelの分析ツールの標準機能では分析できないが、エクセル統計(Excelベースの統計解析ツール)では偏相関係数を用いた偏相関行列を作成することができる。

期別平均法
2ヶ月、四半期、7曜日、時間などにより一定の周期変動を繰り返すデータから、期別の平均をとり、期別平均の通期平均に対する比として期別指数を計算する方法

残差
残差は、回帰分析における観測値と推定値の差。 回帰曲線を上回る観測値は正の残差値を持ち、回帰曲線を下回る観測値は負の残差値を持ちます。

自由度調整済み決定係数
説明変数の数で補正した決定係数。Excelで重回帰分析を行った際に「補正R2」と記載されている箇所が自由度調整済み決定係数。

標準誤差:分散分析表の「残差の分散」の二乗根。重回帰分析による目的変数の推定値が観測値に対してどの程度散らばっているのかを表す。

ダミー変数
カテゴリカルデータや2値型データのようなもともと数値でないデータに対して、0と1を用いて数量化した変数のこと

近似曲線
近似曲線とは、散布図で表示された「複数のデータ」の、なるべく近くを通るように引いた、直線または曲線のこと

散布図のデータ分布の傾向を明確に把握したり、データがない将来の予測を行うときに、活用できます。Excelで散布図を作成する際に、簡単に近似曲線を表示することが可能。

対数
aをr乗したものがPになる場合、このrのことを 「aを底(てい)とするPの対数」といいます。また、Pを真数(しんすう)といいます。

自然対数
対数において、ネイピア数e(=2.718281…)を底とするものを「自然対数(natural logarithm)」と呼び、一般的な記法に基づく「loge x」 だけでなく、「ln x」や(底を記載せずに)「log x」等で表現される。広告運用における増分CPA計算にて登場する。

基本統計量
データの基本的な特性を表すものです。分布全体を一つの数で表す代表値とデータのばらつきの大きさを表す散布度に大きく分けられます。

LINEST関数
LINEST 関数は Excel で用意されている関数の一つで、重回帰における既知のxの値とy の値から回帰直線を作成した場合の係数および定数を取得します。Excel上での活用方法はこちら

SLOPE関数
SLOPE関数は Excel で用意されている関数の一つで、既知の x の値と y の値から回帰直線を作成した場合の傾きを取得する。Excel上での活用方法はこちら運用型広告の簡易増額シミュレーションなどで活用する。

INTERCEPT関数
INTERCEPT関数は、既存のxの値と既存のyの値を使用して、直線がy軸と交わる座標を計算する。切片は、既知のxの値と既知のyの値を通過する最適回帰直線に基づいている。

INTERCEPT関数は、独立変数が0(ゼロ)である場合の従属変数の値を求めるときに使用される。Excel上での活用方法はこちら

Excel(エクセル)で表示される「E」について
「エクスポネンシャル(exponential)」の略であり、科学的記数法(指数表記)を意味する。数値の桁が大きい場合に利用される。

統計的な有意差を確認する際にP値に「E」が付いている時点で、
5%水準以下で、非常に強い統計的な有意性があると考えて問題ない。

ソルバー
こちらも表計算ソフトの機能の一種。複数の変数を含む数式において、目標とする値を得るための、最適な変数の値を求めることができる機能のこと。 ソルバーでは、複数の変数の値を変化させながら変数の相互関係を判断し、最適な値を算出することができる。Excel上での活用方法はこちら

回帰分析結果の見方

分析者が統計的な有意差を判断する場合は、つまるところP値を見ればよい
統計的な有意差を判断するには、P値を見ることが一般的。P値は、観察されたデータ(またはそれ以上に極端なデータ)が、帰無仮説が真である場合に偶然発生する確率を示している。

もしP値が予め設定された有意水準(たとえば5%や1%)よりも小さい場合、結果は偶然ではなく、ある効果が存在すると考えられるため、統計的に有意であると解釈できる。

予測精度の目安となる「決定係数」
モデルのあてはまりの良さを表すの値が「決定係数」回帰分析結果の重決定R2(B5)の値が決定係数に該当する。

これは目的変数の総変動のうち、モデルが説明できる変動の割合を示しており、モデルの「予測精度」の目安となる。

決定係数がどの程度の値なら予測精度が高いのかという統一的な基準は決まっていないが、それを80%以上にすることがモデル作成時の目安になる(回帰分析でMMM分析をおこなってきた著者独自の経験による判断とのこと)。

説明変数の数によって参照すべき値が変わる2種類の「決定係数」
説明変数が複数になる重回帰分析では「補正R2」を、単回帰分析の際は「重決定R2」を参照する。どちらも回帰分析だが、参照すべき「決定係数」はそれぞれ異なる。

決定係数を高める(予測精度を上げる)ためのアプローチとダミー変数
・決定係数を高める為の方法とは?
決定係数を高める(予測精度を上げる)ためには、「目的変数に影響を与える説明変数を増やす」「目的変数に影響を与えない説明変数を外す」2つの方法を繰り返す探索的なアプローチによるモデル探索が必要。

1.目的変数に影響を与える説明変数を増やす
2.目的変数に影響を与えない説明変数を外す
3.説明変数を加工する(タイムラグは効果の残存などを加味)

・ダミー変数について
MMMの実務で回帰モデルを作る際に決定係数が低い理由の大半は、目的変数に影響を与えている説明変数が足りていないケース。例えばアルコール飲料の売上本数を説明する要因は広告だけではない。夏の暑さなど、季節影響が大きいかもしれない。そういった要因を加味する方法のひとつが「ダミー変数」。

2つの効果指標に対する影響を同時加味するための最適予算分シミュレーションを行う際の留意点

データの形やバラツキをチェック
棒&線グラフの時系列でどこの相関性が高そうか目視で確認する。また箱ひげ図を使って外れ値(異常値)を捉えておく。

統計解析/統計的因果推論の落とし穴
多重共線性、系列相関(時系列のみ)、不均等分散、説明変数の外れ値、欠落変数バイアス。その他回帰分析を時系列データで行う際の「見せかけの回帰」という落とし穴もある。

本来のモデル選択手順/予測を重視するのか?あるいは説明を重視するのか?
目的の軸足をどちらに置くかによって異なる説明変数選択の視点が存在する。

主にマーケターがMMMを利用する場合は、説明、すなわちマーケティング施策の介入効果の定量化を主目的とすることが多いと考えられる。MMMのモデル選択手順は下記を参照。

【本来のモデル選択手順】
①分析の目的を(予測か説明か)定める

目的変数(売上数)の「予測」に軸足を置くか、マーケティング施策の介入効果の「説明」に軸足を置くか、どちらにするかによって説明変数選択の方針は大きく変わるので、あらかじめ決める必要があります。ここで述べる「説明」の範疇に介入効果の推定を含みます。また、後者に軸足を置く場合は、推定結果にバイアスをかけてしまう落とし穴がある為、より慎重な考察が必要になります。

②候補となる変数を洗い出しデータをとる
分析目的を定めた上で、テーマとなる商品サービス固有の事情を踏まえたマーケティング知見や考察によって行います。候補を洗い出し、整理できてから、その後で必要なデータを取り出します。

③モデリングを行う
洗い出されたP値などの指標を参照しながら変数の選択のやり直しや変数の加工によってモデルを補正しながら、より良いモデルを探究していきます。

④最終的に使用するモデルを選択する
(効果シミュレーションに用いる等)得られた複数のモデルから意思決定に用いるものを選択する際は、試計算の知見とマーケティング知見による総合的な考察によって行います。

因果関係を確認する3つのポイント
同書では因果関係か相関関係を確認するために、3つの事象を疑いことを推奨している。

1つ目は「まったくの偶然」ではないか、2つ目は「第3の変数」による偶然ではないか、3つ目は「適の因果関係」は存在していないかです。

1つ目は「まったくの偶然」です。スタジオジブリの映画が日本で放映されると、アメリカの株価が下がるといわれる「ジブリの呪い」を米軍の情報アナリストが紹介しており、「まったくの偶然」によって現れる相関関係が世の中には以外に多いと述べられています。

2つ目の「第3の変数」については、交絡因子を指す。例えば「飲酒量が増えると肺がんの発症が高まる」という説明において、本当は喫煙という第3の因子を疑う必要性がある。喫煙が双方に影響を与えている可能性が高い。このような第3の因子を交絡因子と言う。

MMM(主に時系列データ解析)と準実験または対象実験法(主にクロスセクションデータ解析)双方に必要な知識。

3つ目の「逆の因果関係」については、原因と思っていたものが実は結果で、結果で在ると思っていたものが実は原因である状態のこと。例えば、TVCMなどの広告によって増える指名検索やソーシャルメディア投稿はTVCM→検索または投稿→購買という因果の方向で考えることもできるが、購買→検索または投稿と考えることもできる。

MMM分析において小川さんが考えるモデル選択基準について

小川さんが実務で用いる説明選択基準を反映した選択例が下記です。

主な目的は内部要因となる施策の介入効果を求める「説明」です。つまりマーケティング施策の正しい介入効果を把握すること。

その場合、内部要因(「広告&PR」、「販促」)の係数推定結果にバイアスをかけてしまう中間変数は使わない。

外部要因のうち「競合」に関しても1単位増加あたりの介入効果の推定に興味があり説明重視の視点で変数に入れているとの事。

ちなみに外部要因の「消費者のニーズ」を変数を全て洗い出し、それら関連性について完全に把握することは不可能とのこと。

以上です。引き続き勉強を続けます。

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?