見出し画像

売上高の平均比較をするコンサルが何故クビになるか

データ分析は必須スキル

経営コンサルと言うと、かなり幅広に色々な仕事があるのですが、私は主に管理会計導入データ分析(もしくは分析できる状態までの整理)や、DX支援を得意としています。

管理会計の必要性は徐々に浸透してきていますが、中小企業の場合は、まずこのデータ化作業やDX導入で躓くケースが多々あるため、非常に需要の多い項目となっております。

そして管理会計を十全に生かすには、データ分析スキルが必須です

にも関わらず、このデータ化支援、DX化支援、AIやRPAの導入を税理士も金融機関も、ましてやコンサルタントも支援してくれないんですよね。(ITパスポートとか流行ってるのになんででしょうね?)

そこで、何回かに渡って、データ分析の基本を解説してみたいと思います。

例に漏れずマニアックな内容となっていますので、興味のある方だけご覧ください。

何故データ分析が必要か

今回は、以下のような店舗Aと店舗Bの売上推移表を用意しました。

サンプル

パッと見では単に店舗Aの平均売上高が優れていることがわかります。
果たして、この店舗Aと店舗Bの平均値の違いに有意差はあるのでしょうか?

有意差とは?
有意差とは平均の差が偶然ではなく、特定の要因や条件の違いによって発生したものかどうか。具体的には有意水準(基本的には5%)に入らないか、(P値<0.05)かどうか。(詳細後述)

もしも、顧客からこういった売上の表を見せられて「店舗Aの方が店舗Bよりも12ヵ月平均で見ると売上がいいので、店舗Aが良い店舗です!」と言う発言をするコンサルは、あっさりクビにされます。

今回はt検定

今回は連続したデータを比較するために用いるt検定について解説してみたいと思います。

t検定のステップ

  1. 前提条件を確認する

    • 連続データかどうか(店舗別売上や、クラス別身長など)

    • 正規分布に近いかどうか

    • 2つのグループの分散が等しいかどうか(F検定)

  2. 仮説設定をする

    • 帰無仮説$${(H_0)}$$:2つのグループの平均値に有意差は無い

    • 対立仮説$${(H_1)}$$:2つのグループの平均値に有意差がある

  3. t検定の種類を選ぶ

    • 対応のあるt検定(ペアt検定)

      • 同一グループの2つの状態を比較(宣伝広告の前後など)

    • 対応の無いt検定(独立したt検定)

      • 2つの独立したグループを比較(店舗別など)

    • サンプルt検定

      • サンプルと既知の母集団を比較(店舗Aと全国平均など)

1.前提条件を確認する

t検定のよう統計的調査をする際には、事前の準備が重要です。
今回は2グループの分析なので準備も簡単ですが、調査範囲が広く複雑になるほど、事前準備が難しくなり、この段階で誤ると分析結果も誤ったものが出力されるので慎重に準備しましょう。

連続するデータかどうか

前提条件の1番目にあった「連続するデータかどうか」は問題ありません。どう見ても、12ヵ月の連続するデータです。

正規分布かどうか

正規分布とは、以下の表のような平均値(中央値)が盛り上がるような形の分布図です。先ほどの有意差5%とは、正規分布図の両端2.5%を指します

正規分布図のサンプル

こういったデータが正規分布かどうか確認するには色々な手法がありますが、個人的に一番簡単なのはヒストグラムを作成し目視で確認する方法です。

Excelをお持ちの方は、以下の手順をお試しください。

最後の正規分布の確率を求めたテーブルをもとに、折れ線グラフを作成したものが以下のチャートです。

店舗A、店舗B共に中央が盛り上がっているので正規分布であると言えます。

2つのグループの分散が等しいか(F検定)

F検定とは、分散が等しいかどうかを調べるための手法です。

分散が等しいと、これから調べるF値からP値を求め、そのP値が、$${P>0.05}$$(有意水準にある)状態のことを指します。

と、これだけ書いても意味が分からないので計算してみます。

まずは分散を計算します。Excelをお持ちの方は、VAR.P関数を使い、=VAR.P(12ヵ月分のデータ)で一瞬で算出されます。
(もしも、月別データではなく365日分の一部分だけを標本(サンプル)として使用する場合は、VAR.S関数を使用して下さい)

すると、店舗Aの分散(ばらつき)が10,060と算出されました。また、店舗Bの分散が12,175と算出されました。

$${F値=\frac{大きい分散}{小さい分散}=\frac{12,175}{10,060}=1.21023…}$$

P値の計算は複雑過ぎるので、これもExcel関数を使用します。
$${P値=F.DIST.RT(\text{F値},\text{店舗Aの自由度},\text{店舗Bの自由度})}$$ですので、(ちなみに、$${自由度=母数-1=12ヵ月-1=11}$$)
$${P=F.DIST.RT(1.121023,11,11)=0.378}$$

$${P値=0.378>0.05}$$ですので、この店舗Aと店舗Bの分散は等しいと言えます。

ちなみに、F検定はExcelのデータ分析ツールで簡単に計算できます。

データ分析の使い方
データ分析→F検定

これを実行すると以下のような結果が出力されます。
P値が0.378で同じ結果が出力されていることがわかります。

F検定の結果出力

2.仮説設定をする

前提条件がクリアできましたので、いよいよt検定に移っていくのですが、その前に「仮説設定」を行います。

  • 有意水準αを設定する:基本は0.05(5%)ですが、厳しく算出する場合は0.01(1%)を使用することもあります。

  • 帰無仮説$${(H_0)}$$:2つのグループの平均値に有意差が無いと仮定。つまり、P>αの場合平均値に有意差が無いと言える。

  • 対立仮説$${(H_1)}$$:2つのグループの平均値に有意差が無いと仮定。つまり、P<αの場合平均値に有意差があると言える。

  • ※なお、この時のP値はF検定の時のP値とは違うものなので留意すること。

3.t検定の種類を選ぶ

前述した通り、t検定は主に2種類+1あります。(基本的には対応がある対応が無いかで判断します)

対応があるt検定とは、同じデータの状態(変化)を調べるために使います。例えば、今回の店舗Aで何かしらのキャンペーンを実施する前後などで使います。
対応が無いt検定とは、今回のような店舗Aと店舗Bのような、独立したそれぞれのデータを検証する際に使用します。

対応の無いt検定

今回は対応の無いt検定ですので、F検定の時と同様にExcelのデータ分析で「対応があるt検定」を使えばすぐに結果が出ます。

データ分析ツールで「t検定: 等分散を仮定した2標本によるt検定」を選びます。(もう一つ下の、分散が等しくないと仮定したケースは前提条件でと分散が等しいと出ているため選びません)

データ分析→t検定: 等分散を仮定した2標本によるt検定

すると、以下のような結果が出力されます。

データ分析で出力されたt検定の結果

この場合、P値>0.05を超えているため、帰無仮説(店舗Aの売上平均と店舗Bの売上平均に差は無い)を棄却できない、つまり売上平均に統計的な差は無い。と言う結論になりました。(回りくどいですね)

売上平均だけを見ると、店舗Aの方が売上高が高いですが、95%の確率で偶然の範囲だということですね。

コンサルの立場として、店舗Aと店舗Bの売上結果に大きな差異が無いが、実際には店舗の立地状況や顧客層、商品の売れ行きなどの違いがあるにも関わらず、何故差が出ないのか、まで分析しなければなりません

ここまで説明することなく、前述の通り「店舗Aの方が店舗Bよりも12ヵ月平均で見ると売上がいいので、店舗Aが良い店舗です!」というコンサルタントはやはり早々にクビになるでしょう。

まとめ

今回は、対応の無いt検定を実行してみました。
次回は、全く同じデータを使って対応のあるt検定をしてみたいと思います。
さて、どんな結果になるでしょうか?

もしよろしければ、もう少しマニアックではない事業計画書の書き方を書籍にしておりますので、ご興味のある方は是非ご一読下さい。



いいなと思ったら応援しよう!