統計_データ分析stock-1863880_1280

統計学をビジネス現場でうまく使うヒント(初級編)

2019.3.3 sun
ピースオブケイクさん主催のnoteワークショップイベントに参加してきました。

講師は統計学で有名な西内啓さん。
著書の「統計学が最強の学問である」をご存知の方も多いのではないでしょうか。

この本は私に統計入門のきっかけを作ってくれた本でもあったので、西内さんの名前を見てすかさずイベント応募。

イベントは、ビジネス現場における統計分析の必要性と、サンプルデータでの実践と座学×ワークのバランスがいい内容でした。
冒頭、統計学入門の話でよく聞く「平均値で判断することの問題点」から駆け足で始まり、午前中はワークを中心に過去歴史上の統計学的エピソードも交えられ、とても楽しくワクワクした気持ちで、研修を進めることができました。
そんな気持ちで午後からの内容も楽しみにランチを取りましたが、お昼休憩をはさむと、空気がガラリと変わり進行スピードと難易度が急激にアップ…汗。
ついていくのがやっと・・・いや、実際には置いて行かれるところもあり、ランチを食べて糖分を持っていかれた脳をなんとかフル回転させて必死の思いで、研修を乗り切りました。

文系卒の私でもこれならビジネス現場でも統計分析が使えそうと思えたヒントがいくつかあったので、当日学んだ検定手法・分析モデルや、ワークで使用したExcel関数など簡易に紹介します(専門用語などは極力使わずに説明していますがわかりづらかったらごめんなさい)。

学んだこと

全体像をお伝えすると、ビジネスの現場で普段目にするデータを、目的変数(ビジネス上の成果、アウトカムとか結果変数とか外的基準とか呼び名は様々)と説明変数(目的変数を実現する原因となる変数)に整理しながら次の検定・分析モデルを使って統計分析を行っていくことで、各検定手法がどういう目的で使われているのか、どういった分析結果が出るのかを体系的に理解することができました。

①t検定
2つの母集団から抽出されたサンプルデータの平均に差があるかどうかを検定する。
ワークでは「男女それぞれの購入金額平均値の差(ex女性のほうが男性よりも購入金額が高いのか)」を検定。

■使用した関数
TTEST(データの集合①, データの集合②, 検定の指定, 検定の種類)
⇒TTEST関数の結果が0.05よりも小さければ何らかの因果があってその差が生じていると言える。

②カイ2乗検定
確率の偏りによって偶然得られた結果なのか、それとも意味のある統計結果なのかを検定する
ワークでは「男女それぞれの継続or解約数から統計的な意味があるか」を検定。

■使用した関数
CHITEST(実測値のデータ範囲, 期待値のデータ範囲)
⇒CHITESTの結果が0.05よりも小さければ、実測結果に何らかの因果があると判断できる。

③単回帰分析
定量的な1つの目的変数1つの説明変数で予測する分析モデル
ワークでは、「年齢ごとの購買金額リストを元に年齢から考えられる想定売上」を予測

■使用した関数
INTERCEPT(目的変数のデータ範囲, 説明変数のデータ範囲)
⇒最適な切片(X軸が起点時のY軸の値)を返します。
SLOPE((目的変数のデータ範囲, 説明変数のデータ範囲)
⇒最適な傾き(X軸が増えるにあたってのY軸の増減直線の傾き具合)

とある説明変数(X)を満たせば目的変数(Y)がどうなるかを、以下の計算式で求めることができる。
Y = SLOPEの結果 × 説明変数 + INTERCEPTの結果

※なお、Excelであれば散布図の近似曲線を作れば簡単に上記数式を導き出すことができます。

④重回帰分析
定量的な1つの目的変数2つ以上の説明変数で予測する分析モデル

■使用したツール
データ分析 > 回帰分析ツール

⑤ロジスティック回帰分析
定性的な1つの目的変数2つ以上の説明変数で予測する分析モデル
※ロジスティック回帰分析についてはセミナー時間の関係上ワーク無でした。

学んだ内容をマトリクスで整理するとこんな感じ
図:サンプルデータのパターンと、適切な統計分析モデルの関係

目的変数と説明変数に合わせて、どういう統計分析モデルを使えばいいかをわかりやすくまとめてくれた点が今回のセミナーでの最大の学びでした。さまざまなシチュエーションに合わせて、どういう統計手法を使えばいいかが整理されているので、ビジネス現場での統計分析実践の役に立つと思います。

結論

これだけでもワークショップに参加する意味はありましたが、最後の最後で目からウロコの内容が。
ワークでは実際にいくつかの検定モデル・分析モデルを実際に使ってみましたが、説明変数に少し手を加えれば、たった2つの統計分析モデルで基本的な統計分析であれば対応できるようです。
(もちろん高度な分析になるとこの限りではありませんが!)

図:結論2つのモデルがわかれば大抵の統計分析はできる

詳細は講座内容は無断掲載になってしまうので、割愛させていただきますが、実際の業務環境に置き換えて実践を繰り返すことでさらに理解は深まっていくと思うので、いろいろと分析してみて面白い分析ができれば改めて記事掲載していきます。


勉強会参加後に下記参考サイトを読むことでさらに理解できたので、参考までに紹介します。


この記事が気に入ったらサポートをしてみませんか?