【読書メモ】西内啓『統計学が最強の学問である』16
読んだ本
読書マインドマップ
読書メモ
第6章 統計家たちの仁義なき戦い
データマイニングの技術は、ITの進歩によって生み出された
データマイニングと統計学の考え方や手法の共通点と相違点は何か?
バスケット分析:スーパーマーケットの会計の集計
おむつとビール
→おむつを買っている人が、おむつと同時に買っている可能性がいちばん高いのがビール
→おむつを買っている人にビールを勧めれば売上は伸びるのではないか?信頼度(Confidence):ある商品を買っている人が別の商品を買っている割合
改善度(Lift)
→全顧客中のビール購買率と比べて、おむつ購入者に限定したビールの購買率は何倍になっているか、が改善度にあたる(1以上であれば、何らかの改善が見られる)支度度(Support):あまりに数の少ない組み合わせは考えない
バスケット分析よりもカイ二乗検定を
統計学を知っていれば、もっとよいやり方がある
→集計表の相関を分析するときは、カイ二乗値を用いる
→カイ二乗値の大きい組み合わせを選ぶことと相関係数の絶対値が大きいものを選ぶことは、まったく同じ意味をもっている
感想
『統計学が最強の学問である』の図表40(p.231)のクロス集計表を見て、まっさきに思いついたのが、カイ二乗値による独立性の検定です。バスケット分析でやっている分析は、ほぼ一緒のことだと思います。(独立性の検定では、おむつ購入とビール購入にそもそも関連があるのか、から始めます)
確かにバスケット分析で算出する指標よりも、カイ二乗値を出してしまったほうが、シンプルで理解しやすいと思います。
いいなと思ったら応援しよう!
最後まで読んでくださった方ありがとうございます。よろしければサポートいただけますと幸いです。本を買い、noteを書き続け、読書文化の輪を広げるために使います。