見出し画像

統計学が最強の学問である⑤:"おむつとビール"のバスケット分析よりも優れた手法とは?

読書ノート(140日目)
さて今日も前回に続いて
こちらの本からです。

・「IQ」を生み出した心理統計学
・心理統計家であるスピアマンは先行研究で示されていた
 種々の知能の測定方法をいくつか選び、研究参加者に対して試してみた
・そしてそれぞれの「知能を表すはずの指標」の間の相関を分析した
・結果として、現在では「因子分析」と呼ばれる手法により、
 全く別々に考案された知能に関わる指標すべてと
 相関する合成変数が作り出せた
・この合成変数だけが分かれば、ほとんどの知能に関連した
 テストの成績が予測できるとし、この指標のことを「一般知能」と呼んだ
・スピアマンの「一般知能」の構成要素
 反応速度、記憶力、言語能力、計算能力

・その後1938年にサーストンによって、知性を示す7つの因子が抽出
 ①空間や立体を知覚する空間的知能
 ②計算能力についての数的知能
 ③言葉や文章の意味を理解する言語的知能
 ④判断や反応の速さに繋がる知覚的知能
 ⑤論理的推論を行う推理的知能
 ⑥言葉を早く柔軟に使う流暢性知能
 ⑦暗記力を示す記憶知能
・その後のさまざまな分析によると、
 一般知能がだいたい全得点の30%~60%ほどの影響力を持つとされている

・マーケティングの現場で生まれたデータマイニング
・「おむつとビール」でのバスケット分析
・バスケット分析は、1993年にIBMの技術者ラケシュ・アグラワルが
 英国の百貨店マークス&スペンサーのために作った手法
(※以下は筆者作成の仮の数値データ)
・1000人の顧客データのうち、ビールを購入した人は300人で30%
 1000人のうち、おむつを買った人が50人で、
 おむつとビールを買った人は20人で40%だった。
 つまり、おむつを買った人の方がビールを買う確率は約1.3倍も高い
・この1.3倍の数値を「改善度(リフト値)」と呼ぶ
・ただし、このバスケット分析は
 「あまりに数の少ない組み合わせ」では結果が大きく異なる場合がある
・仮におむつを買った人が全体のうち50人ではなく5人しかおらず、
 そのうち2人がおむつとビールを一緒に買った場合も
 計算上は改善度は約1.3倍となるが、もしも、
 その2人のうちどちらか1人が、おむつとビールを買わなかっただけで、
 改善度は0.67倍となり、約1.3倍の改善どころか改悪という結果になる。
・Googleの共同設立者のサーゲイ・ブリンは学生時代に
 「バスケット分析より統計学的な相関分析の方がいい」という論文を発表
・このようなクロス集計表の相関を分析するときは、
 カイ二乗検定のもととなるカイ二乗値を用いると、
 「推定値の誤差」を考慮できるため、
 統計的に有意な関連性の強い商品の組合せを探すことができる
・Amazonの商品レコメンドでも、こうした相関分析が行われている

IQの話と「おむつとビール」の話は
本書の中でも身近に感じたので
今回はピックアップしてみました。

IQって単語はよく耳にしますが、
どうやって測るのだろう…と思い
検査方法を調べてみたら
以下のサイトを見つけました。

ふむふむ…
サーストンが1938年に提唱した
7つの知能因子そのままではなく、
4つの因子から測定するということで、
さらに研究が進んでいたりアレンジが
されているのかもしれないですね。

また、「おむつとビール」の
バスケット分析は
私自身もMBAの授業で聞いたことがあり、
マーケティング学習者の多くの方々は
既にご存知かもしれません。
ただ、1993年のIBMの技術者の分析手法を
Google共同設立者のサーゲイ・ブリンが
「もっと良い分析手法」があるとして、
学生時代に論文を出していたとは知らず…
もう…「学生時代から凄すぎる!」
としか言えないです!(語彙力…😂)

余談ですが…カイ二乗検定というのは、
「割合の差が有意かどうかを検定」する手法で
この割合の差は、たまたまの偶然で計算された
数値である可能性がどれくらいあるのか?
を表すp値(ピーチ🍑)を算出できるので、
その点でバスケット分析よりも優れている
ということだと理解しました。

今回の例だと、おむつとビールを
①50人のうち、20人の40%が購入した割合と
②5人のうち、2人の40%が購入した割合で
改善度は同じでも、p値は全然違うはずで
仮に②のp値が5%を越えている場合は
この改善度のスコアは、たまたま偶然の
可能性が高いので参考値にしかならない。
(この結果をもって、おむつ売場の近くに
 ビールを陳列しよう!と決めるのは早計)
…という点まで統計的に判定可能ということです。

また、本書での最終章は
「巨人の肩に立つ」ということで
代表的な論文データベースのWEBサイトが
紹介されておりましたので、
ご参考まで(&自分の備忘メモのため)に、
リンク先を下にまとめてみました。

2024年はこれらの論文を自分で検索し
先行研究を参考にしながら
より一層、データ分析のスキルアップを
目指していこうと思います!😉

…ということで、今日はこの辺で!
読書ノートとしての2023年分の投稿は
140日目と、ちょうどキリも良いですし
今回を最終回とします。

ここまで読んでくださった皆さん、
今年も読書ノートにお付き合いくださり、
本当にありがとうございました!😊✨

明日か明後日に、
2023年の1年間の読書記録を
総括&整理した投稿をする予定です。

そして2024年1月からは引き続き、
「統計学が最強~」の続編シリーズ本を
紹介していこうと思います。

それでは皆さんも
良いお年をお迎えください~!🎍✨

(ご参考&備忘メモ用)
・代表的な論文データベース(英語版)
 教育学:ERIC
 心理学:PsycINFO
 経済学:Econlit
 医学:Pubmed
 綜合:JSTOR

・日本語版
 国立情報学研究所:cinii
 科学技術振興機構:J-STAGE


いいなと思ったら応援しよう!