
【推薦図書】はじめての統計学(サトウマイ)
はじめに
日常生活の出来事を統計学や行動経済学、情報理論などの学問と結び付けて考察していく本です。
とても良い本なので推薦したいです。
レジの行列が早く進むのはどちらか――。
心つかまれるタイトルです。
この本は数学や統計学の知識がない人でもわかりやすいように書かれている、万人向けの推薦図書です。
下記の本もテーマは似ているのですが、数学や統計学の方に寄せて書かれています。どちらかといえば理系の方向け。
特に印象的な部分を整理しておきます。
人間は科学的ではない
本の表紙は、レジ待ち行列のイラストです。
「待ち時間が最短となるレジはどれか」という問題です。
特別な事情が無ければ、ほとんどの人は、待ち時間が最短になるであろうレジ待ち行列の最後尾に並びます。

でも、それって、どんな列か説明できますか?
――3人並んでいるレジより2人並んでいるレジの方が速い
――セルフレジの方が速い
――レジ担当者が若いと速い
・・・・・・
・・・・・・
直感、感覚、経験論など、特に根拠が無くても、人間は論理的ではない選択をすると本書では指摘しています。
人間は本能的に、科学的ではない生き物なのです。
例えば、セルフレジ。
有人のレジでただ待たされるよりも、有人レジより時間が掛かるとしても、自分の手を動かして会計できるセルフレジの方が速いと感じると本書では指摘しています。

レジの待ち時間×待ち行列理論
「どのくらい待つか」を真面目に考えようとした場合、平均的な待ち時間を算出するということになります。
これは「待ち行列理論」で説明することができますので、レジの待ち時間問題を待ち行列理論で考えるというのが本書のテーマです。
待ち行列理論自体は、情報や統計の世界でよく使われるのですが、どうしても難しい内容になりがちなところを、この本ではわかりやすく解説しています。
以下のオブラブ様のサイト(サルでもわかる待ち行列)もわかりやすく、病院の待ち時間を待ち行列理論で説明しています。
細かい計算は本書を参考していただくとして、レジの稼働率と、レジの平均待ち人数から「回転率」を出せば、待ち時間は推定できます。
結論のみ紹介します。
・レジの待ち時間は、レジの処理能力(通過時間)が強く影響します。
・レジの処理能力(通過時間)を2倍にすると、レジの待ち時間は1/2倍以下になります。
大数の法則
タイトルが「レジの行列」であるもう一つの意味は、日常生活でよくある出来事ほど、統計や確率で考える意義が高いということです。
一生に一度しか経験できないようなものに、確率や統計を当てはめる意味はほとんどありません(大数の法則)。
コインを投げて裏か表かを当てるゲームがあります(コインフリップ)
確率は50%ですが――このゲームが1回しかチャレンジできないなら、確率はど~でもいいのです。
結果は0%か100%しかありません。
👇標準偏差、正規分布を簡単に解説している本👇
統計や確率で物事を考える時は、何回チャレンジできるか(試行回数)が重要です(大数の法則)。
コインフリップの確率が50%となるのは、1000回くらいコインフリップをした時です(確率の収束)
人生で何分レジ待ちするか
人生の中で、何時間をレジの待ち時間に消費するか考えてみたことがありますか?
(一昔前の)私自身をモデルにして考えてみたいと思います……
・2日に1回買い物する30歳
・健康寿命の平均75歳くらいまで買い物を続ける
・いつも3分間のレジ待ち
180日×3分×45年 ≒ 400時間 ≒ 17日
17日間!(゚Д゚;)
生産性のないレジ待ちに、人生を17日間も費やしています!(゚Д゚;)
とはいえ、レジで待つのは仕方ないことです。庶民なので。
でも、もしも、です。
レジ待ち時間を3分から1分に短縮できれば、人生12日くらい得します。
180日×1分×45年 ≒ 135時間 ≒ 5.5日
本書の表紙裏には、以下のように書かれています。
統計学は人生哲学であり、有限な時間を賢く生きるための知恵です。
AIとじゃんけん勝負
本書の中で、桜美林大学、芳沢光雄教授の研究結果が紹介されています。
簡単にご紹介すると、
グーチョキパーを出す確率はそれぞれ33%ですが、あいこの直後に同じ手を出す確率は25%になる、というものです。
グーであいこなら、相手はチョキかパーを75%の確率で出します。
⇒チョキを出すと勝率が上がる
このように、確率が誤差の範囲ではなく、統計的に意味のある値になることを有意差と表現します。
問題は、この25%(あいこになれば違う手を出す確率が75%)が有意差か、誤差の範囲内かという判断です。
【考察】「あいこで75%」は有意差か誤差の範囲内か

結論としては有意差だと思います。
この有意差のすごさを、以下のギャンブルで体感してみます。
・私とあなたの2人でじゃんけん勝負
・じゃんけんは何回も繰り返す
・じゃんけんの敗者は勝者に1,000円渡す。
・あいこの場合、勝者と敗者が決まるまで繰り返す。
グー・チョキ―・パーの出る確率は33%です。
33%の確率で2倍になり、33%の確率で1倍になり、33%の確率で0倍になります。
次に期待値を求めてみます。
期待値は、確率×その時に得る額で求められます。
$$ 2,000円×\frac{1}{3} + 1,000円×\frac{1}{3}+0円=999.99円 $$
勝利時の期待値:666円
あいこの期待値:333円
敗退時の期待値:0円
事前情報がなければ、期待値100%。
じゃんけんは公平です。
ここからが本題です。
この状況で、あなただけがあいこ75%現象を知るとします。
(私は何も知りません)
勝ちの期待値は666円、負けの期待値は0円で変わりません。
グーであいこの場合、あなたはチョキを出すことが最適な戦略です。
私は3/8の確率でパーを出してあなたの勝ち
私は3/8の確率でチョキを出してあなたの勝ち
私は1/4の確率でグーを出してあなたの負け
$$ 333円×\frac{3}{8}×2+333円×\frac{3}{8}×1 $$
$$ 333円×\frac{3}{8}×3 = 374.625円 $$
■ 374.625円(最適戦略時の期待値)
■ 333円(あいこ75%現象を両者共に知らない時の期待値)
差額:41.625円
あいこ75%現象により、あなたは40円相当を儲けることができます。
ここで40円は、掛け金の約4%になります。
掛け金を4%で増やせるギャンブル(投資)になるんです。
利回り4%!
4%が大きいのか小さいのかわかりませんか?
ほとんどの銀行預金は、利回り1%前後です。
【考察】ギャンブルの大前提はプロスペクト理論
行動分析学で有名なプロスペクト理論というものがあります。
ポイントは2つ。
価値は自己資本に対して相対的になる
人間は1万円を得る喜びより、1万円失う悲しみの方が大きい
上記のじゃんけんギャンブルも書き方や金額を変えると、例え有意差のあるギャンブル(投資)だとしても、敬遠するプレーヤーが出現します。
・私とあなたの2人でじゃんけん勝負
・じゃんけんを5回繰り返す
・じゃんけんで負けたとき、あなたは何ももらえない。
・じゃんけんで勝つとき、あなたは1回あたり200万円貰える。
・あなたがこの勝負を辞退すれば、無条件で500万円が貰える。
期待値的にはじゃんけん(ギャンブル)すべきですが、何割かの人は500万円をもらい辞退するでしょう。
「1円は1円」なのですが、1円の価値は総資産に対して相対的なのです。
このギャンブルの条件にある200万円を2千円、500万円→5千円にするだけで、ギャンブルする人は増えます。
直感に訴えかけるマーケティング(広告)
本書の中では、有能な社員は「わかりやすく」「的確に」「データ・エビデンスに基づいて」仕事をするそうですが、マーケティングの世界では必ずしもそれが正解とは限らないと紹介されています。
直感に訴えかける、あえて「わかりにくくする」表現があります。
【考察】射幸心を煽るキャンペーン
A社とB社が期間限定のキャンペーンを始めました。
どちらのキャンペーンがお得だと思いますか?
A社:全額返金キャンペーン実施中

B社:キャッシュバック・キャンペーン実施中

A社のモデルは、何とかペイの広告です。
B社のモデルは、私の家の近所のスーパーの広告です。
企業側の立場からすると、たくさんのユーザーが参加する大数の法則が働く条件下では、A社の広告でも、B社の広告でも、出費は等しく2.5%になります。
では、両者の違いは何か――。
目的です。
A社は、新規顧客を獲得したい。
B社は、既存顧客へ還元したい。
どちらも同じような広告ですが、大衆的にはA社の広告の方が魅力的だと感じるのです。
ギャンブル依存症の説明で有名なスキナー箱というのがあります。
パチンコやパチスロと同じで、独立試行(毎回抽選)に人間は魅力を感じるのです。
錯誤相関に注意
AとBに関係はないのに、まるで関係があるかのように感じてしまう。
錯誤相関といいます。
錯誤相関は日常に溢れていて、広告や詐欺にも使われています。
認知バイアスともいいます。思い込みは原動力になります。
人間はウソをつきますが、数字はウソをつきません。
騙されないためには、「因果関係」と「相関」を切り分けて、隠された第3の変数を探すことが大切なのです。
「この売場から高額当選者がいっぱい出ました!」

――この売場で宝くじを買うと当たりやすいのかな?
そんなことを思わせるための広告ですが、
宝くじの当選確率は全国どこで購入しても同じです。
「高額当選者が多い」から「当たりやすい窓口」という錯誤相関に騙されているのです。
――隠された第3の変数は何か。
「宝くじの購入者数」です。
①宝くじを購入する人が増える
②高額当選者が出る確率が上がる
③「高額当選者が出ました!」と広告する
④この売場で買えば自分にもチャンスがある――と錯誤相関させる
⑤①に戻る
騙されないで。

そもそも宝くじは「全国自治宝くじ」であり、総務省のHPでも地方財政制度の一つとして紹介されています。宝くじの収益用途は公共事業や少子化対策等に使われています。
宝くじは税金、それも住民税みたいなものです。
宝くじの購入場所で当選確率が変わるなんてことが起きれば大事件です。
ゆるふわ統計(ベイズ推定)
――ベイズ推定は、統計的推定方法の一つであり、簡単に言うと確率分布と尤度から事後確率分布を求めることである――
これでは、ちょっと敷居が高い説明……
間違いではないけど、理解してもらえるか微妙です。
この著者は実に上手な表現をするな、と私が特に感じたのは、このベイズ推定でした。
ベイズ推定は、ゆるふわな統計です。
データを集める時代からデータを学習する時代へ
一昔前まで、データ解析系の世界は、膨大なデータセット(サンプル)を入手し、データを解析してモデルを作成し、モデルを用いて何かするというのが一般的でした。
Googleの画像検索で「りんご」と調べてみます。

こういう画像認識システムを昔に作ろうと思えば、以下の手順でプログラムを書いていました。
「りんご」の画像をたくさん集めて「A1,A2,A3…,An」と名前を付ける
「りんご」以外の画像をたくさん集めて「B1,B2,B3…,Bn」と名前を付ける
A1~Anを「りんご」の正解画像として登録する
B1~Bnを「りんご」の不正解画像として登録する
「りんご」画像とその他画像が混在したテスト用データセット「C1,C2,C3…,Cn」をたくさん集める
テストしたCのデータ群をAのデータ群またはBのデータ群に振り分けて精度アップする
5と6のステップを繰り返す
一定の精度が確保されたらシステムとして使用開始
もっと簡単に書くと……
①りんごの写真をたくさん集める。
②正解と不正解に分ける。
③何回も何回も繰り返し機械にやらせると、ある程度特徴をつかんで、「りんご」を判断できるようになる。
④機械の精度を上げる場合は、もっと写真を用意して、事例をたくさん用意する。
この方法における最大の問題点は、
データを用意できないと何もできないし、データを正解と不正解に分けられないと進まないし、機械に覚えさせる時間が掛かるからシステム使用開始までに時間がかかるということです。
そこで「ゆるふわなベイズ推定」の登場です。
ベイズ推定では、とりあえず仮設をたてて、その都度直していくのです。
①とりあえず「りんごを判断できる」機械を作る
②「丸くて赤っぽい」画像はりんごということにする(とりあえず)
③テストしたら「丸くて青い」のもりんごと判明した
④次からは「丸くて青い」のもりんごとする(修正)
トライ&エラーみたいな考え方です。
え、そんなテキトーで良いの?! って思いましたか?
アマゾンの広告、ウェブページの商品おススメ機能、メールふりわけ機能、予測変換…
⇒ 全部ベイズ推定ですよ。
「あなたにおすすめの~~」ってやつは、ほとんどベイズ推定ですよ。
使えば使うほど、使いやすくなってませんか?
使えば使うほど、興味ある商品が広告に出てきませんか?
著者のベイズ推定については、以下のnoteでかなり詳しく説明されています。
簡単な本だと👇のあたりがおすすめです。
おわりに
とにかく簡潔でわかりやすく、極力数字を省いて日本語で説明してくれる本なので、とくに数字が苦手な人ほど推奨したい本でした。