週報 2023-05-07
トピック
ビジネスウォーズが復活していた
業界における企業同士の争いを描くドキュメンタリーPodcast。過去には「任天堂対ソニー」「ナイキ対アディダス」「TikTok対Instagram」などがあり、数年ぶりに新シーズンが知らぬ間に始まっていた。
そもそも取り上げられる企業が興味を引くものばかりで、内容もプロのナレーターと構成によるものなのでとても聞きやすい。
(残念ながら、過去作は全て消されているみたい。)
Podcastはいつ聞くべきなのか
Podcastはいつ聞くべきか個人的に少し悩みどころである。もちろん何かしらのながら聞きしているわけだが、そんな耳まで忙しなく働かせていいものだろうか。ながら聞きしていると言いつつも作業的なことは同時に自分はできない。考え事をするのも何か聞きながらでは無理である。そこで次のような分け方が個人的な最適解に思えた。
Podcast: 家事の時間
Voicy(主にニュース): 朝の準備の時間と通勤の時間
考え事: 散歩の時間
ピックアップ記事
認証方式「パスキー」をグーグルが本格導入、“パスワードのない世界”が現実味を帯びてきた
パスワードは人類には早すぎたんですよね。
読んだ本
分析者のためのデータ解釈学入門 データの本質をとらえる技術
データを使って高度な分析をしてやろうと息巻く前に、そもそも適切にデータを扱うための本。特にデータ分析初心者の場合だと、データと扱いに関してはつい蔑ろにされてしまいがちだと思う。しかし、この部分を気をつけておかなければ、どんな分析をしようがあまり意味がない。なぜなら、分析に使うデータそのものに不備があったり、分析結果の解釈を誤ったりすることで容易に間違った結論を導くことになるからだ。
本書ではデータを取り扱う際に、気をつけなければならないポイントがたくさん書いてある。それら一つ一つの内容は個人的には一度は聞いたことがある内容で、そこまでの驚きは少ない。
しかし、一読して振り返ってみるとめちゃくちゃあるのだ。データ分析には罠がありすぎて、自分にできるのだろうか、もはや分析するのが怖いとすら感じてしまった。
それでも無自覚に間違った結論をばら撒かないように気をつけながら自身は研鑽するしかない。
経験を積んだ後に「あれ?あの時のあのデータ分析だめじゃね?」となることが目に見えてしまいそうだが、再読したい本。
統計学
基礎から学ぶ統計学 6章
この章では数が限られた観測値から、「母平均$${μ}$$はこの範囲にありそうだ」という推論を行う。推論を行うためには、4章5章の内容に加えて、Gossetが発明した$${t}$$分布を用いる。
まず初めに流れを理解するため、母標準偏差$${σ}$$が既知の場合を考える。もちろん、$${σ}$$がわかっている状況は現実には考えづらい。$${σ}$$がわかっていて母平均$${μ}$$がわからない状況はもっと考えづらい。あくまで推論の流れを理解するためのステップである。
観測値$${x}$$が正規分布に従う母集団から得られたなら、標本平均$${\bar{x}}$$も正規分布に従う
標本平均$${\bar{x}}$$に対して標準化( $${z = \frac{\bar{x} - μ}{σ}}$$ )を行う
標準正規分布表から臨界値である$${z_{0.05}}$$を調べる
$${z}$$は95%の確率で$${-z_{0.05}}$$から$${+z_{0.05}}$$の範囲にある
得られた不等式と母平均$${μ}$$以外の数字はわかっているので、$${μ}$$の95%信頼区間がわかる
母標準偏差$${σ}$$が未知の場合でも大まかな流れは同じである。$${σ}$$の代わりに標本標準偏差$${s}$$を使う。ただし、試しに$${s}$$を使って標準化を試みても、得られた$${z}$$は標準正規分布には従わない。なぜなら$${s}$$の値は観測値によって変化し、$${σ}$$と一致することはないからだ。
そこで$${σ}$$を使った標準化ができない代わりに、$${s}$$を使った標準化であるStudent化を行う。Student化によって得られた$${t (= \frac{\bar{x} - μ}{\frac{s}{\sqrt{n}}})}$$は$${t}$$分布に従い、自由度に( $${df = n- 1}$$ )よってその形状は決まる。 (イメージとしては標本サイズ$${n}$$が大きいほど$${s}$$は$${σ}$$に近づくことで、標準正規分布に似てくる。一方で、標本サイズ$${n}$$が小さいほど$${s}$$は$${σ}$$から離れるため、標準正規分布よりも左右に広がったような形状になる。)
そのため$${t}$$分布表を見ると自由度ごとに別の臨界値が定義されている。コンピュータがない時代に、昼間は働きながら夜にこの数表をGossetさんリスペクトである。
話をもとに戻すと、結果として母標準偏差σが未知の場合に、母平均μの信頼区間を調べる流れは以下である。
観測値$${x}$$が正規分布に従う母集団から得られたなら、標本平均$${\bar x}$$も正規分布に従う
標本平均$${\bar x}$$に対してStudent化( $${t = \frac{\bar x -μ}{s}}$$ )を行う
$${t}$$分布表から臨界値である$${t_{0.05}}$$を調べる
$${t}$$は95%の確率で$${-t_{0.05}(df)}$$から$${+t_{0.05}(df)}$$の範囲にある
得られた不等式と母平均$${μ}$$以外の数字はわかっているので、$${μ}$$の95%信頼区間がわかる
冒頭の「母平均$${μ}$$はこの範囲にありそうだ」という表現には少し迷った。というのも初めは「母平均$${μ}$$はどの範囲にあるのか」と表現していた。しかし、そもそも母平均$${μ}$$は真の値が存在する定数として見るべきであって、観測値によって変化するものではない。 そうすると 「95%の確率で母平均$${μ}$$がこの範囲にある」 と受け取れてしまう後者の表現は不適切である。 「(観測値の結果によって信頼区間は左右されるが、)母平均$${μ}$$は20回中19回はこの範囲にありそうだ」 と受け取れる前者の表現の方にすべき。
本筋と関係ない話で、95%信頼区間を調べるために$${-z_{0.05} \leq z \leq +z_{0.05}}$$と表現するのではなく、$${-z_{0.025} \leq z \leq +z_{0.025}}$$と表現する方がしっくりくるのだが、どうなのだろう。
基礎から学ぶ統計学 7章
この章では、「対となる2つの観測値の間の『差』に重要な意味がある」という特徴があるデータから検定を行う。これを関連2群のt検定という。
関連2群とはデータ分析の視点で言えば「介入を受けたものとそうでないもので、それ以外の条件はすべて同じとみなせる観測値のペア」だと個人的には解釈している。
これによる$${t}$$検定の流れは以下の通り。
対となる観測値の差dを取る
帰無仮説$${H_0}$$は「比較する2つは等しい」とするため、そのとき差dの母平均$${μ_d}$$は0となる
標本標準偏差$${s_d}$$を使ってStudent化$${t = \frac{\bar d}{s_d}}$$ を行う
$${s_d = \sqrt{\frac{SS}{df}}}$$自由度と数表から棄却域の境界となる臨界値$${t_{0.05}(df)}$$を調べる
$${t_{0.05}(df) \leq |t|}$$が成立していれば、「統計的に有意な差が認められた ( $${P < 0.05}$$ )」と結論する
6章までの内容と行っていることは同じである。
検定統計量$${t}$$の定性的な理解として、先ず$${t}$$が大きいほど「差があるはずだ」と判断しやすくなる。また、$${t}$$は標本平均$${\bar d}$$, 標本標準偏差$${s_d}$$, 標本サイズの平方根$${\sqrt{n}}$$の3つの要素からなる。式を見ると$${\bar d}$$と$${\sqrt{n}}$$が大きいほど$${t}$$も大きくなり、$${s_d}$$が小さいほど$${t}$$も小さくなることがわかる。
$${\bar d}$$が大きいということは、2つの標本は離れているように感じる。
$${s_d}$$が小さいということは、散らばりが少ないため差があることを確信しやすくなる。
$${\sqrt{n}}$$が大きいということは、偶然とは言い難いデータを得られるため確信しやすくなる。
実際に要素3つのうち1つだけ異なるようにヒストグラムを作ってみると直感的な理解が得られる。
基礎から学ぶ統計学 8章
独立2群の$${t}$$検定の章である。7章と違い、比較する観測値の間に1対1の対応関係はない。対応関係がない中で、どのように2つの標本の背後にあるそれぞれの母集団は、本当は等しいのか異なるのかを検定する。
関連2群の$${t}$$検定よりも、こちらの独立2群のt検定の方が、経験上では使い所が多そうである。
独立2群の$${t}$$検定には、2つの前提がある。
比較する2つの母集団は、ともに、正規分布に従う
しかし、標本平均$${\bar x}$$は近似的に正規分布に従う(中心極限定理)この2つの正規分布は、等しい母標準偏差を持つ(等分散の仮定)
等分散が期待できないデータの場合にはWelch検定を行う。やり方が気になる。
これらをもとに標本平均の差が従う確率分布を導く。
先ず正規分布に従う母集団Aと母集団Bから取り出された観測値は標本平均は以下の正規分布に従う。
$${N(μ_A, \frac{σ^2}{n_A}), N(μ_B, \frac{σ^2}{n_B})}$$
( $${μ_{A(B)}}$$: A(B)の母平均、$${n_{A(B)}}$$: A(B)のサンプルサイズ、$${σ}$$: 母標準偏差 )
またこれらの標本平均の差もまた、正規分布の再生性により以下の正規分布に従う。
$${N(μ_A-μ_B, \frac{σ^2}{n_A}+\frac{σ^2}{n_B})}$$
母標準偏差$${σ}$$は実際には不明であるため、Studint化を行い以下の検定統計量tを求める。
$${t = \frac{(\bar x_A - \bar x_B) - (μ_A-μ_B)}{s_p \sqrt{\frac{1}{n_a} + \frac{1}{n_b}}}}$$
2つの標本を加味した標準偏差である$${s_p = ( \sqrt{\frac{SS_p}{dp_p}} )}$$: 合算標準偏差)がちょっとややこしい。
ここで偏差平方和$${SS_p}$$は2つの標本の偏差の2乗を足し合わせたものである。独立2群の$${t}$$検定における2つ目の前提から、「母集団Aと母集団Bの母標準偏差は$${σ}$$で等しい」ため、標本Aと標本Bの偏差は本質的に同じものから得られたデータだと理解している。(もう少し詳説が欲しいところだった。)
自由度$${dp_p}$$は2つ標本サイズの和から、偏差を合計すると0になるという制限をそれぞれの標本の数だけ引いた数である。
$${df_p = n_A + n_B -2}$$
$${t}$$に戻ると帰無仮説は$${H_0}$$が正しい場合は、$${μ_A-μ_B}$$が0となるためこれにより$${t}$$が求められる。
あとは自由度を加味して棄却域となる臨界値$${t_{0.05}(df_p)}$$を数表から求める。
検定統計量$${t}$$の絶対値が臨界値$${t_{0.05}(df_p)}$$を超えていれば、棄却域に入ることになるため「両者は統計的に有意な差が認められる($${P<0.05}$$)」と結論する。
基礎から学ぶ統計学 9章
$${P}$$値の基礎知識。有意差のありなしは、ここまでは棄却域に入るか入らないかで判断してきた。しかし、統計検定量$${t}$$が帰無分布の中心付近にあるのか、端にあるのか、棄却域のそばにあるのかでは自身の持ち方が変わってくる。$${P}$$値は帰無分布中における$${t}$$と$${-t}$$の外側の面積(確率)を示している。そのため学術雑誌では「統計的仮説検定を行った場合は、その$${P}$$値を示しなさい」と投稿規定があることが多い。
英語
Speak
土曜日の練習を忘れていてまた途切れさせてしまってつらい。どういう規則なのかわからないけど、今回は2日分練習しても復活しなかった…。