週報 2023-04-30
ピックアップ記事
「ChatGPTの利用前提に全てを見直す方向へかじを切る」、東京大学の太田副学長
1ページ目しか読めてないけど、東大が変われば日本の大学が変わっていくと思うので期待。
可用性や安全性を高めつつ、ソフトウェアをシンプルにすることは不可能だ。カオスエンジニアリングから継続的検証へ(中編)
インシデントに関わる7つの誤解。
カオスエンジニアリングからすると、インシデントは起きる前提でアンチフラジャイルな考え方が求められることがわかる。
読んだ本
分析者のためのデータ解釈学入門 データの本質をとらえる技術 第1章~第5章
分析したいデータが存在したとして、そもそもそのデータはどのような性質を持っているのか。データが使い物にならないものだったら、そこからどんな分析を行ったところで得られる情報は使えない。Garbage in, garbage outである。
第1章はデータを観測することの難しさ、つまりは欲しい情報が得ることやデータを得られたとして適切に得られていることの難しさが書かれている。
第2章はデータのばらつきにどのような意味があるのかであり、ちょうど統計学で学んでいる内容である。
第3章はデータにどのようなバイアスが含まれているのか例がまとめられている。
第4章はデータを分析するモチベーションとしてAとBの関係を調べたい場合が多いが、その2つがどのように関係しているの注意点と分析手法の説明。
第5章は全数調査は基本的にできない前提の中で、どのようにサンプリングを行うべきか注意点や手法。
統計学
基礎から学ぶ統計学 4章
何かデータを知りたい時に、本来なら知りたいはずである母平均や母分散は、実際の調査で直接手に入れることはできない。しかし、統計学では限られた観測値からなる標本を使って、母集団に対して推論を行うことができる。
標本平均$${\bar{x}}$$の期待値$${E[\bar x]}$$は、母平均に一致する。期待値なので、もちろん単なる$${\bar{x}}$$が母分散と一致することはありえないが、ヒントになってくれる。
偏差平方和$${SS}$$は覚えなければならない用語。観測値から母平均までの偏差の2乗を足し合わせたもの。(もちろん実際に母集団の全ての観測値を得られるわけではない。)母分散$${σ^2}$$は偏差の数$${N}$$で割るだけ。別の表現すると、偏差の2乗の期待値とも言える。
$${σ^2=\frac{SS}{N}}$$, $${σ^2 = E[(x_i - μ)^2]}$$
標本分散$${s^2}$$は観測可能である。標本分散$${s^2}$$を母分散$${σ^2}$$と同じように「偏差平方和$${SS}$$を標本サイズ$${n}$$で割る」ことで求めたくなる。しかし、その期待値は母分散$${σ^2}$$に一致しないらしい。その代わりに自由度$${df}$$という概念を使う。標本分散$${s^2}$$の定義は以下となる。
$${s^2=\frac{SS}{df}}$$
自由度は「意味のある偏差の数」や「不可欠な偏差の数」と説明されるものである。例えば3つの偏差のうち2つが分かれば後は制約から残りの一つが導出可能な場合、自由度は2となる。標本分散$${s^2}$$では「偏差平方和$${SS}$$を自由度dfで割る」というのは、直感的にはよくわからないが慣れるしかない。(web特典に数学的な導出があるが、確かにそうなることがわかるだけで直感的な理解とは結びつかない。)
統計学の多くの手法はは上記のような「標本から計算した統計量を使い、未知の母数(パラメータ)に対して、適切な推論を行う」作業である。
基礎から学ぶ統計学 5章
前半は正規分布の話。
連続型の確率分布では、縦軸が確率密度でグラフの面積 = 確率となる。
統計手法の多くは母集団が正規分布に従うと仮定し、その曲線を記述する確率密度関数は以下で表される。
$${f(x)= \frac{1}{\sqrt{2πσ^2}} exp( \frac {-(x-μ)^2} {2σ^2} )}$$
よく見かける式である。この式を見ると正規分布は$${μ}$$と$${σ}$$といった母数によって曲線の形が決まるため、$${N(μ, σ^2)}$$と表記することができる。
$${N(0, 1^2)}$$の正規分布を特に標準正規分布と言う。標準正規分布には数表が存在し、とある観測値z未満(以下)となる確率を教えてくれる。先人ありがとう。一見この数表は特定の状況にしか使えないように見えるが、任意の正規分布に従う確率分布を「標準化」という計算を行うことで、標準正規分布に従う確率分布を生み出すことができる。標準化の計算も簡単。式の内容も理解しやすい。
$${z = \frac{x - μ}{σ}}$$
標準化と数表によって、例えば観測値$${x}$$が3以下になる確率が簡単にわかる
後半は統計学の理論の話。
標本平均$${\bar x}$$の確率分布を作成すると、その分布もまた正規分布となる。期待値は母平均$${μ}$$と一致する。標本サイズ$${n}$$の分散は$${\frac {σ^2}{n}}$$となるので、標準偏差は$${\frac {σ}{\sqrt{n}}}$$である。標本サイズが大きくなればなるほど小さくなることは直感的にもわかる。。そして、標本サイズが無限大に近づいていくとより標本平均$${\bar x}$$は母平均$${μ}$$に限りなく近づくことになる。これを大数の法則と呼ぶ。
ちなみに標本分布(統計量が従う確率分布)の標準偏差は標準誤差(SE: standard error)とも呼ばれ、特に標本平均xbarの標準誤差に限ってはSEM(standard error of the mean)も使われる。
中心極限定理はすごい。これは「どんな確率分布から得た標準平均$${\bar x}$$も、標準偏差が$${\frac{1}{\sqrt n}}$$に狭まった正規分布に近似的に従う」というもの。どんな確率分布でもというところがミソ。
正規分布の再生性もありがたい。正規分布から得た観測値(確率変数)xは和も差も正規分布に従うというもの。そしてその和の期待値や差の期待値は、それぞれの母平均の和や差に等しい。直感的にそうであってほしいことがそのまま使える。分散の場合は和であっても差であっても、それぞれの母分散の和となり、直感的ではないがシンプルな性質。
これらの性質を組み合わせることで、2つの標本平均の差が従う確率分布の期待値や分散を求めることができる。
期待値: $${μ_A-μ_B}$$, 分散: $${\frac{{σ_A}^2}{n_A} + \frac{{σ_B}^2}{n_B}}$$
正規分布の数式をnoteで表現するのにかなり時間をくってしまった…。
英語
Speak
土曜日の練習を忘れていてまた途切れさせてしまった。