統計検定準一級受験記録⑤ 6章
検定準一級受験時に重要だと思った点を、統計学実践ワークブックをもとに僕なりにまとめていきます。専門的、厳密な解説はできませんが、誤りなどのご指摘があれば加筆修正を行っていきます。
6. 連続型分布と標本分布
まずは出てくる分布のまとめ。
赤枠は頻出です!
個別のコメントは下の方で書いていきます。
6-1 連続一様分布
0から1の範囲の乱数を得るために$${U(0,1)}$$が使われる。
この分布自体が主題になるようなことはほぼない。
6-2 正規分布
必須中の必須。
式も覚えた方がいいけど普通に勉強してたら自然に覚えてるだろうというぐらいよく出る。
ここでは関連用語だけ並べておくことにする。(思い付き次第追記アリ)
・中心極限定理
・漸近正規性
・最尤推定量は標本平均と標本分散
・母平均の推定
・分散既知の場合の平均の検定、平均の差の検定
・母比率の差の検定
・ブラウン運動
・正規Q-Qプロット
6-3 指数分布
頻度の低い事象についての発生間隔(待ち時間)の分布になることから、生存関数で使われる。微分積分が簡単にできる形をしているからか、例題で指数分布の確率密度関数を実際に微分積分することが多かった印象がある。そうやって解いてるうちに式の形を覚えるパターン。ついでに期待値と分散も簡単なので余裕があれば覚えるといい。
6-4 ガンマ分布
31章のベイズ法で出てくる。ポアソン分布に従うと仮定したモデルの、「パラメータが従う分布(事前分布)」として使われる。(ガンマ・ポアソンモデル)。ガンマ分布の最頻値も出てくる。使い方には慣れておきたい。
余談だけど、ガンマ分布の確率密度関数の式自体、なんとなくポアソン分布の式と似た形をしてる。ガンマ関数は階乗の一般化っぽい。(ぽいというか実際そうらしい)
6-5 ベータ分布
31章のベイズ法で出てくる。二項分布に従うと仮定したモデルの、「パラメータが従う分布(事前分布)」として使われる。(ベータ・二項モデル)。こちらも最頻値が出てくる。ガンマ分布と同じく使い方には慣れておきたい。
また、こいつもなんとなく二項分布の式と似た形をしてる。ガンマ関数とベータ関数には以下の関係があり、ガンマ関数を階乗とみなせばベータ関数の逆数はコンビネーションっぽい形になってる。(どうでもいい余談)
$${\Beta(p,q)=\cfrac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)}}$$
6-6 コーシー分布
・裾が重い
・平均や分散、それ以上の高次のモーメント(尖度や歪度)が存在しない
これだけ覚えておけばいいと思う。
6-7 対数正規分布
最後の最後、おまじない程度に期待値と分散と確率密度関数を覚えておけばいいと思う。
6-8 二変量、多変量正規分布
あくまで基本にあるのは正規分布。
周辺化しても条件付けしても出てくるのは正規分布。
☆期待値ベクトルと分散共分散行列
これが分布のパラメータになる。
ここで$${\rho_{12}}$$は$${X_1}$$と$${X_2}$$の相関係数、$${\sigma_{12}}$$は$${X_1}$$と$${X_2}$$の共分散。
☆性質
①$${\rho_{12}=0 \iff X_1とX_2は独立}$$
この時、同時確率密度関数は$${X_1}$$と$${X_2}$$の確率密度関数の積$${f(x_1)f(x_2)}$$になる。
②周辺化すると1変量の正規分布になる。
例えば$${X_1}$$について周辺化した場合、期待値と分散は期待値ベクトルと分散共分散行列の中の$${\mu_1, \sigma_1^2}$$になる。
③条件付き期待値と分散
2変量正規分布で$${X_1 = x_1}$$が与えられた時の$${X_2}$$の確率分布、3変量正規分布で$${X_1 = x_1, X_2=x_2}$$が与えられた時の$${X_3}$$の確率分布は、下表の期待値、分散を持つ正規分布になる。
2変数が与えられた時についてはワークブックには何も書いてないけど、2021年に出題されてしまってるから一応載せる。
幸いにも、1変数の時の式に関連付けて覚えられる形はしている。
ワークブックの式を少し変形してその類似点をまとめた。(これでも覚えることが増えるのは嫌だけど)。
なお、2変数が与えられた時の記号の使い方はこの記事に合わせている。
5変量の時2変数だけ条件付けたらどうなるの?とかは自分でも気になってますが調べが追い付いてません。すみません!
6-9 混合正規分布
これはあまり覚えることはないかな・・・
冒頭の表の期待値と分散は定義から自分で計算しました。間違ってたら教えてくださいw
てか、意外と分散のことを書いてるサイトがなくてびっくりした。最後はChatGPTに聞いてみたけど、上の式とは違う方法で、違う形の式を$${K=2}$$の場合で導出してくれた。(変形したら一致したので大丈夫と判断)
6-10 カイ二乗分布
$${X_i}$$が独立同一な正規分布に従うとして
$${Y=Z_1^2+\cdots+Z_n^2=\displaystyle \sum^n_{i=1}\cfrac{(X_i-\mu)^2}{\sigma^2} ~\chi^2(n)}$$
これがそもそもの定義。
これの$${\mu}$$を標本平均$${\bar{X}}$$で置き換えると
$${\displaystyle \sum^n_{i=1}(\cfrac{X_i-\bar{X}}{\sigma})^2 ~\chi^2(n-1)}$$
こっちの方を主に使う。
自由度が$${n-1}$$になってることに注意。
カイ二乗分布は分散の区間推定や検定で出てくるが
$${\displaystyle \sum^n_{i=1}(\cfrac{X_i-\bar{X}}{\sigma})^2=\cfrac{T^2}{\sigma^2}=(n-1)\cfrac{s^2}{\sigma^2}}$$
が、自由度n-1のカイ二乗分布に従うことを利用する。
$${T^2}$$は偏差平方和で、
$${T^2=\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2=(n-1)s^2}$$
偏差平方和の値を与えて解かせる問題もあるので、この形も覚えておきたい。
また、
$${\displaystyle \sum^n_{i=1}(\cfrac{X_i-\bar{X}}{\sigma})^2=\cfrac{T^2}{\sigma^2}=(n-1)\cfrac{s^2}{\sigma^2}}$$
が自由度$${n-1}$$のカイ二乗分布に従うことと、F分布の分子と分母にはカイ二乗分布に従う量をその自由度で割ったものが入ることを知っているとF分布の使い方が覚えやすいと思う(6-12で後述)。
6-11 t分布
t検定、回帰係数=0の検定で使う。
式は統計量Zととの対比で
$${Z = \cfrac{\bar{X}-\mu_0}{\sigma / \sqrt{n}}}$$
の$${\sigma}$$を不偏分散の平方根$${s}$$で置き換えた
$${t = \cfrac{\bar{X}-\mu_0}{s / \sqrt{n}}}$$
と覚えるのが手っ取り早い。これは非心t分布で、$${\mu_0=0}$$の時、$${t}$$は自由度$${n-1}$$のt分布に従う。
式の成り立ちを考えると、ワークブックの以下の表現
$${t=\cfrac{Z}{\sqrt{\cfrac{Y}{n}}}=\cfrac{\cfrac{\bar{X}}{\cfrac{\sigma}{\sqrt{n}}}}{\sqrt{\cfrac{(n-1)s^2}{\sigma^2}/(n-1)}}}$$
も分かりやすいし素直に感心する。覚えなくてもいいとは思うけど。
6-12 F分布
同じF値でも場面によっていろんな形の式で出てくる。これがやっかい。
対処法として自分は以下のように考えていた。
F分布の分子と分母には「カイ二乗分布に従う量をその自由度で割ったもの」が入る。カイ二乗分布に従う量として以下のようなものがあった。
$${\cfrac{T^2}{\sigma^2}=(n-1)\cfrac{s^2}{\sigma^2}}$$
これの両辺を自由度で割ると
$${\cfrac{1}{n-1}・ \cfrac{T^2}{\sigma^2}=\cfrac{s^2}{\sigma^2}}$$
というわけで、$${T^2/(n-1)\sigma^2}$$とか$${s^2/\sigma^2}$$は「カイ二乗分布に従う量をその自由度で割ったもの」になる。
9章の区間推定では後者の方の$${s_1^2, s^2_2}$$を$${V_1,V_2}$$と書いて(筆者が章ごとに違うのでこういうことが起きる)
$${F=\cfrac{V_1/\sigma^2_1}{V_2/\sigma^2_2}}$$
がF分布に従うことを利用している。
11章の2標本の分散の検定では、帰無仮説で二つの母分散が等しいと仮定しているので
$${F=\cfrac{\sum^{n_B}_{i=1}(X_{B_i}-\bar{X_B)^2}/(n_B-1)\sigma^2}{\sum^{n_A}_{i=1}(X_{A_i}-\bar{X_A)^2}/(n_A-1)\sigma^2}=\cfrac{\sum^{n_B}_{i=1}(X_{B_i}-\bar{X_B)^2}/(n_B-1)}{\sum^{n_A}_{i=1}(X_{A_i}-\bar{X_A)^2}/(n_A-1)}}$$
がF分布に従うことを利用している。
一応$${T}$$を使って書き直すと
$${F=\cfrac{T_B^2/(n_B-1)}{T_A^2/(n_A-1)}}$$
20章の分散分析では、モデルの形から$${\sigma_A^2}$$と$${\sigma_E^2}$$が等しくなるので
$${\cfrac{V_A/\sigma^2_A}{V_E/\sigma^2_E}=\cfrac{V_A}{V_E}}$$
をF値として使っている。