統計学実践ワークブック問28.2 じっくり解説
※以下紹介する問題は本書と少し変えていますが計算方法は同じです。
前提知識:
適合度カイ二乗
統計2級でも出てくるので細かい内容は割愛する。
$${χ^2}$$は分割表を作成した上で次式で計算できる。
$$
χ^2 = \sum_{i=1}^k \frac{(O_i-E_i)^2}{E_i}
$$
$${O_i}$$: Observed Frequency (観察頻度)
$${E_i}$$: Expected Frequency (期待頻度)
この問題の設定においては「頻度」=「人数」である。
オッズ比
2つのグループ間で特定の事象の発生確率の比率を表すものである。
例えば、「肺がん患者」のグループ10人と「コントロール群」の40人という2グループがあった際に「喫煙があったか」を調査したところ、「肺がん患者」において5人、「コントロール群」において4人が喫煙者だった。
この時事象は「喫煙があったか」で、2グループ間の比率は以下で計算される。
$$
OR(Odds Ratio) = \frac{5/5}{4/36} = 9
$$
となる。
ここで表現されるオッズ比というのはあくまで標本オッズ比であり、母集団のオッズ比の推定値を予測するのに使われるのに過ぎない。
標本の推定量(例えば平均)がわかっている場合に母集団の推定量を信頼区間を用いて推定するという、一般的な推定のアプローチを取ろうとすれば、標本オッズ比を用いて母集団のオッズ比ψを信頼区間を用いて推定するというのも納得できる。
信頼区間では常に「標準偏差」を考慮に入れる必要があるから、オッズ比の標準偏差を求める必要がある。
ここで、オッズ比の対数の標準誤差が以下で表すことを利用する。
$$
SE(\ln(OR)) = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}
$$
この式は暗記しておくと良いのかもしれないが、分割表を描けるような事例では各セルのサンプル数が少ないほど分散が大きくなるという直感的理解をしておくことが重要である。
これより、信頼区間95%のオッズ比ψは以下の範囲をとることが計算可能。
$$
CI(ln(OR))=ln(OR)±1.96×SE(ln(OR))
$$
逸脱度
逸脱度は期待値によって導かれた尤度関数と観測値によって導かれた尤度関数の比$${Λ}$$から観測値によって得られたモデルを評価するような指標だが、暗記するのが手っ取り早い。
$$
G^2 = 2 \sum O \cdot \ln\left(\frac{O}{E}\right)
$$
また、$${χ^2}$$と$${G^2}$$は自由度が同じである。
以上を踏まえて問題を解く。なかなか覚えることが多いので大変だが
実際の統計準1級でlogを計算できる関数電卓の持ち込みが禁止されている以上、出題者は出題しづらい内容かもしれない。