もう一度おさらいしたい分散分析の基礎

2024年1月11日 23:06

分散分析は3つ以上の標本の比較をしている

ここでは分散分析と$${t}$$検定や$${\chi^2}$$検定との違いについてまとめていく

$${t}$$検定や$${\chi^2}$$検定では2つの標本の量的変数、質的変数を比較していた

しかし3つ以上の標本の比較に上記の検定を用いると
2つ標本比較を3通りすることになり多重検定になってしまうので、
繰り返し検定を実行する時はp値を厳しく設定しなければならない

詳しくは下記の記事の「（補足）カイ2乗検定は3群で使うには検定の多重性に注意」参照
https://note.com/outlifest/n/n8cda3a648d83

なので3つ以上の標本の比較は新しい検定方法を考える必要があり
代表的なのが分散分析である

分散分析には下記の3種類がある

一元配置分散分析 (One-Way ANOVA):
- 1つの説明変数（要因）に対して、3つ以上の水準（グループまたは処理条件）があり、それらの水準における平均値の差が統計的に有意かどうかを検定
  例えば、異なる肥料の効果を比較する場合など
二元配置分散分析 (Two-Way ANOVA):
- 2つの異なる説明変数（要因）に対して、それらの組み合わせにおける平均値の差が統計的に有意かどうかを検定
  一元配置分散分析よりも複雑なデザインで、交互作用効果（両方の因子が組み合わさったときの影響）も評価
反復配置分散分析 (Repeated Measures ANOVA):
- 同じ被験者や対象に対して、異なる条件や時点で複数の測定が行われる場合に使用
  例えば、同じ被験者グループに対して異なる治療法の効果を比較する場合など
  この分析は、被験者や対象が同じであるため、データ間の依存関係を考慮に入れることができる

主に使用するのは一元配置分散分析、二元配置分散分析で
一元配置分散分析は要因が1つ
二元配置分散分析は要因が2つで比較している

下記の図の場合は
一元配置分散分析の要因はクラスで
二元配置分散分析は要因が人物とフィールドごとに比較している

一元配置分散分析、二元配置分散分析も要因の数が違うだけで
根本的にやっていることは同じなのでより簡単な
一元配置分散分析について解説していく

一元配置分散分析は下記2つの前提条件がある

正規分布で等分散を仮定しているので
標本間で差がある場合はそれぞれの母集団の正規分布の平均値$${\mu}$$
に差があると判断できる

したがって

帰無仮説：全ての母集団が平均が同じ同一の正規分布$${\mu= \mu_1 = \mu_2 = \cdots}$$

対立仮説：上式の等号が少なくとも1つ成立しない

検定統計量は

$$
F = \frac{MS_{ between}（群間変動）}{MS_{ within}（群内変動）}
$$

と表すことができ群間変動・群内変動の定義は下記の通り

群間変動（Between-Group Variation）:
- 群間変動は、各グループ（処理条件や水準）の平均値が異なることによって生じるデータのばらつきを表す
  群間変動が大きいほど、各グループの平均値が異なる可能性が高い
群内変動（Within-Group Variation）:
- 群内変動は、各グループ内での個々の観測値のばらつきを表す
  群内変動が小さいほど、各グループ内のデータが均一である可能性が高まる

ではなんでこれらの2つを検定統計量として使うのか
証明は次回においといて
大まかに定性的に説明していく

群間比較は前提として
それぞれの標本の母集団全てが等しい母分散（等分散）をもつ

群内比較は前提として
それぞれの標本の母集団全てが等しい母分散（等分散）をもつ
に加えて
それぞれの標本の母集団全てが等しい母平均をもつ

ことに基づいている

先ほどの帰無仮説に話を戻すと

帰無仮説：全ての母集団が平均が同じ同一の正規分布$${\mu= \mu_1 = \mu_2 = \cdots }$$

が間違っているとき
つまり母平均にばらつきがあるときには

群内平均は母分散の推定値になるが
群間平均は母分散よりも大きい値になってしまい

$$
F = \frac{MS_{ between}（群間変動）}{MS_{ within}（群内変動）}
$$

の数値が大きくなってしまう

つまりここの数値が大きくなっているか否かで
有意差を判定できるので
この$${F}$$値は検定統計量として機能する