統計用語いろいろメモ
確率
独立:Aの確率がBの確率に影響を与えない。AとBが同時に起こる確率は、AとBの積。
P(A ∩ B) = P(A) * P(B)
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
排反:AとBは同時に起こらない。独立かつ排反の事象はない。
P(A ∪ B) = P(A) + P(B)
P(A ∩ B) = 0
一致推定量と不偏推定量
統計学における推定量の性質を表す概念。一致性があれば不偏性があるとは限らない。
一致推定量(Consistent Estimator):「サンプルサイズ(データ量)が増えると推定値が真の値に収束する」こと。データ量を増やすことで推定値の精度が改善するという特性を表しています。標本平均や標本分散には一致性がある。大数の法則で説明される。
不偏推定量(Unbiased Estimator):推定量の期待値(平均値)が真のパラメータと一致する性質を持つ推定量を指します。多数回の試行を行ったときに得られる全ての推定値の平均が、真のパラメータと一致する。標本平均は不偏性があるが、標本分散は不偏性がない。(修正を加えた"不偏分散"は不偏推定量になる)
統計ソフトによる回帰分析の用語
Residuals(残差):予測値と観測値の差。四分位数の「範囲」とは、最大値(Max)から(Min)を引いたもの。「四分位範囲」は、3Q-1Q。
Coefficients(係数)
Estimate(推定値): 予測変数の係数。y=ax+bの「a」
(Intercept)(切片、定数項): y=ax+bの「b」
Std. Error(標準誤差):値が大きい場合は推定値の信頼性が低い。Standard Errorの略。標準偏差を標本サイズの平方根で割ったもの。σ/√n
t value(t値):各係数のt検定の検定量
Pr(>|t|)(p値):t値に基づいた検定のp値(有位水準1%で有位か)
Residual standard error(残差の標準誤差):モデル予測値と観測値間の残差のばらつき
degrees of freedom(自由度):パラメータの数を考慮に入れるために使用される変数の数
Multiple R-squared(決定係数、寄与率):モデルによって説明される観測データの分散の割合(単回帰分析の回帰モデルの精度?)
Adjusted R-squared(自由度修正済み決定係数)::自由度を考慮して調整した決定係数。重回帰分析の回帰モデルの精度を示す
F-statistic(F検定の統計量と自由度):全体的なモデルの有意性を評価するための統計量。定数項(切片)を除いた回帰係数がすべて0であるという帰無仮説を検討する。F検定の統計量は自由度df1(モデルのパラメータ数-1)と自由度df2(観測値の数-モデルのパラメータ数)とともに示される
p-value(F検定のp値):全体的なモデルの有意性を評価するためのF検定のp値。