統計検定2級②
まずは①を見てから
【超重要】標準化とは
Zにすることではあるが
本来は平均0、分散1にすること
【超重要】棄却する場合
①棄却域に入っている時
②信頼区間から外れる時
片側か両側か判断する時
変動係数とは
標準偏差÷平均
推定量の分散
一致推定量、標本分散と不偏分散(不偏推定量とも言う)
一致推定量とは
取る値が、母集団と一致するような値
不偏分散(不偏推定量)とは
毎回違う値を取るけど、推定量の平均が母集団と一致するような値
不偏推定量(不偏分散)を求める計算(覚えなくても良い)
分散、共分散と期待値の関係(超基本)
和と差の確率変数の性質
【例題】
【Iに関して】
UとVの平均は等しい👉⭕️
U=X+Y, V=X-Yで、XとYはどちらも平均が等しいので、UとVの平均も等しい
【IIに関して】
分散1=分散2のときのみ、UとVは互いに独立である
👉⭕️
「UとVが独立」= 「UとVの相関係数が0である」
相関係数の分子は、分散1ー分散2
↓
つまり分散1=分散2であれば、相関係数は0になる!
【Ⅲに関して】
分散1と分散2の値によらず、UとVは同じ分布に従う
👉⭕️
まず、UとVは平均が同じ
また、分散に関して
V(U)=V(x+y)=V(x)+V(y)+2cov(xy)
V(v)=V(xーy)=V(x)+V(y)ー2cov(xy)
さらに、xとyは独立なのでcov(xy)は0
よって、V(U)=V(v)
t値とは
標本をとったときのZのこと
t値から考えて、棄却する場合
①「t分布のパーセント点」から、自由度•有意水準からt値を導き、信頼区間に入ってない時
②棄却域に入る場合
自由度とは
自由に動ける変数の数のこと
サンプルサイズn=10をとっただけ👉自由度は10
n=10をとり、標本平均が確定した後👉自由度は9
↓
なぜなら、標本平均が確定したら、9個のデータを決めると残り一つも確定するため
P値(P−値とも表記する)とは
母集団の中で、信頼区間の外側にある確率のこと
P値から考えて棄却する場合
①p<有意水準のとき
②「標準正規分布の上側確率」よりP値を導き、
p<有意水準のとき
③P値から逆算して、「標準正規分布の上側確率」よりt値を導く。そして信頼区間に入っていないとき
F値とは
一元配置分散分析からF値を導く場合
F値から考えて棄却する場合
◯上側のみを考える場合
分散分析(3つ以上の標本があるとき)を考えるなら、「有意水準5%」と言われたら上側の5%を考える
◯上側と下側両方を考える場合
等分散性(2つの標本のみがあるとき)を考えるなら、「有意水準5%」と言われたら上側&下側2.5%を考える
👇
上側2.5%を考える時、普通にf分布の%表を参照すれば良い
下側2.5%を考える時、Fを1/F(逆数)にして、f分布を見る時も自由度を逆にして参照すれば良い
確率変数の差(X-Y)に関する確率
X=ある年の6月の電気料金、Y=前年の電気料金
P(X-Y≧800)を考える
これは平均0(なぜならXもYも平均同じだから、X−Yの平均は4000-4000)
さらに標準偏差500同士なので…
Pが未知の場合の処理の仕方(難)
(例)
①まずは二項分布のZを求めて、1.96で挟む
②信頼区間の幅を求める
③この幅にp(1-p)/nが含まれているが、このp(1-p)は最大が0.5×0.5で0.25となる。故に、分子が最大の時でも6%以下になるようなnを求めれば良い
母比率の推定値
(例)
母比率の推定値とは
母比率の推定値の標準誤差とは
母比率(母平均)の差の信頼区間、t値
通常の信頼区間を求めるときは…
母比率(母平均)の差の信頼区間を求めるとき
①分散が既知の場合
【例題】
(キーポイント)
「非常に関心がある」と答えた割合に差があるかを検証している
まずは信頼区間を求めて、この信頼区間で「差がない」を表す「0」があるかどうかを検証するべきである
②分散が未知の場合
過誤
第一種の過誤
間違って帰無仮説が正しくなること
第二種の過誤
間違って対立仮説が正しくなること
カイ二乗検定
次のようなヒストグラムが来たら、まずはクラス集計表を書く必要がある
回帰分析
残差を全て均一にして関数にしたもの
つまり、残差の平均は0である
✅残差=(元のデータ)ー(予測値の平均)
⭐️回帰分析での自由度の求め方
パラメータの自由度👉1を引くだけ
残差の自由度👉標本数からパラメータ引く
回帰分析でのt値の求め方(回帰係数の信頼区間の求め方につながる)
単回帰モデル•重回帰モデルの見方
最小二乗法
✅Interceptは切片を表す
「Interceptは定数項β0を表す」とあるが、14.3931=β0の値である
0.4121=β1の値である
つまり、total.incomeが1増えるごとに全体が0.4121増えることを表す
✅Pr(>|t|)はPー値を表し、有意水準を下まわれば、0ではないことが証明される
この場合の帰無仮説は、普通明記されないが
「各パラメータは0である」になる
👇
そのため、棄却すれば0ではない、つまり「パラメータは存在する」となる
ローレンツ曲線と完全平等線、ジニ係数
ローレンツ曲線から遠い=ジニ係数が大きい=不平等
ラスパイレス係数
抽出法
☑️単純無作為抽出法
全ての母集団から無作為に抽出
☑️系統抽出法
全ての母集団から、決まったルールで抽出
✅層化抽出法
互いに被ることのないグループに分けて、各層から無作為に抽出
✅集落(クラスター)抽出法
互いに被ることのないグループに分けて、各層の全てを抽出
○二段抽出法
二段階に分けて抽出する方法
例えば、最初は全国区で調査して、その後に地域ごとに調査するなど
研究の形態
✅観察研究
調査対象に介入をしない
(例)
国公立大に進学した人、私立大に進学した人の費用を調査
✅実験研究
介入を行う
(例)
ある病気の患者を2グループに分け、新薬と旧薬の効果の違いを観察
フィッシャーの三原則
無作為化
制御できない要因の影響を、偶然誤差に変えられる
繰り返し
同一の条件で、1人もしくは複数人の被験者のデータを取ること
局所管理
「実験条件」を同じようにして、各ブロックにわかること
この記事が気に入ったらサポートをしてみませんか?