統計検定準1級 統計学実践ワークブック 感想まとめ


この記事を書いた理由

  • 受験を目指す方への1つのサンプルとして
    (ここを重点的にやって,ここを捨てて,これくらいの点数で合格した,という一例)

  • 受験から3ヶ月経過して忘れかけているので,1級受験に際する備忘録として.

私のバックグラウンドや心がけた勉強法,受験時のポイントなどはこちらの記事を参照ください.


感想と章ごとのまとめ

統計検定準1級は大きく分けて「確率と確率分布」「統計的推測」「多変量解析法」「種々の応用」に分かれていると思うので,それに沿って1章ずつワークブックの感想を述べる.統計検定1級を3ヶ月勉強した立場から見たら新たな再発見がたくさんあると感じる.
※今の私からワークブックがどう見えているかを感想ベースで話しているだけで,解説ではないしところどころ説明が不十分なところがあります!気楽に読んでください.

確率と確率分布

個人的な意見だけど準1級は数理の詳しいところまでは出ないと思う.
式変形とかゴリゴリやる数理は1級にお預けなんだろうな‥棲み分けのためにも,時間と問題数の関係からしても.それでも今後の章においてもは基礎の内容であり,当たり前のように出てくるので,ちゃんとやっておくに越したことはない.

  • 1章 事象と確率

    • あまり難しくはないが,大事な章.特に,余自称Ac や,条件付き確率P(A|B)の記号,包除原理,独立の定義とかは抑えておくべき.なめてかかると沼る.ベイズの定理が重要なのは言うまでもない.文章題としての出方も抑えておこう.

    • 期待値と分散の定義があるので暗記しよう.分散をE[X]とE[X^2]で表す公式は今後100回出てくる.期待値は「原点周りの1次のモーメント」分散は「平均周りの2次のモーメント」と言う定義も頭に入れておくと
      3章で歪度と尖度が出てきた時にびびらない.

  • 2章 確率分布と母関数

    • 生存関数はなんで2章でちょろっと出てくるのか意味不明.19章でも出てくるのでそこと見比べよう.生存関数は文字通り生きているやつ,ハザード関数は式通りだが,生きている奴の中うち今死にそうなやつみたいな感覚でおさえる.定義の式と生存関数のログの微分であることも式変形できるように.

    • 2変数の確率分布の関係も抑えておく.基本系である
      f(x,y)=f(y|x)×f(x)とか
      f(x)=∫f(x,y)dy 
      とかだけ図と紐付けながら覚えてあとは臨機応変に対応

    • 確率母関数と積率母関数はこういうのがあるのか,と言う認識と使い方くらいでOKかと.「道具」と言う言い方が本文でなされているが,言い得て妙で唸る.「generating」を「母」と和訳するところ然り.
      2つの母関数の違いだけおさえて,当日の計算で間違えないようにする
      確率母関数: s^x, 微分すると階乗モーメント,最後は1を代入
      積率母関数: e^tx, 微分すると累乗モーメント,最後は0を代入
      特性関数はパス.おそらく1級でも出ない.最後の文章は再生性をモーメント母関数で示すための伏線.

    • 練習問題の微積計算から逃げてはいけない.

  • 3章 分布の特性値

    • メディアン,モード,平均と言う言葉の定義は言わずもがな.求め方も準1級で出るので抑えとこう.メディアンはF(x)=0.5 ,モードはf'(x)=0となるxを求める.余談だが表面が粗い物体が突起で荷重を支持する割合が分位点関数の概念とよく似ている(アボットの負荷曲線で検索しよう).

    • 共分散,相関係数の計算は暗記.Cov[X,X]=E[XX]-E[X]E[X] =Var[X]というのを考えると,分散の多変数への拡張概念なんだなと腑に落ちる.相関係数は無次元化している.条件付き・繰り返し期待値と分散の話は余裕がなくて公式だけ覚えてパスした.今必死にやっている.

    • V[X-Y]=V[X]+V[Y]-2Cov[X,Y]は忘れやすい.特に,過去問2017の問4とか,9章例題(イチロー問題)の分散のところとかにも上式が使われているね.多項分布の差の区間推定.

    • 加重平均・幾何平均・調和平均は用語と意味をおさえる.

    • 分散共分散行列Σは初見で面食らうが,主成分分析ででてくるので,なんとなく知っておく.Σの各成分に対して,その行と列の標準偏差をかけたもので割れば相関行列になる(伝われ).

    • 4乗根は2回電卓の√を押せ!

  • 4章 変数変換

    • 多分大学数学をやっていない人は一番最初につまづく.

    • 1次元の変数変換については,現代数理統計学の基礎(以下久保川本)の2.5節の分布関数から求めるメソッドがとてもやりやすくて好き.これでやると平方変換(ワークブック例1のようなY=X^2)もビビらない.ワークブックの解き方はあまりよくわからなかった.

    • 2次元のヤコビアンについても,初見は戸惑うが何度もやって慣れるしかない.個人的にはワークブックのやり方の逆数で(つまり,変換前のパラメータを変換後のパラメータで微分してヤコビアンを作って)それをそのままかけるやりかたの方が性に合っている.
      何をやっているかがわからなくなりがちだけど,畳み込むことで確率変数の和X+Yの分布を作りたいってこと.同時確率密度を変数変換された形で表して,欲しい変数"じゃない方で"積分すること(2章で出た)で欲しい変数の確率関数を求める,というロジックを忘れないでいきたい.個人的には再生性はモーメント母関数で示したい

    • 例題でいきなり正規分布の積率母関数が出てビビるが,これは暗記した方がコスパがいいやつ.対数正規分布がY=exp(X)と置き換えるので,それの期待値ってそのまま正規分布の積率母関数(t=1)そのまんまジャーンってなる.ちなみにt=2で対数正規分布の2次モーメントまんまジャーン

    • 問4.2は実はGa(1,1/λ)で,λが同じなら再生性を使えることに気づけば瞬殺

  • 5章 離散型分布
    覚えゲーその1.とにかくたくさんの分布が出てくるが,それぞれの分布の特徴やつながりを把握することが大事.確率母関数を確認のために微分して見ると期待値分散が本当に出てくることも確認してひとしきり驚いておく.ここから楽しくなってくる.

    • 離散一様分布 期待値分散は導出できるようにしておく.確率母関数導出のために,初項a公比r項数nの等比数列の和の公式を使うので要チェック

    • ベルヌーイ分布 とりうるXは1か0であることを地味に忘れがち.だから確率母関数の計算がめちゃくちゃ楽なこともあわせて覚えておく.二項分布の材料であるため,式の形がよく似ている.

    • 二項分布 ベルヌーイ試行の組み合わせ.確率母関数の導出には2項定理を用いる方が好き(久保川本の命題3.1) 再生性は積率母関数を知っていれば当たり前のように示される.単純に意味を考えても,試行回数が増えても分布の特性は変わらないよねってだけの話.

    • 超幾何分布 パラメータが3つあって,どれがどのパラメータを表しているかがごっちゃになりやすい.「合計N個でM個が当たり,n回の試行」と100回唱える.確率関数の式は意味を考えて理解する.期待値分散は当たる確率をpではなくM/Nとおいた2項分布で,有限母集団修正項を導入することに注意.

    • ポアソン分布Po(λ) 二項分布の極限系.二項分布の確率関数でp=nλとおいてnを極限に飛ばした時に,どこが残って,どこが1に収束して,どこがe^-λに収束するかを理解しておく.確率母関数(積率母関数)が分かれば再生性を持つことは明らか.

    • 幾何分布と負の二項分布 期待値と分散の形が似ているので,セットで覚える.GeoはNB(1,p) 個人的にはHよりもCで書く方が好き.

    • 多項分布 概念は分かりにくいが,おみくじの大吉中吉小吉の例が一番イメージしやすい.期待値,分散の他に共分散も存在するので要Check.E[X1]やE[X1X2]の期待値を求めるときは,定義に則ってX1やX1X2をかけてΣを取って,確率関数が成立するように(Σの項の和が1)調整する.

    • 例題5.4は何気に難問.条件付き確率やPo(λ)の再生性をちゃっかり使ってくる.あとは5乗をx乗と5-x乗に分解しているので注意.

  • 6章 連続型分布と標本分布
    覚えゲーその2.

    • 連続一様分布U(a,b) 確率が一様という話.楽勝だが,1級で牙を剥いて帰ってくる.平均,分散,積率母関数は忘れやすいので積分でも解けるようにしておく.

    • 正規分布N(μ,σ) 一番大事.確率密度関数の式と積率母関数の式は暗記必須.4章でも出てきたが,対数正規分布の期待値は正規分布の積率母関数(過去問2015-14).再生性が成り立つのは積率母関数どうしをかけたらそれぞれのパラメータの和の形で出てくるのを示せるようにしておく.のちに出てくる混合分布の二峰性のために,μ±σが変曲点になることも抑えておく.上側確率の付表の使い方もマスト.1.96と1.65もマスト.

    • 指数分布Exp(λ) 確率密度関数と累積分布関数の形を暗記するのはもちろんとして,生存関数がただのe^-λxになることや,ハザードがλとなり時間によらないこと,ハザードが時間によらないということは無記憶性そのものであることもあわせてどうぞ.そしてガンマ分布Ga(1,1/λ)であるということから,λが同じ場合は再生性が成り立つことや期待値分散が簡単に出せるということも頭の片隅に入れておく.

    • ガンマ分布Ga(α,β) 超重要.31章ベイズ法で結構出るので,形を丸ごと覚えてしまうのもあり.もちろん,期待値αβ,分散αβ^2は暗記.31章で説明もなく出てきてキレそうになったが,モードは(α-1)β.f'(x)=0とすれば出てくるね.
      指数分布がGa(1,1/λ),自由度nのカイ二乗分布がGa(n/2,2),βが同じなら再生性を持つことGa(α1+α2,β)もめちゃくちゃ重要で,実はこれがわかっていれば瞬殺できる問題も多い.ガンマ関数の定義や,自然数の時にΓ(a)=(a-1)!,Γ(1/2)=√πもワークブックには載っていないが,余裕があれば.

    • ベータ分布Beta(a,b) 結構重要.覚えにくいが,のちに出てくる31章ベイズ法のために期待値と分散の形は暗記.分散はE[X^2]-E[X]^2で導けるようにしておいてもいいかも.地味に気づきにくいが,一様分布U(0,1)はBeta(1,1)であることを頭に入れておくと,ベイズ法の時に使えるし,実際過去問2015-22でも出ているので油断ならない.

    • コーシー分布 自由度1のt分布.多分準1級には出ないだろう.平均が存在しないというところはhuh??ってなりがちだが,単純にE[|X|]=∞というだけ.裾が厚いからね.x=tanθで変数変換するとびっくりするのは高校数学で100回やったし,なんなら去年(2023)の1級統計数理で出てる.

    • 対数正規分布 4章問4.1に全て集約されているので,そっちを見た方が正直いい.

    • 多変量正規分布 面でイメージするのが吉.線形代数ができるならP44のベクトルの式で覚えてしまってもいいかもしれない.各要素の係数を忘れそうになった時は一次元の正規分布の式に立ち返れば思い出しやすい.条件付き期待値分散の式は要暗記だが,これは標準化された回帰の式と一緒に覚えるといいかも.(E[X2|X1=x1]-μ2)/σ2=ρ(x1-μ1)/σ1という形が一番覚えやすいんじゃないかな,知らんけど.

    • 混合正規分布 ただ正規分布を文字通りmixtureしたって話.もちろん確立密度関数であるためには全ての和が1でなければならないので,足して1になるような係数p1,…,pkがつく.二峰性を示すのは変曲点が重ならない時と言い換えできる.

    • カイ二乗分布 めちゃくちゃ大事.Ga(n/2,2) βは必ず2なので再生性が成り立つ,あと正規分布の2乗は自由度1のカイ二乗分布(4章例題).期待値分散はガンマ分布の公式から.標本の偏差平方和を母分散で割ったものが自由度n-1のカイ二乗分布に従うこともマスト.久保川本3章問18にカイ二乗分布のa乗の公式もあって,標本の標準偏差Sの期待値を求めるのもあって,1級では頻出.

    • t分布 分散未知のときに検定や推定をしたい時に,標本から得られた不偏分散で置き換えてやろうっていうマインドで合成,変数変換してなんとかひねりだした分布っていう感想.グロテスクでクリーチャーみたいな式ではあるが,これで簡単に標本から推定検定ができてしまうの凄すぎでは…と感動した.2級の時には見えなかった世界.準1級でもまだ見なくてもいい.検定の時に標本数-1のt分布に従うことだけ知っていればいい.2標本で分散をプールする時は標本総数-2

    • F分布 2群の分散の比の検定が自由度n-1,m-1のF分布に従う,あまり出てこないと思いきや,分散分析ではマスト

    • 非心系はやってません.

    • 例題6.1.4 条件付きであることに注意.期待値は置換積分を使うことを念頭に入れると当日焦らない.

    • 例題6.3.2 実はガンマ関数の公式を使えると部分積分をせずに瞬殺.

  • 7章 極限定理・漸近理論

    • 概収束・確率収束・平均二乗収束など難しい概念があるが,とけたろうのチートシートの説明がわかりやすい.

    • 大数の法則はWBの式の通り.さりげなく
      V[Xnバー]=1/n^2 v[Σ(xi-μ)^2]=1/n^2 ×nσ^2 =σ^2/nとなるところが省略されてる.

    • 少数法則はポアソン分布のまんまだね.

    • 中心極限定理はぜひ√n(Xn-μ)→N(0,σ^2)形のままで覚えたい.そうするとのちのデルタ法が楽.左辺を√nで割ると分散がnで割られて,標本分散はσ^2/nになる,という話もセットで.連続修正は図を書いて面積をそれぞれチェックすると範囲をゆるくするイメージが掴める.

    • 極値分布は省略でOKかと.地味に順序統計量の話とか抑えてないと理解しづらいし,最大統計量の分布が退化しないように位置・尺度変換するとか難しすぎ.当たり前のようにlim(1-a/n)^n→e^-aの公式がバンバン出てくる魔境.

    • デルタ法はマスト.割と内容的に独立しているので出題者は出しやすいと思う.中心極限定理の形がf(・)のとき,分散が関数を微分して平均値を入れたやつの2乗f'(μ)×もとの分散σ^2になるというところがミソ.大学数学に馴染みがあれば,μ周りでf(Xn(bar))をテーラー展開してf'(x)を作り出してそれをVの括弧の外に出すことで2乗されるという流れを経験しておくと腑に落ちるかも?

    • 例5は連続写像定理の他にカイ二乗分布(つまりはガンマ分布)の再生性もこっそり使われていることに注意!

統計的推測

8章は鬼門.3周目でようやくそこそこ理解した感じ.区間推定や検定は2級範囲なのでそこで極めるべし.ちょっとだけ応用問題が出てくる.13章ノンパラで大きく話が変わるので,脳みそをリセットして取り組むべき.ここがちょうど100ページ目にもなるので,キリがいい.

  • 8章 統計的推定の基礎
    今まではパラメータを固定した分布の形を見てきたが,ここからはパラメータ推定の話で,データから得られたパラメータがどれだけ正確かという議論.天地がひっくり返るような心構えでいると,割とすんなり進みやすい.捨てている人も多い気がするので,差がつきやすい.

    • 順序統計量は大きさ順に並べただけの話.Excelのソートと一緒.準1級では省略されており,意味の理解だけでいいが.1級数理ではボリュームゾーン.最小統計量の確率関数の導出とかが出る.

    • 最尤法はマスト.標本の同時確率を計算しているので積になっているというイメージを持つと理解しやすい.Πは最初に面食らうが,Σの親戚で掛けあげているだけ.積のままだと計算がしにくいので,logをとることで計算しやすくしている.尤度関数の最大値をとるxが最尤推定量(MLE)なのでパラメータで微分して0となるところを求める,というだけの話.例2をいきなり出すところにワークブックの鬼畜味を感じる.練習問題8.2[1]の方がよっぽど易しい

    • モーメント法はあんまりよくわからなかったが練習問題は解けるようにした.

    • 平均二乗誤差(MSE)はパラメータの真値とのずれを計算する指標で,バイアスとバリアンス項に分かれる.バイアスを0とした上で(不偏推定量とした上で)バリアンスを最小にするのがフィッシャー情報量の逆数(クラメールラオの不等式).この流れは複雑なので,100回追う.クラメールラオの不等式はコーシーシュバルツの不等式をバリアンスとスコア関数で置いて…という流れも一応見ておくと理解が深まる.

    • 漸近有効性・漸近正規性はあまりよく掴めてないのでフィーリングでやってる.

    • 十分統計量とフィッシャーネイマンの因子分解定理は下の動画で理解した.

    • ジャックナイフ法は全標本から一つ抜いた標本から得られた推定値を全ての組み合わせでやって平均取るみたいなイメージ

    • 問8.3のT1とT2の違いは「足してからnで割って2乗」「2乗したものを足してnで割る」の違いがある

  • 9章 区間推定
    ほとんど2級範囲なので,特筆すべきことはなし

    • 母分散の推定はカイ二乗分布が母分散の逆数の形になっているので,区間が逆転すること,多項分布の差の区間推定は初めてCovが出てくるので要注意.

  • 10章 検定の基礎と検定法の導出
    ほとんど2級範囲.

    • サンプルサイズ設計の話が初めてここで出てくる.帰無仮説の棄却域を固定した上で,対立仮説の検出力1-βを大きくするように,nを大きくすることでμ1-μ0/√σ^2/nの値を少しでも0から遠ざけたい,という感覚でいればOK.立式だけできるようにしてあとは式変形すればサンプルサイズnがもとまる.

    • 抜取り検査はただの二項分布.言葉の意味だけ間違えないようにしたい.
      生産者危険→良品をNG判定する(False Positive=間違った陽性(不良品)判定)ので生産者の損失→あわてんぼうのα→第一種の過誤
      消費者危険→不良品をOK判定する(False Negative=間違った陰性(良品)判定)ので消費者の損失→ぼんやりもののβ→第二種の過誤
      というつながりは抑えておく.FP,NPという表現に慣れておくと23章のROC曲線でも役にたつ.

    • 問10.1は正規分布の絵を描く.

  • 11章 正規分布に関する検定
    これも2級範囲.特にいうことがない.
    プールした分散は,サンプルサイズが同じ場合はただの分散の平均

  • 12章 一般の分布に関する検定法

    • 母比率の検定も母比率の差の検定も,平均と分散はなんぞや,というところを押さえておいて,正規分布の標準化の式に当てはめてあげればOK.尤度比検定はP263で.母比率の差の検定は帰無仮説が両者に差がないということなので,θ1-θ2が0

    • ポアソン分布に関する検定も平均と分散を求めて正規分布の標準化の式に代入でOK(正規分布への近似が前提).適合度検定でパラメータが推定値だとその数だけ自由度が下がることに注意!

    • イェーツの補正も注意!分子から0.5引いたバージョンで足し上げる.

  • 13章 ノンパラメトリック検定

    • 冒頭にも書いた通り,ここで大きく話が変わるし,大事だし,いろいろあるから出題者は出しやすそう.順序や正負の符号など,ノンパラメトリックなもので検定を行うというエレガントな手法だが,計算量が大きくなりやすいというデメリットもある.とけたろうのチートシートにパラメトリックとの対応関係が載っている.基本的にワークブックが一番詳しいので,書いてある通りにやっていけば理解できる.

      • 検定統計量やP値やP値の近似が結構複雑だが,気合いで覚えた.
        以下に気づければ少しでも覚える量を減らせる.

        • 符号つき順位和の平均の正規分布近似はΣx(全順位)の半分,分散はΣx^2の半分の2乗(分散なので).

        • ケンドールの順位相関係数の分母のn(n-1)/2は全組み合わせを意味している.

    • 例題は「全順位の組み合わせのうち,今起こっている順位の組み合わせがどれくらい珍しいか」という点に着目して解く.

  • 14章 マルコフ連鎖
    難しい説明がつらつら書いてあるが,確率行列は,前の状態(At,Bt)を次の状態(At+1,Bt+1)に割り当てる際のルールを行列で記述しているだけ.

    • 行列の左端に上からAt,Bt…と書いて,行列の上に左端からAt+1,Bt+1…と書いていくマイルールでやったら結構つかめた.

    • 今のそれぞれの要素の状態確率の和はそれぞれ1になるというのが前提なので,行の和が1になるという制約があることは知っておこう.

    • 定常になる時は今の状態と次の状態が一緒になるので,あとの状態をt+1ではなくtとおいて等式を立てる.

    • パラメータ推定は面食らうが,最尤法の定義に則って,同時確率を最大化するパラメータを求めている,というだけ.問14.3の傘問題が良問.私は8章の内容では最尤推定の概念が理解できず,ここで初めてイメージが湧いた.

    • t+n年で経過ステップを一般化させてる,対角化された行列でやっている過去問2019-問11は良問

  • 15章 確率過程の基礎

    • 何気一番苦手な章かも.理工学受けるのに大丈夫か

    • 定常増分,独立増分の意味は理解する.

    • ブラウン運動はBt~N(μt,σ^2t)となって,時間依存性がついている.
      標準ブラウン運動は標準正規分布と同じパラメータで,N(0,1t)

    • ポアソン過程の形は,Po(λ)がt個足されてるから再生性でPo(λt)ってことかな?ようわからん

    • 計数過程やパラメータ推定のところはようわからんかったけど,λ=(イベントの総回数)/(観測時間)ってところは血眼で記憶した.WBにも覚えろって書いてあるし.

多変量解析

大事.正直どこまでが統計的推測で,どこからが多変量解析なのかあまりよくわかっていない.

  • 16章 重回帰分析
    覚えることが結構多いし新しい概念ばかりで解りにくい.前章に引き続き,結構苦しいところ.

    • いきなりようわからん行列がたくさん出てるけど,ようは目的変数と説明変数がたくさんある状態での回帰をしましょうって話.
      残差平方和 Σ(Y-Xβ)^2を最小にするβを求めたい話なので,この形を線形代数の微分をしてこねくり回すとβの推定量βhat=(XtX)^-1 XtY が出てくる.これそのものがそれぞれの説明変数につく回帰係数.過去問2016-論述2が良問なのでこれでイメージを掴めばいいと思う.両辺にXをかけてXβ=X(XtX)^-1 Xtとして,H=X(XtX)^-1 Xをハット行列とおいているのも大事ポイント(17章)

    • 決定係数は R^2=1-(残差変動)/(全変動) = (回帰変動)/(全変動)で,回帰直線で変動をどれだけ説明できたかを表すパラメータ.
      自由度調整済み決定係数はR*^2=1-(n-1)/(n-d-1)((全変動)/(残差変動))で,R*^2=1-(n-1)/(n-d-1)(1-R^2)であることも知っておこう.自由度調整済み決定係数は負になりうることも知っておくと戸惑わない(過去問2016-問6).

    • 正則化までは捨てた.

    • 正則化が大まかに何をやっているかと覚えるべき正則化の違いについても理解しておく.

      • 正則化はデータの過適合を防ぐためにペナルティを課してパラメータの取捨選択をしている.下記の謎の覚え方をした.

        • リッジ→「シ」は点が2つ→L2正則化→正則化項は2乗→円→滑らかに収束して0にならない→スパース性を持たない

        • ラッソ→「ソ」は点が1つ→L1正則化→正則化項は1乗→直線→0のところでエッジが立つ→スパース性を持つ

        • エラスティックネットはその中間.Fused lassoは過去問2019-問8が面白い.

    • 演習問題でいきなりAICとかCVとか出てくるが,詳細は30章なのでとりあえず名前だけ覚えておく.罰則項のパラメータλを変化させていったときに回帰曲線がどういう形を取るだろうかという点に思いを馳せながら解く.
      λが小さいと残差が小さいがCVスコアは大きい→過適合している.
      λが大きいと残差もCVスコアも大きくなる→説明変数が不足している.
      ということで,ちょうどいいλにする必要がある点も合わせて.

  • 17章 回帰診断法
    特筆すべき内容は少なく,独立してて簡単な分野.
    ハット行列,コックの距離,てこ比といった用語とそれぞれのグラフの見方は把握しておく.アンスコムの例でググる.DW比は27章でやるのでスキップ.

  • 18章 質的回帰
    y=β0+β1x+β2x…の式の,yにいろんな変換を施した上で,得られたyの値を,二値や計数を持つ分布のパラメータにしようという考え.それぞれの形を覚える.

    • log(y/y-1)=β0+β1x+β2x… ロジット
      ロジスティック変換は計算できるように.

    • Φ^-1(y)=β0+β1x+β2x… プロビット
      限界効果も忘れずに.みたい変数で偏微分する.累積分布関数の微分が確率密度関数であることも忘れない.

    • log(y)=β0+β1x+β2x… ポアソン

  • 19章 回帰分析その他

    • トービットモデルは最初のところだけちょこっとやってほとんど無視した.打ち切りがあるってだけの認識

    • 生存解析やハザードモデルはそこそこしっかりやった.指数分布はハザードを計算するとλで定数,ワイブル分布とかにしてあげることでハザードを時間の関数にすることができる.2重ログの式はハザード関数が生存関数のログのマイナスの微分であるところからなんやかんや導ける.

    • 比例ハザードmの出るはh0(t)の形を指定していないのでロバスト性が高いモデルらしい.

    • カプランマイヤー曲線は死にそうな人をn人集めて1人死んだら生存率が生きてる人で等分された量1/nだけ減って,死にそうな人が大丈夫になったら(打ち切り),今生きてる死にそうな人の総数が減るから等分の目盛りを書き直すみたいな感じ(伝われ)

    • ニューラルネットワーク 用語は覚えるべき.ReLU関数,シグモイド関数は形も見ておくといいかも,私は応用情報技術者試験の過去問R1午後問3をといたことがあってなんとなくイメージは掴めていた.

  • 20章 分散分析と実験計画法

    • フィッシャーの3原則・一元配置分散分析は抜かりなく.2級範囲.
      P169まんなかの分散分析の95パーセント信頼区間には誤差分散と誤差の自由度使うの,忘れやすい.

    • 2元配置・ブロック因子導入は新出.2元配置は交互作用の平方和と自由度の求め方を忘れやすい.ブロック因子は導入の理由を明確に説明できるようにしておく.問20.5がいい例.ブロック因子自体の変動が大きい場合にその影響を誤差項から分離できるので影響が見やすくなる.ただし,誤差の自由度が下がって,Vが大きくなることもありうるので,そこはトレードオフ.

    • 直交表は穴埋めできるようにしておく.適当な2列を選んだときに全ての組み合わせが同じ回数だけ出るというルールを守る.個人的には1と2で記述するより1,-1の方が好き.掛けることで(1,1)と(-1,-1)が等価であることも示せるし.交互作用とかも列に書き足していくうちに,列の成分が全く同じところができたら交絡となって違いを抽出できなくなることも.

  • 21章 標本調査法

    • 箸休め回.ここで覚えておくのはそれぞれの抽出法と有限修正とネイマン配分法くらいか.(21.2)式 必要標本の大きさは導出可能なので覚える必要なし.ネイマン配分法は分散も考慮に入れている点がポイント高い.

  • 22章 主成分分析

    • 多変量解析の主人公.分散共分散行列あるいは相関行列を作るところが1stステップ.それの固有値,固有ベクトルをで軸をとり直してあげることで,説明力を保ったまま次元を削減したいという意図を把握する.元の分散を固有値の大きさで配分するイメージは,固有値の大きさで円グラフを作ってあげる,パレート図を作る感じで捉えた.
      例題については,各主成分同士が直交すること,(内積が0, それぞれの元の成分をかけたやつを足し上げた値が0)固有ベクトルの大きさが1であること(それぞれの元の成分の二乗和が1)はとりあえず確認しておく.

    • 主成分負荷量の式も覚える.自分が今分散共分散行列でやってるか相関行列でやってるかはちゃんと把握しておいて,相関行列でやってるときは分散が1なので,分母は1になる

    • バイプロットのバイは2

  • 23章 判別分析
    多変量解析の鬼畜.いってる意味がようわからん章ベスト1.ここはけっこう直前暗記に頼りました‥

    • 判別関数に代入して正負によってラベルが貼られるという点と射影方向が群間分散/郡内分散を最大化する方向っていうのは覚えていった.マハラノビス距離は分散を考慮した等高線の距離というお気持ちだけ,正準判別分析,SVMは例題だけ解けるようにしてほぼ捨てた.

    • ROCは頑張った.それぞれの言葉の意味は英語で覚えるとわかりやすいし,閾値を変化させていっているイメージを持つことが大事.閾値を変化させたときのTPR,FPRの軌跡がROC曲線.AUCは全然判別できてない場合はTとFを同じ割合で拾うので下限0.5で,しっかり判別できている場合は全てのTを拾ってからFを拾い始めるので1になるイメージ.

  • 24章 クラスター分析
    結構楽だし面白い.

    • 距離の定義と名前は覚えておく.碁盤を進むマンハッタン距離,直線距離のユークリッド距離,一般化したミンコフスキー距離.

    • リンクさせる方法も確実に,次に近いのはどれかとかを考える問題も頻出だけど,頭で考えるとぜったいにこんがらがるから(特に最遠隣法)絶対にコーフェン行列を描きながら結合していった方がいい.

    • K平均法は重心どうしの垂直二等分線でクラスター分けしているイメージを持つ.重心の計算の仕方も.

    • デンドログラムも頻出なので読み方を理解.Heightで横に切ればその距離を閾値とした時に何個クラスターができているかがわかるということも知っておく.

  • 25章 因子分析・グラフィカルモデル
    ともすれば多変量解析とごっちゃになりがちな章.グラフィカルモデルは最後まであまり得意じゃなかった.

    • 共通性と独自性は2乗の形で表されていて,足すと1になる.共通因子で表現できなかった変動が独自性.因子得点のプロットのベクトルの大きさが共通性

    • 回転もイメージを掴む.軸を取り直すことで解釈を容易にする.直交回転と斜交回転,独立と仮定できる場合は直交回転,

    • 過去問2018-問11が優秀.

    • 有向グラフで2つの矢印が1つの頂点に向いていたら無向グラフでは矢印元の頂点同士をくっつける.

    • 問25.2は「別の要素をかけて期待値を取る」という操作が重要.標準化されているので1つの変数の二乗の期待値は1,2つの変数の積の期待値は独立ならば0,独立でないなら相関係数.というのは一応式を書いて腑に落ちておく.

  • 26章 その他の多変量解析手法

    • なかなか難しいので,結構読み飛ばした.例題にならってエッカートヤング分解はとりあえずできるようにしておいただけ.次元数が1だと数直線上で表すしかないから距離を表現しきれないけど,次元数が2だと面で表せるから元の距離行列を完全に再現できるっていうお気持ちだけ…

種々の応用

絶対に押さえておいた方がいい章やポイントもあれば,流し読みだけすればいい章もある気がする.

  • 27章 時系列解析
    大事.多分確実に毎回1問くらいは出ていると思うし,取れるところは確実に取りたい(図の問題が出たらサービス).式,図を連携させて理解したい.

    • 自己相関と自己共分散,定常過程の定義は式と図で確認する.自分といくつずらしたやつが相関性が高いかで周期性を見る感じ.

    • ホワイトノイズはそれぞれの時間ごとでもっている特有のノイズだから添字のt がつく.MA過程は前の時間のノイズにどれだけ引っ張られているかを見るやつ.余談だけど全ての周波数を等しく含む白色光が名前の由来で,全ての周波数の波を等しくミックスしている.

    • ARとMAは定義と式,図をしっかり覚える.P248の表のようになる理由を説明できるようにしておく.

      • 前の状態をφだけ引きずるのがAR過程 (autoregressive) .漸化式の形をほぐしてΣで表すタイプの式変形や,同じ時間・違う時間のものをかけて期待値を取る分散や自己共分散を求める式変形はできるようにした.時系列グラフは自己相関係数の値によって形が変わって,絶対値が1未満なら0近傍をうろうろし続けて,1に近ければ低周波,-1に近ければ正負の逆転がつねにおこるから高周波となる.1より大きければ発散することも.
        定常であることの条件(解が単位円の外にいる)については過去問2019-問12が理解しやすい.AR(1)の自己相関係数のグラフのh=1は相関係数に一致していることも併せて

      • 前のノイズを引きずるのがMA過程.同様に同じ時間や別な時間のものをかけて期待値を取ることで自己共分散を表す式変形を覚える.違う時間のホワイトノイズをかけると0.

    • スペクトラム,ペリオドグラムは横軸に周波数をとっているだけのイメージ.厳密な計算はパスした.DW比も系列相関の検定で一次の自己相関係数を見るもの・2に近いほど系列相関がないもの,というお気持ちだけ.

  • 28章 分割表

    • そこまで丁寧にやっていない.オッズ比の求め方,logORの推定誤差,カイ二乗適合度検定,逸脱度の計算(尤度比検定),フィッシャーの正確検定を例題が解けるレベルまで覚えてさらっとやった程度.フィッシャーの正確検定は分割表の制約条件の穴埋めのやりかたや,P値を足しあげることとかは意識して覚えておこう.

  • 29章 不完全データの統計処理

    • MCAR,MAR,MNARの用語の意味とそれぞれの欠損により分散や平均値がどう見積もられるかはしっかり把握しておく.補完のやりかたによってどう変わるかも.例題のテストの点がイメージしやすい.EMアルゴリズムはとけたろうのチートシートと過去問2016-問12でなんとなく理解したが,ほぼ捨てた.

  • 30章 モデル選択

    • 何気大事な章.回帰分析の前にきていてほしかった.事前にオッカムの剃刀の概念について把握しておくといい.AIC,BIC,CVの特徴を掴む.どんな罰則項がついているか,サンプル数によってどうなるか,計算量とモデル選択の一致生について過去問2021-問7が良例.具体的な計算式の中身までは多分覚えなくてもいいと思うが,残差平方和Seが出てくるのと,切片と分散の項を含んでいるから+2されていることには注意したい.

  • 31章 ベイズ法

    • 結構面白くて好きな章.パラメータ推定において事前分布を尤度で修正していきましょうという概念.共役事前分布の概念が何よりも重要で,3種類確実に覚えるべき.式を書いて,パラメータがどう変化するのかまで触れた方がいい.ベータ二項分布はθと1-θの項が,ガンマポアソン分布はλとeの肩のものが一緒だから同時分布でかけた時に足されるよねという話.正規正規は過去問2019-問7が良問.解答を見るとげんなりするけど,観測値と事前平均を分散で(観測値は標本分散で)内分したものが事後平均で,事後分散は調和平均になっていることを抑えておけばよい.MCMC法は鳥がう⚪︎こをおとしながら移動しているイメージで理解した.伝われ.

  • 32章 シミュレーション

    • 誘導に乗っていけば解けるかなと思ったのであまりやっていない.例題と過去問2015-問14を流し読みして標準偏差を求める流れは理解した.ブートストラップも名前と意味くらいは.

総括

  • 3ヶ月立つと結構忘れている…ということを実感した.

  • 統計検定1級取得に向けて久保川本などで勉強しているが,その目線からワークブックを見直すと面白い発見がたくさんあった.

  • 間違って覚えている点などあるかもしれないので流し読み程度でみてください!イメージが大事なのでいろんな文献やyoutube動画などの自分の好きな図表を見つけてそれで理解するのがおすすめです.


長文失礼しました.
この記事が少しでも何かのお役に立てれば幸いです.

いいなと思ったら応援しよう!