統計学習記録#8 -統計モデリング-(統計学入門)

この記事は、阿部真人著『統計学入門』を読んで得た学びや考えを、私自身の視点で要約・考察したものです。

今回は第8章です。


前回までの振り返り

本題に入る前に前回の振り返りです。前回は相関と回帰について整理しました。回帰については線形回帰と呼ばれる直線で表せる回帰について整理をしています。今回は、この考えを拡張し、一般化線形モデルについて整理をしていきます。


読んだ内容のまとめ

1.線形回帰の枠組みを広げる方向性

これまで学んだ線形回帰の枠組みを拡張する方法として、以下の3つが考えられます。

  • 説明変数の数や種類の変更
    単回帰から重回帰への移行、カテゴリ変数の取り扱い。

  • 目的変数の種類の変更
    二値データやカウントデータへの対応。

  • 回帰モデルの形状の変更
    一般化線形モデルへの拡張。


2.説明変数の取り扱い

  • 単回帰と重回帰

    • 単回帰は説明変数が1つの場合を指し、重回帰では複数の説明変数を扱います。
      例: $${体重 = 切片 + b1​ × 身長 + b2​ × ウエスト}$$

    • 重回帰では偏回帰係数を用いて説明変数の効果を評価しますが、説明変数間の単位の違いにより直接比較ができません。そのため、説明変数を標準化して得られる標準化偏回帰係数を用いることで、比較が可能になります。

  • カテゴリ変数の導入

    • 説明変数がYes/Noなどのカテゴリ変数の場合、0または1のダミー変数として扱います。

    • カテゴリが3つ以上の場合(例: 血液型)、カテゴリ数 - 1のダミー変数を用いて表現します。血液型の場合{1,0,0}のようなイメージ。3つ変数があれば4種類を表せる。


3.多重共線性とその対策

多重共線性は、説明変数同士が強い相関を持つ場合に発生します。この影響で回帰係数の推定誤差が増大し、信頼性が低下します。

  • 測定
    分散拡大係数(VIF)を用いて多重共線性の度合いを測定します。VIF > 10は強い相関を示します。

  • 対策

    • 相関の強い説明変数を除外する。

    • 主成分分析などの次元削減手法を適用する。


4.共分散分析

分散分析に量的変数(共変量)を追加する手法が共分散分析(ANCOVA)です。共変量が効果を持つ条件として、回帰の傾きが群間で同じであること(交互作用がない)を確認する必要があります。また、回帰係数が0でないことも必要です。


5.一般化線形モデル(GLM)

線形回帰では目的変数が連続的で正規分布に従うことを仮定しますが、実際のデータでは異なるケースが多々あります。一般化線形モデルは、誤差分布を柔軟に設定することで対応可能です。

  • ロジスティック回帰

    • 目的変数: 二値データ(例: Yes/No)。

    • 確率分布: 二項分布。

    • オッズ比: 結果を評価する指標。オッズ比の解釈には注意が必要です(オッズ比 = 2は2倍の確率を意味しない)。

  • ポアソン回帰

    • 目的変数: カウントデータ。

    • 確率分布: ポアソン分布。


6.高次元データの課題

【説明変数が多い高次元データでは、以下の問題が発生しやすくなります】

  • 次元の呪い: 次元が増えることで必要なデータ量が爆発的に増加。

  • 多重共線性: 推定精度が低下し、モデルが不安定になる。

次元削減や変数選択の手法(今後解説予定の主成分分析)を活用し、モデルの簡素化が必要です。


7.線形回帰の枠組みを超えて

回帰モデルを拡張することで、様々なデータに対応可能になります。例えば、最小二乗法ではなく確率分布に基づく最尤法を用いることで、モデルの適合度を確率的に評価できます。これにより、従来の線形回帰では対応できなかったデータタイプに対しても有効なモデル構築が可能になります。


8.一般化線形モデルにおける仮説検定とモデル評価

一般化線形モデルでも、通常の線形回帰モデルと同様に回帰係数に関する仮説検定を行うことができます。

  • 帰無仮説( 回帰係数 = 0 )

  • 対立仮説( 回帰係数 ≠ 0 )

推定値のばらつきを示す標準誤差を用いて、以下のような検定を実施します:

  • Wald推計量: 推定値 ÷ 標準誤差
    この推計量が正規分布に従うと仮定し、信頼区間やp値を計算する手法がWald検定です。


9.モデルの評価・比較手法

  • 尤度比検定

    • 複数のモデルを比較する際、データへの当てはまりがどれだけ改善されたかを尤度の比率で評価します。

    • 使いどころ: より複雑なモデルが実際に改善をもたらしているかを判断する場合。

  • 情報量基準

    • モデルの予測性能や説明力を評価する指標として、情報量基準が利用されます。【いくつかの予測モデルの中で、どれが一番よくデータを説明できるか?】を評価する基準です。

      • AIC(赤池情報量基準)
        モデルの予測精度を高めることを目的とした指標。AICの値が小さいほど良いモデルとされます。ただし、AICは「真のモデル」を選ぶ保証がない点に注意が必要です。

      • BIC(ベイズ情報量基準)
        モデルの単純性をより重視する指標で、AICに比べて複雑なモデルに対するペナルティが大きい。


気づき

今回は主に【】書きをした箇所が私の気づきです。

  1. 高次元データの課題
    多重共線性や次元の呪いがモデルの精度に悪影響を与えるため、適切な次元削減や変数選択が不可欠。

  2. モデル評価の多様な手法
    尤度比検定や情報量基準(AIC、BIC)を用いることで、モデルの適合度と単純性のバランスを考慮した評価が可能。


投資への活用アイディア

  • ダミー変数の活用
    ダミー変数を用いて、曜日などアノマリー的な人間が見るだけでは気づけないような相関が見つかるかもしれない。

  • 高次元データの効率的な活用
    主成分分析などの次元削減手法を導入して、過剰な説明変数を整理し、効率的なファクターモデルを構築。

  • モデル評価
    単回帰や重回帰をそのまま株価への適用は難しそうだが、今現在、時系列分析についてインプットをしている最中で、この辺りを理解していないと読み進められなそう。また、モデルの評価方法も同様にこれからいろいろなところで登場しそう。


疑問点や今後の課題

新しい単語が一気に登場して今回はハードルが高かったです。本を読んでみて理解が難しかった点について調べてみました。

1. 偏回帰係数で説明変数間の単位を比較する理由
偏回帰係数は説明変数の単位に依存するため、単位が異なる場合、直接比較してどの変数が目的変数に強い影響を与えているかを判断することは困難です。そのため、以下の場合に標準化偏回帰係数を用いて比較を行います。

  • 目的: どの説明変数が目的変数に対して相対的に大きな影響を与えているかを評価する場合。

  • : 身長(cm)と体重(kg)が目的変数に与える影響を比較する場合、単位の違いを除くために標準化が必要です。

2. 多重共線性について理論補足
多重共線性とは、説明したいデータを予測するための要素(変数)が、お互いに似た情報を持ちすぎていることを指します。これがあると、どの変数が本当に影響しているのかが分かりにくくなります。

  • 株式データ分析の例: 株価の変動を予測するときに、「日経平均株価」と「TOPIX(東証株価指数)」の両方を説明変数として入れたとします。
    しかし、日経平均とTOPIXは似た動きをするため、どちらが株価の変動に影響しているのかが不明確になり、正しく分析できなくなることがあります。

3. 共分散分析(ANCOVA)の必要性

共分散分析は、2つ以上のデータ(変数)がどのように関係しているかを調べる方法です。例えば、「気温が上がるとアイスの売上が増えるか?」のような関係を数値で測ることができます。共分散分析は、以下の状況で必要とされます。

  • 分散分析の精度向上:
    グループ間の差を分析する際に、量的変数(共変量)が目的変数に影響を与えている場合があります。共分散分析では、共変量の影響を統計的に調整して、純粋なグループ間の差を評価します。

  • 株式データ分析の例: 株価と企業の業績(利益)がどれくらい関係しているかを調べるために使います。例えば、「企業の売上が増えると、その企業の株価はどれくらい上がるのか?」を調べる際に共分散分析が使われます。

4. 尤度と最尤法の補足

尤度は、あるデータが発生する可能性(確率)のこと。最尤法は、観測されたデータが得られる確率を最大化するようなパラメータを推定する方法です。よりイメージでいうとデータを最もよく説明できるパターンを探す方法になります。

  • 考え方:

    1. データが特定の確率分布(例: 正規分布、二項分布)に従うと仮定します。

    2. その確率分布に基づき、観測データが発生する「尤度」を計算します。

    3. 尤度が最大になるようなパラメータを推定値とします。

  • 利点:

    • 最小二乗法よりも柔軟で、線形回帰モデル以外(ロジスティック回帰、ポアソン回帰など)にも適用可能。

    • データの確率構造を明確に考慮できる。

  • 株式データ分析の例: 株価の動きを説明するために、どのモデル(計算式)が一番合っているか? を決めるときに使います。
    例えば、「過去の株価の動きに最も合うトレンドモデルを選ぶ」ために最尤法を使います。

最尤法は、データの生成プロセスを確率的に考える解析で多用され、回帰分析を拡張した一般化線形モデルの基盤にもなっています。


ということで第8回目を終わります。本当は計算式がたくさん出てくる内容ではありますが、計算式なしでどう表現するかを考えて記載をしました。統計学について薄く広く学習を進めていますが、あと少しでゴールを迎えられそうです。もう少し頑張ってアウトプットをします。

いいなと思ったら応援しよう!