統計学習記録#9 -ベイズ統計-(統計学入門)
この記事は、阿部真人著『統計学入門』を読んで得た学びや考えを、私自身の視点で要約・考察したものです。
今回は第10章です。
前回までの振り返り
本題に入る前に前回の振り返りです。前回は線形回帰の考え方を拡張し、一般化線形モデルについて整理をしました。今まで整理したモデルは頻度統計学という枠組みに分類されるようで、今回はベイズ統計と呼ばれる異なる枠組みについて整理します。
読んだ内容のまとめ
1.統計学における不確実性の扱い
【統計学では、不確実性を確率で表現】します。頻度主義の枠組みでは、母集団から標本を抽出する際の不確実性を固定されたパラメータを持つ確率分布として捉え、データ x が現れる確率として表現します。この考え方を活用し、次のような手法が実現されます
仮説検定: 帰無仮説が正しい場合、観測データ以上に極端な値が出現する確率を評価。
最尤法: 観測データが得られる確率を最大化するパラメータを推定。
頻度主義での確率は「無限回試行した結果としての客観的な頻度」を意味します。
ここで前回記事で登場した最尤法が現れました。
2.ベイズ統計の考え方
一方、【ベイズ統計では、確率を「確信の度合い」として解釈】します。母集団分布をモデル化する際、パラメータの不確実性を確率分布として表現します。この枠組みでは、データを観測する前に持っている知識(事前分布)が、データを観測することで更新され、パラメータに関する情報(事後分布)が得られる流れとなります。
3.ベイズ統計の準備と推定
事前分布
データを観測する前に、パラメータがどのように分布しているかを設定します。知識がない場合には、一様分布や分散の大きな正規分布などを使用します。一様分布は、指定した範囲内でどの値も等しい確率で発生する分布を指します。つまり横棒一本の確率分布です。尤度
データが特定のパラメータの下で観測される確率を計算します。事後分布
事前分布と尤度を用いて、観測後のパラメータ分布を求めます。この計算には、近似的なアルゴリズムであるMCMC法(モンテカルロ法とマルコフ連鎖)を使用することが一般的です。
尤度についても前回記事に登場しています。
4.ベイズ統計の利点
パラメータの分布としての推定
結果を確率分布として得られるため、「パラメータがこの範囲にある確率は何%」といった定量的な評価が可能になります。複雑なモデルへの適用
MCMC法により、階層構造を持つ複雑なモデルでも、シミュレーションを通じて事後分布を求めることが可能です。これにより、頻度主義では困難なモデル構築が実現します。
5.MCMC法の概要
モンテカルロ法
多数の乱数を発生させてシミュレーションを行い、近似解を得る手法。マルコフ連鎖
現在の状態から次の状態に移る確率が、現在の状態のみに依存するというモデル。MCMC法では、この連鎖を利用して事後分布を近似します。
6.ベイズ統計の活用例
事前情報の統合: 過去のデータや専門家の知見を事前分布に組み込むことで、データ不足を補完。
不確実性の定量化: パラメータや予測結果の確率分布を得ることで、意思決定に役立つ不確実性の定量化が可能。
複雑な構造のモデル化: 階層モデルや非線形モデルなど、多様なデータ構造に対応。
ベイズ統計は、柔軟性の高いモデリング手法として、多くの応用分野で活用されています。
気づき
今回は主に【】書きをした箇所が私の気づきです。
不確実性の表現方法の違い
頻度主義は客観的な頻度を、不確実性の確率として扱う一方、ベイズ統計は主観的な確信度を基に不確実性を表現する。データからの情報更新
ベイズ統計では事前分布に基づき、観測データを通じて事後分布を得ることで、情報が徐々に更新されるプロセスをモデル化できる。
投資への活用アイディア
本を読んで考えましたが、理解が追いついていないところがあったので、『疑問点や今後の課題』でも例示を考えています。
様々なモデルのパラメータの推定
ベイズ推定を使って、資産のリスクやリターンを確率分布として推定し、不確実性を考慮した投資判断を可能にする。
疑問点や今後の課題
ずいぶん専門用語までたどり着きました。あと一歩でゴールに近づくのでまた理解が難しい単語について理論を補足していきたいと思います。
1.不確実性について
統計について調べていくと、たびたび不確実性という単語が登場してきます。今まで読み飛ばしていましたが、余裕が出てきたのか単語の意味があまりわかっていないことに気づきました。
不確実性とは「未来がどうなるかわからないこと」。そのままの意味でした。統計においては、例えば、明日の天気は晴れるかもしれないし、雨が降るかもしれない。こういう「はっきり決まっていないこと」を不確実性といいます。
2.事前分布の一般的な決め方について
実践で活用するにあたり気になったので調べてみました。
「事前分布」とは、「最初に考える予想」のことです。例えば、サッカーの試合で「どっちのチームが勝ちそうか?」を予想するとします。
Aチームはとても強くて、過去の試合の勝率が80%くらい。
Bチームは最近あまり勝っていない。
このとき、「Aチームが勝つ確率は80%くらいかな?」と考えるのが「事前分布」です。つまり、事前分布とは、「これまでの経験やデータをもとに、最初に決める予想の形」なのです。
事前分布の決め方にはいくつかの方法があります。
過去のデータをもとに決める(例:Aチームの過去の勝率を使う)
よく知らない場合は、すべての可能性を同じくらいにする(例:AチームとBチームの勝率を50%ずつにする)
3.『ベイズ』という単語が接頭語のワードの違いについて
ベイズについて調べていくと、ベイズ統計、ベイズ推定、ベイズ回帰・・・などたくさんのベイズが登場しました。簡単に違いや使い分けについて整理します。
ベイズ統計:過去の情報(事前情報)と新しいデータを合わせて推測する
ベイズ推定:ベイズ統計を使って、数値や確率分布を求める計算方法
ベイズ回帰:ベイズ統計を使った予測モデル
ベイズ分類:データをカテゴリーに分類する
ベイズネットワーク:変数同士の関係を確率でつなげる手法
ベイズ統計という考え方が元になって、様々なモデルに展開されているということでした。まだまだベイズなんちゃらはありそうです。
4.ベイズ統計の株式データ分析での使用例
上記の3を踏まえて、例示を考えます。
株価の予測
ベイズ回帰を使って、「過去の株価や経済データ」から「明日の株価の確率分布」を推測。
MCMC法で「最もありそうな株価の動き」をシミュレーション。
トレンドや異常の検出
変化点をベイズ推論し、価格変動が急に変わるポイントを発見。
異常検知をベイズ推論し、通常と違う動きをする銘柄を見つける。
ポートフォリオ最適化
リスク評価をベイズ推論用いて、各銘柄の「リスクがどれくらいか?」を柔軟に評価。
企業の財務分析
ベイズ回帰を用いて、売上や利益の将来予測を行う。
ベイズ分類を活用し、企業が「好調・普通・不調」になる確率を予測。
経済指標と株価の関係
ベイズネットワークを使い、GDP成長率や失業率が株価にどう影響するかを解析。
という感じで九回目は終了します。
ここまでまとめるのが非常に大変でした・・・読み返すとおかしなところや補記した方がいいこともあるので適宜直しているところです。投資への活用アイディアも理解が深まれば新しいアイディアも出てきているので適宜振り返りをしながら進めていきます。ということで次回で統計学入門に関する学習は一旦最後にしようと思います。