統計学習#4 -仮説検定-
この記事は、阿部真人著『投資学入門』を読んで得た学びや考えを、私自身の視点で要約・考察したものです。
今回は第五章です。
まず本題に入る前に推測統計について振り返りです。
母集団の一部である標本から母集団の性質を推測する標本調査で、推測統計の手法を用いて母集団を推測していかなければなりません。
この推測統計の基本的な枠組みとして信頼区間について前回整理をしました。今回はもう一つの重要な枠組みである仮説検定について整理をします。
読んだ内容のまとめ
仮説の検証について
研究やビジネスのデータ分析において、実験や観察を行う前に仮説を立て、その仮説が正しいかどうかを検証する作業は、対象を深く理解するための重要なプロセスです。このアプローチを「仮説検証型データ分析」と呼びます。一方、あらかじめ仮説を設定せず、データを広く探索して特徴や傾向をつかむ手法は「探索型データ分析」と呼ばれます。探索型分析は、新たな仮説の候補を見つけたり、データの構造を把握する目的で行われます。
仮説検定について
仮説検定の基本的な考え方を説明します。ここでは、薬の効果を実験データで検証する例を用います。薬を投与したグループ(治療群)と偽薬を投与したグループ(対照群)を比較することで、薬の効果を評価します。このような比較は、2つの「グループ」(または群)間で行われます。ちなみに、2つのグループ間の比較については二標本t検定と呼びます。なお、他にも仮説検定の手法は複数あり、次回の記事で整理をします。
統計学における仮説とは
仮説検定では、薬に効果があるかどうかを調べます。たとえば、治療群(母集団A)と対照群(母集団B)の血圧を比較します。薬に効果があるという仮説は、治療群の平均値(μA)が対照群の平均値(μB)と異なることを意味します。
帰無仮説と対立仮説
仮説検定では、「検証したい仮説」の否定形を帰無仮説(H0)とし、検証したい仮説を対立仮説(H1)として設定します。
帰無仮説 (H0): 薬に効果がない(μA = μB)。
対立仮説 (H1): 薬に効果がある(μA ≠ μB)。
この設定に基づき、帰無仮説が正しいかどうかをデータを使って検証します。帰無仮説が否定されれば、対立仮説を支持する根拠となります。
母集団と標本の関係
母集団から得られる標本平均は、母集団平均からランダムにズレることがあります。たとえ帰無仮説(μA = μB)が正しい場合でも、標本間の平均値にはばらつきが生じます。そのため、標本平均の違いが偶然によるものか、それとも薬の効果によるものかを区別する必要があります。この考え方が仮説検定の基盤となります。
帰無仮説が正しい世界を仮定する
仮説検定の手順では、まず帰無仮説が正しいと仮定します。これは「治療群と対照群の母集団平均値(μAとμB)が等しい世界」を仮想することを意味します。この仮想の世界では、標本を取得するたびに平均値は確率的に変動し、差異が発生します。標本間の差異を分布として表すと、平均値は通常0に近い形となります。
p値の概念
次に、実際に得られたデータから計算された標本平均の差が、仮想世界でどの程度起こり得るかを評価します。この評価にはp値を使用します。p値は、帰無仮説が正しい場合に、観測されたデータがどれほど「起こりにくい」かを表す確率(0から1の間の値)です。
p値と有意水準(α)による仮説の判断
p値が小さい場合(例: p<0.05): 帰無仮説が正しい世界では観測されたデータは非常にまれであると考えられるため、帰無仮説を棄却し、対立仮説を支持します。このとき、「統計的に有意な差が見られた」と表現します。ただし、対立仮説が絶対に正しいことを示すものではなく、その支持材料が得られたに過ぎません。
p値が大きい場合(例: p≥0.05): 帰無仮説を棄却する根拠がないため、「統計的に有意な差が見られなかった」と結論付けます。これは帰無仮説が正しいと断定するのではなく、「誤りとは言えない」という意味です。
有意水準(α): p値と比較して仮説を判断する基準値で、一般に0.05が用いられます。
第一種の過誤と第二種の過誤
仮説検定においては、データに基づいて帰無仮説を棄却するかどうかを判断しますが、その判断には誤りが含まれる可能性があります。特に重要なのが、第一種の過誤と第二種の過誤のリスクです。
第一種の過誤(Type I Error)
定義:
帰無仮説が正しいにもかかわらず、それを誤って棄却してしまう誤り。例:
本当は薬に効果がない(帰無仮説が正しい)のに、データの偶然的なばらつきにより薬に効果がある(対立仮説を支持する)と結論付けてしまう。確率(α\alphaα):
第一種の過誤を犯す確率は、有意水準として設定されます。通常、α=0.05(5%)が用いられ、これは「5%の確率で誤って帰無仮説を棄却する可能性がある」ことを意味します。影響:
第一種の過誤は「誤検出」を引き起こし、実際には存在しない効果や差を見つけたと誤認するリスクがあります。
第二種の過誤(Type II Error)
定義:
帰無仮説が誤っているにもかかわらず、それを誤って採択してしまう誤り。例:
本当は薬に効果がある(対立仮説が正しい)のに、データのばらつきにより薬に効果がない(帰無仮説を棄却できない)と結論付けてしまう。確率(β\betaβ):
第二種の過誤を犯す確率はβで表されます。検定力(1 - β)として、第二種の過誤を避ける能力を測ることができます。通常、検定力は80%以上(β=0.2下)とすることが望まれます。影響:
第二種の過誤は「見逃し」を引き起こし、実際に存在する効果や差を検出できないリスクがあります。
第一種の過誤と第二種の過誤のトレードオフ
第一種の過誤(α)と第二種の過誤(β)は、仮説検定においてトレードオフの関係にあります。つまり、一方の誤りを減らそうとすると、もう一方の誤りが増える可能性があります。この関係性を理解し、分析の目的に応じて適切なバランスを取ることが重要です。
まとめ
仮説検定は、データを用いて帰無仮説を検証し、対立仮説を支持するかどうかを判断する統計手法です。「仮説検証型データ分析」として、事前に立てた仮説を検証するプロセスが重要です。一方、「探索型データ分析」は、仮説を設定せずデータの傾向を探るアプローチです。
仮説検定では、p値と有意水準(α)を比較して判断を行い、判断には誤検出と見逃しのリスクが伴います。両者のトレードオフを考慮し、分析の目的に応じたバランスを取ることが求められます。
気づき
リスク管理におけるトレードオフ
第一種の過誤(誤検出)を避けようとしすぎると、チャンスを見逃す可能性(第二種の過誤)が高まる。これにより、投資戦略で「慎重すぎてエントリーを逃す」状況が発生する可能性がある。
一方、積極的にエントリーを増やすと、間違った判断で損失を招くリスクも高まる。
サンプルサイズの重要性
投資戦略の検証において、十分なデータ量を確保することが精度向上の鍵である。特に短期間のデータでは、ランダムな変動に惑わされる可能性が高い。
データが不十分な場合、小さな差が誤って有意と判断されるリスクがある。
仮説検定の柔軟な設定
投資戦略の性質に応じて、有意水準αや検定力(1 - β)を調整することで、適切なバランスを取る必要がある。
たとえば、高リスク・高リターン戦略では、αを緩く設定してチャンスを逃さないようにする一方、低リスク戦略ではαを厳しく設定する。
投資への活用アイディア
仮説検定を活用した戦略評価
投資戦略の有効性を仮説検定で評価し、帰無仮説を「戦略が市場平均と同じパフォーマンスを持つ」と設定。
第一種の過誤を避けるため、仮説検証のバックテストでは有意水準αを小さく設定(例: α=0.01)。
ただし、戦略のアイデア段階では探索的分析を優先し、αを緩めに設定して仮説候補を広げる。
疑問点・今後の課題
仮説検定については様々な計算種類があることが記載されていました。今後、仮説検定の種類については整理をしていきます。
また、第一種過誤と第二種過誤のトレードオフな関係について、α、β、サンプルサイズ、効果量の関係性についても言及がありましたが、これも別途せいろをしていきます。
という感じで四回目は終了します。
仮説検定はとても活用シーンが多い重要な考え方なのでしっかり理屈を抑えて使いこなしたいです。