統計と因果と事前登録
備忘録として書き留めておくメモです。筆者は素人なのでくわしく知りたい方は書籍やネットで調べることをおすすめします。
●統計による検証の基本的問題
我々はものごとを考える時に因果を気にすることが多い。レポートや論文を読んでも、主たるテーマあるいはテーマでなくてもあちこちに、因果にまつわる話が出てくる。そして、多くのレポートや論文は統計によって仮説を検証する。すごくおおざっぱに言うと3段階を経て結論に至っている。3段階全てに課題があり、恣意的な結論を導くような研究はさまざまな方法で可能となっている。
仮説→「調査、実験、観察→統計」→結果の解釈
最初に立てた仮説を「調査、実験、観察→統計」で現実のデータをつきわせ、その結果を解釈する。この3つそれぞれに課題がある。
「調査、実験、観察→統計」については実施上の問題、テクニカルな手法上の問題などがあり、それはすでにいろいろと指摘されている。
仮説と結果の解釈については、たとえば出て来た結果で統計的に有意なものを仮説にしてしまう後付けなどの問題がある。
科学研究はきわめて政治的、経済的な側面を持っており、スポンサーや研究者自身の野心がその研究内容に影響を与えることもある。これは3段階すべてに影響する。
再現性の危機を契機に事前登録を行うなどこうした問題についての対策がとられてきた。事前に仮説や解析手法を登録しておくことで、有意な結果を探して仮説を変えることや、有意な結果が出るまで解析を繰り返すことを避けられる。
統計においては相関があって、その中で一定の条件を満たすものが因果があると認められる。たとえば統計的有意性や、因果関係の仮説で統計的に相関が存在していれば因果ありとするものもある。
●因果関係
前述のように因果関係は多くの研究においてきわめて重要だが、その扱いは標準化されているとは言えない。たとえば統計的因果推論では因果関係を表現するためのダイアグラムや数式で因果関係を表し、それに基づいて仮説をたて、実験・観察・調査計画を行い、結果を想定した因果関係にしたがって解釈する。
仮説の段階で統計的因果推論のダイアグラムや数式で構造を整理することはきわめて重要だ。なぜなら交絡効果の存在を確認し、回避方法をそこで計画できる。また、結果の解釈もその因果関係に限定される。当初想定していなかった内容を結果を見て付けたした場合、そのむねの注記が必要となる(事前登録しておけば)。
たとえばある調査で、キャンディの消費量と結婚年数で強い相関が認められたとする。この場合、年齢がキャンディの消費量と結婚年数に影響を与えているため、年齢を考慮しないで相関を見るとキャンディの消費量と結婚年数の間に因果関係があると誤解する。これはわかりやすい例だが、実際にはもっと複雑でわかりにくいことの方が多い。想定できる要因と未知の要因がもたらす交絡効果の影響を受けないようにデザインしなければならない。このへん興味ある方は、「統計的因果推論 バックドア基準」で検索すると、いろいろ参考になるものが見つかると思う。
私がよく参照する偽情報やデジタル影響工作の論文でもRCTなどの手法を用いているものはあるが、仮説で因果関係をダイヤグラムあるいは数式で整理し、研究をデザインしているものは多くない。
ネットの記事や新書の類いでは統計の解説を主たる目的にしているもの以外では見たことがない。
統計的因果推論には一部の人には受け入れがたい特徴がある。因果推論は事前に想定した因果モデルに殉じて行われる。従って、異なる因果モデルを用いた場合、異なる結論にいたる。唯一の正しい結論、排他的な結論がない。
●なにが言いたいかというと
なにが言いたいかというと、下記の2点になる。
・事前登録や統計的因果推論を採用している論文はまだ多くなく(統計的因果推論に関しては特に仮説部分)、そういうのはちょっと信用できないかも。データサイエンスの流行で「調査、実験、観察→統計」で恣意的な仮説をロンダリングするケースが増えそう。
・統計的因果推論は排他的な結論をもたらさないため、同じ対象、同じ手法を用いても因果モデルが異なれば統計的に正しい結論は複数存在する。
関連記事
『因果推論の科学』はあらゆる科学を横断する因果推論について学べる本だった
本noteではサポートを受け付けております。よろしくお願いいたします。