見出し画像

因果性に重きを置いた「ガクチカ」を書くとどうなりそうか

【1. 問題の所在〜ESには擬似相関が多い?〜】


"エントリシートにおける「ガクチカ」(=学生時代に力を入れたこと)には擬似相関が散見される"
と言うエントリを見かけた。擬似相関と呼ぶかは置いておいて、「まぁたしかにそうだな」と思う点もある。
すなわち、ESには「●●という施策を実行し、▲▲という効果がありました」と自分の頑張りによる効果を主張するものが多いが、「それってほんまにお前のおかげなん?」ということである。

思考実験として、ガクチカにおいて因果関係をきちんと証明しようとするのであればどうなりそうか、ちょっとだけ楽しそうなので考えてみる。

【2. そもそも擬似相関とは】


ウィキペディア大先生によると、

In statistics, a spurious relationship or spurious correlation is a mathematical relationship in which two or more events or variables are associated but not causally related, due to either coincidence or the presence of a certain third, unseen factor (referred to as a "common response variable", "confounding factor", or "lurking variable").
Wikipedia

ということである。
まぁ要するに「交絡している」というやつである。

例えを出すと、「朝ご飯に和食を食べている家庭の子供は、学力が高い」と言う相関関係があったとして、
実はその裏には「家庭の世帯年収」という第3の変数があり、その「世帯年収」が「朝ごはんが和食であること」と「学力が高い」という2つの変数どちらにも影響及ぼしている、といった状態である。
「なんか関係があるように見えるけど、ほんまは関係ないんじゃないの?」ってことである。

統計の世界では特に、「擬似相関」というと先に述べた交絡している状態をいうことが多いが、ここはぐっと堪える。

【3. ガクチカにおける"擬似相関"】


見かけたエントリによると、ガクチカにおける疑似相関とは、たとえば、

"サークルの退会率が高いという問題意識から、その解決策としてAという施策を実行し、その結果退会率が下がった"

…みたいなことらしい。

確かに、たとえほんとに退会率が下がったとしても、「それほんまにお前の努力のおかげなん?たまたまやろ」とツッコミたくなる。

よりわかりやすくするためにAという施策を「週1で開催していた飲み会を週3に増やす」という施策だと仮定してみる。だいぶきもいけど。

【4. 因果関係の証明】

見かけたエントリでは、

実施した施策以外の原因を複数見つけられている場合は、『疑似相関』ではなく、因果関係がある可能性が高い。
しかし、原因を1つしか考えられていない場合は『疑似相関』である可能性が高い。

ということらしいのだが、それは違う。

原因が複数考えられていても、正当な手続きで検証しなければ因果関係は証明できないし、逆に、原因が1つしか想定されていなくても、正当な手続きで検証できれば因果関係は証明できる。

そもそも、「因果関係の証明」はかなり難易度が高く、そう簡単にできることではない。
特に社会科学系の研究であれば、多くの研究が基本的には相関関係の検証が限界であることが多く、2変数の時間的順序や外的要因/内的要因による区別を持って、考察を伸ばすケースが多い。

それでも、因果関係の証明にはいくつかの方法があり、よく使う手法としては、
①ランダム化比較試験
②回帰不連続設計法
③パネルデータ分析

あたりだろうか。

参考文献↓

ランダム化比較試験は、因果関係を特定するのには最強の方法である。

そもそもなぜ因果関係を導くのが難しいかというと、
施策の「介入を受けた場合の結果」と「介入を受けなかった場合の結果」の両方を観測することが基本的には不可能だから
、である。

ランダム化比較試験は、この「介入を受けなかった場合の結果」、すなわち反実仮想的事実を実験により生み出すことが可能であるため、介入効果(=因果関係)をかなり厳密に測ることができる
その反面、ランダムに対象を実験群と統制群に振り分けることが技術的にかなり難しく、コストもかかることが難点である。

②回帰不連続設計法と、③パネルデータ分析は、広義には「自然実験」という、「あたかも実験が行われたかのような状況をうまく利用して因果関係を特定する」という方法である。
回帰不連続設計法については、日本の医療費自己負担制度における重岡助教授の研究など有名な研究があるので、興味のある方は調べてみてもいいかもしれない。
パネルデータ分析については、回帰不連続設計法と比較して「オッカムのカミソリ」的な観点では弱い一方、その分活用できるシーンも多いため、さらに多くの研究があり、こちらについても調べてみると楽しいかと思う。

【5-1. ガクチカへの応用〜ランダム化比較試験〜】


先程のガクチカの例、
「サークルの高い退会率を下げるため、飲み会を週1から週3に変更する」
と施策の効果を、ランダム化比較試験を使って検証したと仮定すると、このような形になるだろうか、、、

私は、サークルの高い退会率に問題意識を感じ、「飲み会を週1から週3に変更する」という施策を実行しました。
効果を測定するにあたり、サークルのメンバーを実験群と統制群にランダムに分け、実験群のメンバーのみ週3で飲み会に誘い、統制群には飲み会は週1に控えるよう強制しました。
その結果、週3で飲み会を行った実験群の退会率が統制群よりも低くなるという結果が得られ、私の施策は成功したと言えます。(どやあ)

退会率を下げた代わりにとんでもない暴君が誕生した。厳密な因果推論には犠牲が必要デス。


【5-2. ガクチカへの応用〜回帰不連続設計法〜】


回帰不連続設計法とは言えない気がするけど、無理やりやると…?

私は、サークルの高い退会率に問題意識を感じ、「飲み会を週1から週3に変更する」という施策を実行しました。
効果を測定するにあたっては、回帰不連続設計法を採用し、サークルメンバー全員の毎週の飲み会参加数を集計しました。
その結果、飲み会に参加する回数と退会率には有意な負の相関があり、しかも2回目と3回目の間で不連続な変化が観測されました。
一般的に、飲み会の参加数が週に2回か3回かでは、大きな変化はない、つまり、連続的な変化であると考えられるため、この不連続な変化は私の施策の効果ではないかと考えています。

こうしてみると、データの対象となっているサークルメンバーが飲み会の回数を主体的に操作できてしまうと言う点でやはり厳密な検証ではないと思われるし、
また、週3で飲み会を開催する施策をした上で、”きちんと”飲み会に3回参加するようなやつと、飲み会に参加しない奴とのあいだには、施策以外の様々な異なる要因があると思われるため、セレクションバイアスが極めて強くかかっている状況と言えるだろう。

そして、毎週飲み会の参加数を数える激キモサークル長が誕生している。

【5-3. ガクチカへの応用〜パネルデータ分析〜】

私は、サークルの高い退会率に問題意識を感じ、「飲み会を週1から週3に変更する」という施策を実行しました。
効果を測定するにあたってはパネルデータ分析を採用し、メンバーの退会数の時系列データを1年分取得しました。
比較対象として、飲み会が常に週1で開催されていた数年前の退会数時系列データを用いました。
私が週3で飲み会を開催するようになってから、つまり、「介入が始まった時期」からの2つの時系列データを比較すると、私が施策を実施した介入グループのみ退会数が減少したという結果が得られました。
パネルデータ分析で必要となる「平行トレンドの仮定」についてはさらなる検証を要するものの、少なくとも、「効果がないとは言い切れない」と思われます。

こうしてみると、分析の実現可能性はやはりパネルデータ分析が最も高そうではある。データもこっそり集計しておけば激キモサークル長のスティグマは避けられそうである。

【6. 結論】


キモい。
一応ちゃんと因果推論はやっているのに、だいぶキモい。

このキモさがどこから来るかと言うと、
やはり「サークルの退会率が高い」と言う問題意識と、その解決のために行った「飲み会の開催」という施策である。

別にサークルの退会率は、ほっときゃええし、飲み会も勝手にやりゃいい。
ガクチカに限らず、課題を見つけ、その解決策を実行し、効果を検証する、という一連の営みにおいては、何よりもまず、適切な問い・課題の設定が大事なんだろうと思う。

私が見かけたエントリの筆者も、たしかに疑似相関にも違和感があったであろうが、その根本には、問いのキモさへの違和感もあったのではないだろうか。

この記事が気に入ったらサポートをしてみませんか?