G検定 / 統計検定 相関と回帰 #1 相関と因果

株式会社リュディアです。今回からG検定 / 統計検定 相関と回帰についてまとめていきます。まず最初に用語の説明として相関関係因果関係についてまとめます。単に相関、因果と言う場合もありますが、このまとめでは相関関係、因果関係を使うことにします。

そもそも相関関係因果関係も統計学では2つ以上の変数の関連性を表す用語です。一般に相関関係は結果の分析から得られる情報なので確認が容易です。相関関係があるのでは?と考えた後、なぜ相関関係があるのかさらなる調査、研究を行い、結果として因果関係があるか無いかわかるわけです。そのため因果関係があるかどうかの確認は手間のかかることが多いです。

数学的な定義としては相関関係は因果関係の必要条件の1つであるが十分条件ではないと言えます。必要条件、十分条件がわかりにくければ、因果関係が成立するためには少なくとも相関関係が成立する必要がある、しかしながら相関関係が成立したからといって因果関係があるわけではないと理解してください。

一方で疑似相関、あるいは見かけ上の相関という関係もあります。Wikipedia には2つの事象に因果関係がないのに、見えない要因(潜伏変数)によって因果関係があるかのように推測されること。擬似相関は、客観的に精査するとそれが妥当でないときにも、2つの集団間に意味の有る関係があるような印象を与えると書かれています。

言葉としては疑似因果関係という言葉の方が適切なように感じますね...相関関係があるように見えるのに実際に因果関係が無いものという意味ですから。しかし疑似相関という言葉が一般に使われているのでそのまま使います。疑似相関でよくあるのは交絡(こうらく)因子潜伏(せんぷく)変数と呼ばれる因子を介して相関があるかのように見える場合です。

Wikipedia の疑似相関にある例を参照させていただきましょう。

ある街でアイスクリームの売り上げが最も高い時期には、プールでの溺死事故も最も多い

これは気温という潜伏変数を介して相関関係があるように見えることに気づきましたか。気温が高ければアイスクリームの売り上げが高くなる、また気温が高ければプールで遊ぶ人が多くなる、という双方に影響を与える潜伏変数が気温です。散布図で見る限りではアイスクリームの売り上げとプールの溺死事故は正の相関を持つような表示になると思いますが疑似相関ですね。

今回は相関関係因果関係疑似相関についてまとめました。

G検定 / 統計検定 相関と回帰に関するまとめの続きは以下からどうぞ。

では、ごきげんよう。



この記事が気に入ったらサポートをしてみませんか?