相関と因果をもう一度
『データは見方が8割』では1週間に1本データに関する記事を発表していきたいと思います。
よくある相関と因果の話。これをもう一回考えてみましょう。
こちらの図、Twitterでちょっと前、話題になっていたのですがご覧になった方はいるでしょうか?
まずは相関
まずは、相関から考えてみましょう
相関を理解するために、質問です。
相関の反対は何でしょうか?
ぱっとでますか?
ここから有料にするといいのかしら なんて、答えまでの感覚を少し開けております。
正解は、独立です。(統計学的な意味なのかな)
独立というとイメージしやすい例といえば、サイコロを2個順番に振ったとしても、1回目の出た目が2回目の出る目に関係ないというときに使うあれです。1回目偶数、2回目奇数が出る確率は?という問題を中学校とかでやったのではないでしょうか?
二つが独立なので確率を掛け合わせるだけでよかったんですね。
実は独立ではない場合(弱いなりに少し相関があると)、実はこの計算は少しだけ複雑になったりします。(相関みたいなもの(共分散)を意識する必要が出てくる)
このように、二つのデータに関係がちょっと以上にあることを相関があるといいます。
ちなみに相関係数がどれくらいあれば、2変数に相関あるといってよいかという議論がビジネス的にたまにありますが、統計学的にはそういうものはないそうです。長くなるので割愛しますが、共分散同士を比較しやすいようにしたものが相関係数なのでどちらの方がより相関が強いかで見ることが統計学的には正しい見方ということでした。
が、ビジネスの場で自分は、0.8以上あれば結構強いですね、0.6くらいあれば相関はそこそこありますねくらいに行っている気がします。
どちらかが動くと決まったルール(一緒に大きくなるか、逆に小さくなるか)でもう一方が影響を受けることを相関といいます。よくグラフでは右肩上がりのグラフが出ることもありますが、右肩下がりでも相関はあります。(これは因果も同じ)
自分が持っている相関のイメージといえば、みんな大好きドラゴンボール。
主人公、孫悟空と敵の強さはまさに相関関係。相手が強くなれば、悟空も強くなるし、強くなった悟空にはまたさらに強い敵が出てくるという。
悟空を弱くするために、心臓病になったり、アニメでは子供に戻ったりいろいろありましたが、敵を強くするだけではない仕組みとかもありましたね。
相関と疑似相関(見せかけの相関)
ここで先ほどの図をもう一度見てみましょう。
ご存じの方もいるかもしれませんが、この図結構Twitter界隈で統計学クラスターの方たちからご指摘がありました。確かに統計学的に考えると間違っているのですが、ビジネスの場面的に考えるとはわからんでもない場面がかなり出てくるんですよね。
何も考えずただ二つのデータのグラフを書いて右肩上がりになっています。二つのデータに関係(相関)がありますっていう分析を見たケース。
自分も言っていたことがり、前職の先輩アナリストに指摘されて統計学を改めて勉強しなおしたという背景が。。。(本当にその先輩アナリストには感謝です)
これが上にある疑似相関(個人的には言葉が好きじゃないので、見せかけの相関と呼ぶことが多い)なのですが、ビジネス的な考え方、統計学的な考え方で相関を考えるとこんな感じになるのではないかと思います。
左のベン図の考え方、見せかけの相関の時には、二つのデータに関係ないこともあり得るし、因果関係の部分の時は1方向になることもあるとは言えるので、必ずしも間違いではないかなと思ったりしていました。相関の〇の中すべてをまず相関というイメージ。かなり相関(もしくは2つの間に関係がある)という言葉がかなり抗議に使われているケースです。
統計学では基本、、因果関係がわかっていれば、因果、疑似相関ではないことを確認したうえで、相関関係といえば、双方向は絶対という感じかなという印象です。(濃い青部分だけを相関関係というケース)
ちなみに見せかけの相関を右図で少しだけ相関に入れたのは、ごくまれにあり得るかなと考えたからです。(交絡因子が一つで、それぞれの変数の説明力(係数の大きさが大きく)が大きい場合とか)
相関と見せかけの相関は上の記事も読んでいただけると参考になるかと思います。
最後に因果
自分のイメージは y=ax+bが成り立つというイメージです。
数学的には x=(y-b)/aが成り立つのですが、実はbの部分が定数ではなく変数になる(いろいろな変数の複合式を簡略化しているb)ので成り立たないというのが x→yを説明できるというもの。
もう一回登場のこの図。
因果関係のグラフ、気温と熱中症患者は逆だろうという議論がありました。これは自分もそっちの方が親切だなと感じています。
それがさっき言った因果関係がy=ax+bになるイメージからです。
原因x、結果がYと考えているので、x軸に原因、y軸に結果を書いたほうが人間の慣れている見方的には自然。大体右に動いてから上に動くっていうイメージで見ませんか?
気温と熱中症患者数。この2つのデータであれば、ほとんどの人が、気温が上がれば上がるほど熱中症患者数が増えるという関係性はイメージできますが、因果がすぐにはっきりしないケースなどを考えるとどっちがx(原因)でy(結果)なのかわかりやすい書き方をしておいた方が混乱がないと考えられます。(細かいルールがあるかもしれないのですが、個人的にはわかりやすさ観点の方が大事。)
この辺のグラフのかき方とかもデータの見方、見せ方なのかなと考えているのです。
ちょっとだけ因果について補足しておきますと、
因果関係の原因と結果を考えるコツとして時系列で考えるというのもあります。
今回のケースだと気温が上がった後に熱中症患者が増える。(熱中症患者が増えてから気温が上がるわけではない。ちなみにドラゴンボールは悟空が強くなった後に敵が強くなる。敵が強くなって悟空も強くなるので相関。)
ちなみに、自分だったら相関のグラフの気温とビールの売り上げも因果関係になりそうだから逆に書きます。相関関係のグラフだからいいのっていう意見もあると思いますけど、理解しやすいからです。
ここまで読んでいただきありがとうございます。 スキを押していただけると嬉しいです。 フォローしていただけるとさらにうれしいです。