ゆる~いデータ分析「相関分析」
いろいろなデータを分析していくと、相関がありそうとか、関係なさそうとか出てきます。暑いとビールが売れる。これは相関がありそうな感じですね。でもビールの消費量が減って、最初から酎ハイを飲む人やノンアルの人が増えると相関関係も下がってきそうですね。今回は相関について見ていきたいと思います。
■2020年のはやり病と人口密度の関係
私の他の記事でも書きましたが、結構驚きの相関係数がでた人口密度と、はやり病の累積陽性者数の関係をみてみましょう。赤字で記載されている都府県が2020年4月位に発出された緊急事態宣言の該当都府県です。
なかなか面白いデータになってませんか?
人口密度の高い都府県から並べてあります。陽性判定は、2020年4月だと、医者がPCR検査を認め、陽性判定された累積の人数となります。
おもしろいですね。人口密度の高い都府県から緊急事態宣言がだされています。2020年4月位の愛知県は、国とすったもんだしてましたので、発出は遅れましたが、人口密度が高いと陽性者数が高くなる関係が見えてきました。
ミクロ/マクロで考えれば3密は危ない、と言った小池都知事の発言はデータ的にもちょっとは納得感があります。
さて次は相関係数という数値分析の見方です。人口密度と累計陽性者数でみると、相関係数は0.92と非常に高い数値となりました。通常はあまり発生しないほど高い数値です。
ただし、データ分析という見方から考えると、と少し疑問を感じます。人口は都道府県で違うので、単位を合わせる必要があると考えました。各都道府県を100万人当たりの陽性者数を計算して、相関係数を見ると0.645となりました。
100万人当たりという単位を合わせる、という作業を追加して相関関係をみてみました。データ分析では単位を合わせるという事も注意しましょう。
ちなみに、統計学的には相関係数は、下記の表ように考えます。相関係数は;±1に近づくほど相関が強くなります。解釈によって強い、弱い、の区別が異なるため参考となります。個人的にはちょっと違う考えを持っているので、一般的な参考です。
100万人あたりという都道府県の累計陽性者数の単位を合わせても、まあ人口密度と相関はある感じのデータはでてきました。
数値化して関係性を見えるかする方法が分かってきませんか?
■相関係数と相関決定係数
相関係数はエクセルで求める事もできます。「=CORREL(配列1,配列2)」という関数をつかえば相関係数を求める事ができます。使い方はそのうち書くかもしれません。ひとまず検索すればいくらでもでてくるので、そちらを参照してください。
注意が必要な点:R²を相関係数と勘違いする方がいます。
R²(相関決定係数)は相関線からのズレ量というイメージです。R²が1に近づくほどズレ量は小さくなります。下記グラフに示します。尚、縦軸、横軸、データに意味はありません。R²をイメージ化したものです。
相関係数と相関決定係数は違う、という事を覚えていただければ、よいと思います。
■相関分析の悩ましさ「相関関係と因果関係」
相関分析を行っていると「相関関係と因果関係」によくぶつかります。
「相関関係」AとBの事柄になんらかの関連性があるもの
「因果関係」Aを原因としてBが変動すること
見ているデータが、相関関係か因果関係なのかはよく考えておく必要があります。
なかなか説明が難しいですが、相関分析をしていくと「相関関係」と「因果関係」はよくよく注意していく必要があります。
■みている相関データはどのデータ?
下のグラフは横軸を年齢、縦軸を身長とした女性の平均身長データです。H30の国が出している統計データなので、それなりに信頼できるデータと考えています。
白枠の所を見れば、前後のデータはなんとなく想像できて、エクセルで一時相関式を出せば、予測もつきそうですね。では黄色の枠で見てみましょう。前後のデータは、一時式では合いそうもないですね。
緑の破線枠で見ると、データ予測は難しくなってきます。製造業では規格の外に変化があるのか押さえておく必要がありそうです。この辺の話は別途書きたいと思います。
この段階で注意する事は、今取ったデータは前後も含めて相関関係にあるのか注意しましょう。グラフは女性の身長という前提条件があるので、グラフの流れが推定できてるだけにすぎません。皆さんの頭の中で、予測がついているため、前提条件として推定できています。
■次回予告「相関データによるデータ予測(エクセル)」
相関について書いてきたので、エクセルでできるデータ予測について書いて見たいと思います。
■参照データ(データ元)
東京都陽性率の定義のデータソース元
https://www.fukushihoken.metro.tokyo.lg.jp/iryo/kansen/youseiritsu.files/020512youseiritsu.pdf
はやり病の感染者数のデータソース元
https://gis.jag-japan.com/covid19jp/
人口密度のデータソース元
https://uub.jp/rnk/p_j.html
身長データソース元(国のデータベース資料より)
https://warp.ndl.go.jp/info:ndljp/pid/11293659/www.mext.go.jp/component/b_menu/other/__icsFiles/afieldfile/2019/03/25/1411703_03.pdf
国別はやり病の増加状況(100万人あたり)
ここ、データを扱う人には面白いかも?
https://web.sapmed.ac.jp/canmol/coronavirus/
この記事が気に入ったらサポートをしてみませんか?