相関分析は統計のはじめの一歩【Excelでできるとこだけデータ分析③】
本日はExcelで簡単できる相関分析を解説していきます。
相関は統計の最初の一歩・入門です。これができるだけでも、一般の営業職や事務職の中であれば「データ分析・統計がデキる人」と言われるのではないでしょうか。内容やExcel操作自体も、比較的かんたんにできます。
しかし、勘違いしやすい内容や、職場で何でも「相関」を振り回してしまう=相関ハラスメント?(笑)にも陥りやすいので、しっかりと理解して、使いこなしていきましょう!
それでは、はじめます。
1|統計は、感覚を数値化できる!
皆様が仕事をしていて、ある数値とある数値が比例していたり、関係性があるなと直感的に感じたことはありませんか?
「HPの問合せ数と売上高は何となく比例しているような・・・」
「システムテストためのSE人員を投入すればするほど、バグが洗い出せれて、品質が良くなっているはず・・・」
このような個人による感覚を、主観的な表現ではなく、実は"数字"で示すことができます。それが「相関」(統計)です。
ビジネスにおいて個人の感覚ではなく、客観的で誰でも判断できる数字で示せることは極めて重要です。「訪問アポイントを沢山取れ!売上あげろ!」と感情に任せて𠮟責するのと「訪問数と売上は毎月相関があり、今月は売上が足りていない。訪問数も少なくなっているので、アポイントがボトルネックになってないか?」と考え、部下に指示するのは、天と地の差があります。
2|相関とは
相関とは、さきほど述べたように、ある数値とある数値の関係性があるなということを-1~1の範囲で数値として示すことができる統計手法です。
数学が苦手な方でも大丈夫です。図でイメージすると、以下の図みたいな感じです。
売上なら売上金額、問合せなら問合せ数を散布図にしていき、キレイな右上りになるのが正の相関です。1が最高で、ここまで来ると散布図はキレイな一直線になります。その反対に、キレイな左上りなるのが負の相関です。
正の相関はわかりやすいですね。見積提出数があがるほど、売上が上がる。従業員数が増えるほど総人件費が上がる等々・・・非常に沢山の例があります。負の相関は反対に「増えれば増えるほど、減るもの」です。水の透明度が上がるほど、湖の生物量は減るみたいな感じです。
3|Excelでの相関分析のやり方
Excelデータ分析アドインを設定されていない方は、過去記事を参照ください。一応、相関分析だけならExcel関数でも可能ですが、統計を使いだすとデータ分析アドインは結局必要になるため、入れておくことをオススメします。
はじめに、以下のような縦横の表データを準備しましょう。今回はGDP(左列)と労働人口(右列)の相関を求めたいと思います。
余談ですが、実際仕事をしているとこのデータを集めて整備する事が一番時間が掛かりますし、大変です。私もこの記事を書くためにGDPと労働人口を総務省の統計から取って加工するのが無茶苦茶大変でした・・・相関分析自体は一瞬です(笑)
データが準備できたら[データ]-[データ分析]より相関を選択しましょう。
列か行かはここで選択できるため、以下のような横方向に並ぶデータでも分析することができます。
先頭行は項目名称なので、チェックを入れています。あとはOKをクリックすれば、もう相関分析は完了です。
0.90(これを相関係数と言います)ということで、0.7以上なので強い相関があることが分かります。
また、Excel関数「CORREL」でも同じように求めることができます。正直、作業スピードはどっちも同じくらいなので、好きな方をお使いください。
4|相関の注意点
相関は、直観的にもわかりやすく、ビジネスで使う場面も多い一方で、勘違いして使ってしまうことも多いです。(私自身、統計の専門家でも資格も持ってないので、間違って使っているところも多々ある気がします)
特に、以下の点には注意しましょう。実際、過去に私もこういった"間違った理解"で振り回された経験が結構あります(笑)
注意①数字しか扱えません
私は文系でしたので、はじめこの点が直観的に理解できませんでした。相関はあくまで数値と数値の関係性を表すものあり、数字同士でないと相関分析はできません。
例えば、曇りになればなるほど、気分が落ち込んでいくみたいなのは、確かに比例しているかもしれませんが・・・数字ではないので、相関分析はできません。一応、曇りの度合いを数値化(空に占める雲の割合で測る等)することもできるのですが、それは応用のレベルになります。
注意②相関=因果ではない
相関とは、あくまである数値とある数値が似たような動きをするということだけを表しています。その数値がもう一方の数値に影響を与えている因果関係までは(あるかもしれませんが)示してはいません。
よく例として紹介されるのが、学校のテスト科目の相関関係です。数学、国語、英語などのテスト成績が良かった生徒は、保健体育の成績も良いというような相関があるそうですが、では「数学の演習問題も、模試対策もした。"
だから、”明日の体育の試験も高得点だ」・・・なわけがないですね(笑)
でも、こういった勘違いは本当によくやりがちですので、注意しましょう。
注意③擬似相関に騙されるな
②であげた例もそうですが、擬似相関と言われるケースがあります。以下の3つの例は、実際に相関があるという結果が出ているそうです。しかし、因果はもちろん、たまたま数字が同じような動きであっただけで、なんの関係もないことが考えられます。
上記のようなわかりやすい例は笑ってられるのですが、ビジネスの実践現場は複雑ですし、はじめてそういうシーンに出会ったらあなたは正しく判断できるでしょうか?
決して相関=正しいと思いこまず、データ分析は行いましょう。
注意④相関がなくても法則性は存在する
相関が分析できるのは、右肩上がりor右肩下がりの二次関数の動きになるものだけです。例えば、夏だけ売れる傾向があるような商品や土日だけはWebサイトのアクセスが伸びる等は、相関を無理やり計算しても相関なし(0に近い値)が出てきます。
ですが、相関はなくても、たしかに法則性は存在しますし、正直、ビジネス場では、キレイな右上がりのデータだけよりも、このようなまた違った傾向のデータが現れることの方が多かったりします。
相関はあくまでビジネスの法則性や確証を得るための武器の一つにすぎません。
まとめ
前回のデータ分析アドインの記事が意外に好評だったので、今回「相関」も記事にしてみました。
統計に関しては正直専門ではないので、至らない点も多々あると思いますが、「ビジネス資料作成術」の中の一歩上を目指せるテクニックの一つとして、是非チャレンジしてみてください。
その中で、本格的に統計やデータ分析のキャリアを考えたり、逆にデータサイエンティストの方が、誰にでもわかりやすい資料をどう作成すればよいのか考える一助となれば幸いです。
以上です。