散布図を作るとき、軸の設定で思ったこと
意識せずにチャチャっと散布図を作ると、縦軸と横軸が意図したのとは逆になっていることはありませんか。同じデータでも縦横の軸の決め方によって、データの関係性が違って見えますよ、そんなテーマです。
こちらのグラフ。縦軸に売上高、横軸に広告費を設定しました。
このくらいの広告費を使ったとき、こんな売上高を獲得できた。そんなことを読み取りたくなりますね。グラフタイトルをつけるとしたら広告費と売上高の関係性、なんてのがシックリきそう。
グラフをみていると「広告費ゼロでも20万円くらいの売上高はありそう」「広告費15万円を超えたあたりから費用対効果は悪くなっているなぁ」こんな感想が浮かんできます。
ではこちらのグラフはどうでしょうか。軸を反対にしてみました。縦軸が広告費、横軸が売上高です。
この売上高を獲得した時には、このくらいの広告費が必要だった。こんな印象を受けるグラフです。目標売上高を獲得するための必要広告費を回帰分析するために用意しました、そんなイメージです。グラフタイトルは目標売上高に対する必要広告費がぴったりですね。
こんなふうに、受け手は無意識に軸の設定からストーリーを読み取ってしまうものです。
相関関係を見るとか、自分一人でデータとにらめっこするならともかく、他者にみてもらうときには軸の決め方にも配慮していきたいですね。
相関関係というキーワードが出たので、ちょっと小ばなしを。広告費と売上高に相関関係があるからといって必ずしも因果関係があるとは言えません。たとえば「景気」といった別の要因が潜んでいたりする可能性も考慮しておきましょう。
景気がよくなったから広告費に予算が流れ、景気がいいから消費が活性化して売上高も上がった、そんな二つに共通して影響を与える別の背景です。相関はあるけど因果はない、とかいうやつですね。
では、衣袋さんのコメントをお借りしつつ、締めていきます。
縦軸が目的変数、そして横軸が説明変数と意識すればわかりやすい!
他の人がまとめたデータをみるときには、どちらが目的変数でどちらが説明変数なのか分かりにくいことがあります。そんな時は二種類のデータの動きに注目してみましょう。
データ間になんらかの因果関係があれば、片方のデータの動きに合わせて(ちょっとしたタイムラグを伴って)もう一方のデータにも変化がおきます。先に変化する数値の方が現象を引き起こしているとして(原因)説明変数である横軸に。もう一方の数値はその結果であるとみなして目的変数である縦軸にする、こんな具合です*1。
雑多に詰め込みましたが、軸の設定にも配慮が必要だよね、と思っていただければ嬉しいです。ここまでお読みくださりありがとうございました!
2019/5/22 *1 軸の説明に関して一部の間違いを修正いたしました。