【3-2】代表的なグラフの選び方
グラフといってもたくさんの種類のグラフがあります。
ここでは代表的なグラフの使い分けについて紹介します。
データの尺度から考える
まずはデータの尺度という視点で考える方法です。
連続尺度
身長・体重・年収など数値として扱う尺度です。
連続尺度はさらに+, ーで計算できる間隔尺度と+, ー, ✕, ➗ がつかえる比例尺度に分ける事もできます。
順序尺度
順位・ランキングやアンケートの5段階などの順序を使った尺度です。
5段階評価があったとしても2と3の差と3と4の差が同じとは限りません。
また2の2倍が4というわけではありません。
順序尺度は基本的には上記の理由でカテゴリー変数として扱う場合が多いですが、数値として扱う場合もあります。
名義尺度
名義尺度は性別や血液型など順序を伴わないカテゴリー変数です。男性-女性でも女性-男性でも本質的には違いはありません。医療では治療介入群と介入しない群、ある症状を持っている群と持っていない群なども名義尺度になります。
対応(繰り返し)の有無
対応(繰り返し)の有無とは同じ人を繰り返し測定するかどうかです。
繰り返しがない場合はある集団をAとBに分けた場合で、対応がある場合は同じ人を複数回計測したり条件を変えて計測した場合です。対応がない場合は集団ごとの平均の差などが知りたい対象になりますが、対応がある場合は1人1人の変化量が知りたい対象になります。
グラフの例
上記の条件から代表的なグラフの利用例を紹介します
カテゴリー変数 ✕ 数値(対応なし)
これらは各カテゴリーごとの数値の違いを可視化しています。
そして代表値(平均など)を表示するだけでなく、分布を表示することでさらなる情報を得ることも可能です。棒グラフ+標準偏差は有名ではありますが正規分布でないデータに対しては注意が必要です。
カテゴリー変数 ✕ 数値(対応あり)
対応がある場合は個人の変化量も情報として使うため線グラフを使うことも選択肢に含まれます。先のグラフが使えないわけではありませんが、用途に応じて使い分ける必要があります。
数値 ✕ 数値 (対応なし)
数値 ✕ 数値は散布図が基本になります。
散布図に男性・女性などのカテゴリーを加えると色やマーカーの形を変えることで対応できます。またバブルプロットのように点の大きさを変えることもできます、右図は数値(横軸:1人あたりのGDP) ✕ 数値(縦軸:寿命) ✕ 数値(円の面積:人口) ✕ カテゴリー(色:大陸) を示しています。
数値 ✕ 数値 (対応あり)
繰り返しのある数値データでは時系列データになることがあります。
横軸を厳密に数値とは言えないかもしれないですが、株価のチャートなども秒・分・時・日・月・年など単位を変えられることもあり、個人的にはカテゴリーには分類しにくいかなと感じてます。
カテゴリー ✕ カテゴリー
カテゴリー ✕ カテゴリーの場合はクロス集計を行い表にすることが多いですが、バブルプロットやヒートマップで可視化することも可能です。
まとめ
今回は代表的なグラフの例を紹介しました。
紹介したグラフは全てRのggplotで作成していますので、これから1つずつ解説する予定です。