見出し画像

【読書メモ】グラフをつくる前に読む本[一瞬で伝わる表現はどのように生まれたのか]

グラフの使い方よりも、グラフの歴史や「なぜそのグラフを使うのか?」という本質がわかる本。

学んだこと

グラフを使う際には、「何を言いたいのか」「どのように表現すれば端的に伝わるのか?」の2点を明確にしておく。
特別付録 データジャーナリズム入門における著者の着眼点から個人的に以下が参考になった

① 分解する
例えば、日本は労働生産性が低いと言われてるけど、日本って都会もあるし田舎もあるよね?単語を一括りにしないで細かく分解する
(余談:ここでもでてきた分解。良いKGIを設定するときのコツも分解だったっけ)

② 疑ってかかる
このデータってそもそもあってるの?と問いを投げかける。
このデータはなぜこんなに数値が高いの?
例えば、失業率の高いギリシャが日本の生産性を上回っているのはおかしい。これは、分母の労働者の数が減ったから、生産性が高まっているだけ。

③ 仮説を立てて検証する
めっちゃ重要ポイントだと感じた。
いっくら分解して、疑ってかかっても、そこで終わってしまっては何にも意味がない。
大事なのは、疑問をいだいたあとに「もしかしたらこうなのでは?」という仮説を立てること。
そして、その仮説を立証するためにデータを調べること。

例えば、雑誌が休刊する理由を「広告収入が伸び悩んでいる」のではと考える。その疑問に対して、ある期間の広告費の内訳推移を調べる。
そこから「景気は回復しているのに雑誌の広告費が上がらないのはなぜか?」という疑問を抱き、もしかしたら、雑誌に触れる客数が減っているのでは?という仮説を立てる。
仮説を立証するために「発行誌数がへっている」「部数が減っている」を調べる。
そして、広告収入増えない→儲からない→廃刊するという負のスパイラルの発生をみつける。
といったように、疑問→検証→仮説→結論 といったサイクルで突き詰めていく。

各グラフの詳細

棒グラフ

考え方: 複数の棒グラフを比較して、「棒が大きい(小さい)項目はどれだろう?」と考える
得意: データの「比較」
特徴: 高さを比べて項目の量の違いを感覚的につかめる何を比較するのか、どのようにデータを並べるかで伝え方は大きく変わる

折れ線グラフ

考え方: ある時点とある時点を左から右に線で結んで「線の傾きが大きい時点はどれだろう?」「傾きの傾向が変化するのはどの時点だろう?」と考える
得意: データの「推移」
特徴:
ある時点とある時点の間の 傾き から変化を感覚的につかめる。推移の傾向に意味をもたせれば何を言いたいのかが伝わる
ポイント: 割合で表示されるデータの推移が高まっても、総数が減っているなら、実数で表現されるデータは実質横ばいか減少している可能性がある。割合を表現するなら総数も合わせて表現する

円グラフ

考え方: 「角度が大きい小さい項目はどれだろう?」「全体に対して占める割合が大きい小さい項目はどれだろう?」と考える
得意: データ全体の「内訳」。円グラフを使えば「全体の内訳をどれくらい占めているか」がわかる
特徴: 特定のデータ項目への偏りを表すのに適している。
ポイント: 12時を起点にしてデータ項目の並びを大きい順に変えるとデータの意味が理解しやすい。データ項目がたくさんある場合は、その他にまとめる(表示するデータ項目は最大でも8個)。その他は左上に配置する(合算した内訳が大きくても)。その他は全体の10-15%くらいになるようにする
!ココ重要!円グラフは使用を推奨されていない
理由① 総量がわからないので違う円グラフの内訳と比較できない
理由② 時系列データを用いた時間経過による内訳の推移を表現できない
理由③ 時間が経過するにつれて内訳がどのように変化していくのか を表現できない!

レーダーチャート

考え方: 特定のデータ項目に偏ってないか?
得意: 複数あるデータ項目の「比較」
特徴: 線で結ばれた面の大きさと、滑らかさを比べてデータの大小を感覚的につかめる。全体と部分を同時に比較している。特定のデータ項目のみ現れた傾向を比較したいのか、データ項目同士を比較したいのか、このどちらを強調したいかを決めれば、何が言いたいのかより伝わる
ポイント: 複数の点を打ち込む(5個以上を推奨)。レーダーチャートの中にかける線は、多くても6つ程度
レーダーチャートの中に複数の線を書くと2つの見方ができる!
① 各データ項目ごとに比較し、相対的な評価ができる
② 面同士を比較して、面の大きさからデータのおおよその形が把握できる

ヒートマップ

考え方: 数字を色に置き換えて「どのデータ項目にデータが偏っているか?」と考える
得意: 「量の偏り」
特徴: 塗り絵のように表を色で塗る。全体のデータの傾向を一瞬で把握するのには最適
ポイント: 色の塗り分けは5段階で必ず複数のデータを対象にして色を塗る(5つ以上がのぞましい)。色は、青と赤と白か緑と赤と白を使う。データの傾向が違う場合は、列単位でヒートマップを作成する

散布図

考え方: 複数の項目を表現した点を俯瞰してみて「縦軸と横軸の相関(2つのデータ項目が密接に関わり合っている状態)はあるだろうか?」と考える
得意: 2つのデータ項目の「関係」
ポイント: 相関と因果の理解。相関関係は、2本のストーリーの関係性。ある値Aが増えたら(減ったら)ある値Bも増える(減る)。因果関係は、理由が明確な1本のストーリー。片方の値が増えたり減ったりした場合に、もう片方の値が同じように増えたり減ったりする関係
※散布図を使って相関を表現する際の注意※
- 相関関係が単なる偶然である可能性
- 「疑似相関」の可能性
    - 疑似相関とは、2つの事象には相関関係がないのに、見えない要因によって相関関係があるかのように推測される状況のこと


積み上げグラフ

積み上げ棒グラフ

考え方: あるデータ項目の内訳の高さを比べて「全体に対して占める割合が大きい(小さい)データ量はどれだろう?」と考える
得意: データ全体の「内訳」の「比較」
特徴: 高さを比べて特定のデータ項目のデータの違いを感覚的につかめる
面グラフ

考え方: 面の推移を比べて「全体に対して占める割合が大きい(小さい)データ量はどのように変化するのだろう」と考える
得意: データ全体の「内訳」の「推移」
特徴: データ全体に対する特定データ項目の推移から内訳の変化を感覚的に掴める

やること

✓ 自身のYT ChannelのAnalyticsを散布図を使って、チャンネル登録者数と視聴回数の相関を調べる
✓ ヒートマップを使用して、問い合わせ件数の多いCategoryを見える化する
✓ 円グラフをレーダーチャートなど別のグラフに置き換える

この記事が参加している募集