【読了】データ視覚化のデザイン
「可視化」「ビジュアライゼーション」という用語はよく聞くけど、「視覚化」というのはちょっと不思議な語感
どうやら生物学的な認知(視覚)というニュアンスが込められているようだ
Tableauにこういう教育用の使い方があるのは面白い
目次
略
第1章 データ視覚化「キモのキモ」
いくらデータを画面に表示しても、人間が重要な情報を読み取れなければ意味がない
データセットを入手した時、全体の性質を把握するために要約統計量を算出することがある
しかし、グラフ(散布図)を描いてみないと、人間が把握できない傾向がある
また、文章で説明するよりも、グラフを見れば一瞬で解ることもある
昔は計算技術の制約により、大量データをグラフにすることは困難だったが、現代では可能
視覚属性
・形
・色:最も効果的だが使いこなしが難しい
・位置
感覚記憶(考えることなく無意識に反応するもの)に訴える
複数の視覚属性を使うと、認知的負荷が大きくなり、伝えたいことが伝わらない場合があることが多い
配色の種類
闇雲に色をつけるのではなく、「何のために」色を使おうとしているのかを意識する(意図的に使う)
シーケンシャルカラー
・データの多寡を単色の明度で表現する方式
ダイバージェントカラー
・2色を使ってネガティブ/ポジティブなどの中間点からの幅を表現する方式
カテゴリカルカラー
・異なるカテゴリに対して異なる色を使う方式
・カテゴリが多いと多色を使うことになり、解りにくくなるので注意
ハイライトカラー
・目立たせたい部分にだけ色を使う方式
・目立たなくていい部分はグレーにする
色の3要素(HSV色空間)
・色相(Hue):色相環(補色などが把握できる)、光の波長
・明度(Saturation、Chroma):明るい⇔暗い、3要素のうち明度のみを持つ色(白/灰/黒)を「無彩色」と呼ぶ
・彩度(Value、Brightness):単色のみ⇔混ぜた色、彩度0は無彩色になる
データタイプ
・カテゴリカルデータ(質的データ)
・名義尺度:順序が定義できないもの
・順序データ(順序尺度):順序が定義できるもの
・量的データ:測定でき、集計できるもの
・間隔尺度:比例が計算できないもの 温度、西暦
・比例尺度:比率が計算できるもの(0は無を表す) 熱量、長さ、重さ
ユニバーサルデザイン
多くの人が目にする場合、配慮して配色設計する必要あり
・色覚異常(3種の錐体細胞のうちどれかが欠けている)
・性別
認知的負荷
ダッシュボードが利用されない理由のひとつは、認知的負荷が高いこと
(どう見ればいいのか?この数値の定義は?と思われてしまう)
Clutter(整理されておらずごちゃごちゃしている状態)
ゲシュタルトの法則
・近接
・類同
・囲み
・閉合
・連続
・接合
データインクレシオを高める
・軸ラベルを削除する: 値自体をラベルとしてグラフ内に埋め込めばOK
・罫線(外枠やグリッドラインを含む)を削除する: 付けないと解りにくい場合のみ付ければOK
・凡例を削除する: グラフ内に表示させればOK
・色を減らす
第2章 これだけでグッとプロっぽくなるコツ
色
・可能な限り色は使わない
・変化は彩度(燻んでいる↔︎鮮やか)で表現する
・色づけが必要になる例
・背景色:グレースケール
・メインカラー:低明度な(濃い)グレースケールでも可、青系統
・強調したい箇所:複数指標のうち1個のみがKPIなので強調したい、オレンジ系統
・警告したい箇所:赤系統
テキスト
視覚化とはグラフを量産することではない
テキストの方が伝わりやすい情報はテキストで伝える
テキストの用途
・主題の明示
・ラベルの付与
・操作を促す
・グラフを描くよりも数値のみ見せる方が効果的な場合
重要なことはフォントサイズを大きく(KPIなど)
レイアウト
人間の目線の動きに配慮する
・F方向
・Z方向
罫線
罫線は可能な限り削除し、行間を広げる(近接のゲシュタルト法則)
第3章 目的に応じたチャートの選択
ビジュアルアナリティクスサイクルにおける「チャートの選択」「データの視覚化」に相当
ビジュアルアナリティクスのサイクル
問いの設定
データを入手し、何かしらの分析をしようとした時、まず初めに行うべきは、「問いの設定」
目的自体がぐらつくと、分析を進めるうちに迷子になってしまう
分析を進めるうちに、問いの精度は高まるため、問いを更新するか検討する
もし別の問いが湧き出てきたら、問いを変更するか検討する
データの収集
チャートの選択
データの視覚化
洞察や示唆を得る
共有とアクション
量を表す
棒グラフ
・起点は必ず0から(省略波線も使わない):棒の長さが不正確になる
・3次元グラフは直感的に解りにくいので、ヒートマップ(2次元+色)にする
・縦向き棒グラフなら軸ラベルも縦書きにする:縦書きにできないなら横向き棒グラフにする
・棒のソート順を定義する:定義できない場合は昇順/降順にする(アルファベット順のまま放置しない)
・棒を複数セットにする場合、3つ以上にしない
レーダーチャート
・濫用されやすいが、要素数が6個(6角形)ほどなら棒グラフより解りやすい
・人事領域でよく使われている
ドットマトリクスチャート
・データポイントを棒グラフのように集計せずにドットで示したもの
達成度を表す
ブレットグラフ
・背景で目標、棒自体で実績を示す
ゲージチャート
割合を表す
積み上げ棒グラフ
・棒の長さは、合計値または100%
・横軸が連続量(時系列)の場合はエリアチャート(積み上げ線グラフ)を使うこともある
円グラフ
・誤用が多いため、使うときは慎重に(他のグラフの方が適している場合がほとんど)
・どのカテゴリが1番多くを占めているのか瞬時に判断しにくい(カテゴリ数3が限度)
・カテゴリを色で分けようとすると色数が無駄に多くなってしまう
・数値も割合も正確な値がわかりにくく、ラベルなどでごちゃごちゃしてしまう
ドーナツチャート
・円グラフの欠点である情報の少なさを補うため、穴に数値を入れることがよくある
ツリーマップ
・全体感は把握しやすい
・任意の複数カテゴリ間を比較する用途には向かない
・マイナス値を取る量には向かない
流れを表す
ウォーターフォールチャート
・ PLにおける段階利益を図示する時によく使う
サンキーダイアグラム
・複数工程間の流量を表現する(インプット→アウトプット)
・インプットがアウトプットまで分配されていく様子が把握できる
・エネルギー、物資、経費、問い合わせ
経時変化を表す
線グラフ
・横軸(時間軸)や縦軸(金額、件数など)を歪めないこと、リテラシーを疑われるので注意
・スパゲッティチャートにならないように注意
・グラフの本数を減らす
・目立たせたいグラフ以外はグレーにする
・スパークラインを使う(グラフを重ねずに並べて表示する)
・横軸が時間なら棒グラフよりも線グラフがよい
棒グラフと線グラフの組み合わせ
・マーケティング領域ではよく見かける
・二重軸は認知的負荷を高めるので注意
スロープチャート
・2時点間の変化を示す
エリアチャート(面グラフ、積み上げ線グラフ)
・積み上げ棒グラフの連続量版
・縦軸は合計値または100%
ヒートマップ
・
分布を表す
ヒストグラム
・ヒストグラムの見た目は、ビン幅に左右される(データをビニングしてからグラフにしているため)
箱ひげ図
バイオリンプロット
バタフライチャート
・人口ピラミッド
・賛成票数と反対票数
順位を表す
ソートされた棒グラフ
スロープチャート
バンプチャート
関係性を表す
散布図
バブルチャート
・散布図(2変数グラフ)に加えて、もう1変数をドットの大きさで表せる
差を表す
分岐棒グラフ
地理情報を表す
コロプレス(色塗りマップ、Choropleth)
・複数並べると比較しやすい
地図上にドットを表示
ヒートマップ
その他
ファネルチャート
第4章 事例で学ぶ -ダッシュボード作成思考のキャプション-
ダッシュボードの種類
・探索型ダッシュボード:作者に主張なし、(例えば、淡々とモニタリング指標を表示する)
・説明型ダッシュボード:作者に主張があり、主張を支持するデータを表示する
KPIの示し方
・特定時点の値を示すカード(時点も併記する)
・特定期間の推移を示す線グラフ
・セグメントごとに各KPIを表示するテーブル(セル内に棒グラフを表示)
エグゼクティブ向けダッシュボード
・エグゼクティブの場合、フィルタやスクロールのような画面更新系の操作は使わないことが多い(使ってもホバーくらい)
人事ダッシュボード
エンゲージメントサーベイ(eNPS、Employee Net Promoter Score、正味推奨者比率)のアウトプットとして作成される
・NPS(正味推奨者比率):全社/組織別/役職別
・退職率の推移
・平均在籍年数の推移
・採用チャネルの推移(リファラル/その他)
・採用コストの推移
①Likert尺度(0-10の11段階)を使ってアンケートを取る
②NPSの前処理として区分けする
・0-6:批判者(Detractor)
・7-8:中立者(Passive)
・9-10:推奨者(Promotor)
③NPSを算出する(NPS=推奨者%−批判者%)
・スコアだけでは、推奨者/中立者/批判者の割合が抜け落ちてしまう(施策を検討する際、中立者を推奨者に上げる、批判者を中立者に上げることを考えるために必要な情報)
ベンフォード分析
・リファレンスラインとリファレンスバンドを併記すると見やすくなる
・リファレンスライン:理論値(ベンフォード法則により算出)、±20%値
経費分析
「経費」という1つのトピックについて、様々な切り口(費目、従業員、組織、など)を提供する
・上位高額費目の推移
・上位高額使用者の推移
・各高額費目における高額使用者(ツリーマップ)
・金額×件数(散布図):誰がどの費目で何円使ったか/何件申請したか、明細テーブルにドリルスルーできる
・費目:色で表す
・日付フィルタ:経費の場合は、支払日など
第5章 本当に組織に根付かせるために
ダッシュボードのオーディエンス(ユーザ)を区分する
例えば、上級管理職/管理職/スタッフ、など
立場によって、どういう意思決定(所要時間、頻度、など)が必要なのか、そのためにどんな情報を得たいのかは異なる
得たい情報によって、見るべきダッシュボードを最適化する
成長にはフィードバックが必要
フィードバックを貰うための注意点
・具体的なものを作る
・フィードバックをくれた相手に感謝する
・まず聞く
・個人に対する批判は無視してOK、改善すべきは作品や成果物であり個人(自分自身)ではない
フィードバックを行う時の注意点
・具体的に
・タイムリーに
・当人が行動を起こせるように
・改善点だけではなく強みも気づかせてあげる
・個人ではなく作品に対して行う
ダッシュボードの階層
①個別グラフのデザイン
②グラフの配置
③ダッシュボード上のインタラクション(フィルタや連動)
④ダッシュボードのスコープ(何に焦点を当てるのか)
⑤オーディエンスの問い
ビジネス成長と共にダッシュボードも変化する
①ダッシュボードの利用状況をモニタリングする
②オーディエンスと会話する
③古いものを削除し、新しいものを取り入れる
データ活用を始める時のポイント
・戦略や計画を立案する時、机上の空論ではなく、具体的なプロトタイプを見ながら議論する
・例えば、BIツール導入を検討しているのなら、具体的なダッシュボードをまず作ってみる(そうでなければ、Excelなどと比べて何が良いのか具体的にイメージできない)
・Small Start & Quick Win
・未知のことをやる時はアジャイル的発想の方が付加価値が高い
・「覚悟を決めてどれかに賭ける(少額ずつ)」ことが必要:分析対象を絞る
・分析対象や分析期間を広げれば広げるほど、賭ける額は大きくなり、当たる期待値も下がっていく
・組織内のデータ品質を向上させる
・組織内の能力開発を計画する:データに基づく意思決定に慣れてない組織ではデータ分析の価値が理解されない
・社内CoEの設置:“The most meaningful way to succeed is to help other people succeed.”—Adam Grant
・CoEポータルページの作成
・各ツールのライセンス情報の一括管理
・FAQの作成
・学習リソースの共有
・社内イベントの企画
・経営層から支援を得る
・データ活用は複数部署との連携が必須なため
・すぐに結果が出るものではないため
・利益に直結しない活動は支援がないと優先度が下がってしまうため
コラム
前処理に必要な知識
実務上、そのまま分析できるようなデータは存在しないので、前処理が不可欠
・正規表現
・計算量:その処理を行うとどれくらい時間やリソース負荷がかかるのか?
視覚化に必要な知識
・UI/UXデザイン
データ分析とシステム開発の違い
伝統的なシステム開発(ウォーターフォール型)は、マイルストーンに囚われているため、「具体的なアウトプットを見て活動を改善する」という余地がない(後戻りしないスタンスであるため)
価値は具体的なものに宿る
アウトプットは常に早く出し続ける
具体的なものがなければ、フィードバックを受けることができないため
クオリティに自信が持てなくても外に出す
クオリティを高められるのはフィードバックのみ
ツールの学習に投下する時間
多くのツールを使いこなせるようになる必要はない
特定ツールをある程度に使いこなせないと、どういう分析ができるのかがイメージできない
だいたい半年間ほど使っていれば使いこなせるようになる
ある程度に使えるようになったら、問題設定力を磨く
略語
・YTD、MTD(* to Date):年初来累計、月初来累計(本日までの累計)
・YoY、QoQ、MoM(Y/Y、Q/Q、M/M):前年比(または前年同期比)、前四半期比、前月比