『花束ダイアグラム (Sankey)』の読み方
今回は『花束ダイアグラム』という、弊社で開発したデータ可視化の方法についてご紹介します。
多様なパターンを表現する図
例えば、以下のようなデータを考えましょう。
Aさんはリンゴ🍎とメロン🍈が好き、
Bさんはリンゴ🍎とオレンジ🍊が好き、
CさんとDさんはオレンジ🍊のみが好き
このように
「数えきれないほどではないけれど多様なパターンを持つデータ」
があるとき、それを分かりやすく可視化するのが花束ダイアグラムです。
典型的には複数選択式アンケートなどで得られるデータです。
よくパターン情報を無視した円グラフを描画したりもしますが、このような図はかなり情報が失われてしまいます。
花束ダイアグラムで冒頭のデータを可視化すると、以下のようになります。
ーー 読み方 ーー
属性なしの場合
見てすぐ読み方がわかる方も多いかと思いますが、上図の読み方は以下のとおりです。
属性ありの場合
各回答者が属性質問(単一選択質問)にも回答していた場合、その情報も付与できると便利です。
以下はそんな場合の花束ダイアグラムの例です。
回答者側の属性分布だけではなく、選択アイテム側についての属性分布も同時に表示する場合もあります。
ーー 複雑なパターンの場合 ーー
選択アイテムが多い場合は、回答パターンは膨大になる傾向があります。
上図はまだパターンが読み取れますが、これ以上複雑になるとデータ可視化としてはごちゃごちゃしすぎです。
ちなみに上図を"普通のサンキー図"のように愚直に曲線で結ぶと以下のようになってしまいます。線のつながりが読み取れなくはないですが、結構ごちゃごちゃしていますね。上の花束ダイアグラムは、パターンの視認性が良くなるように工夫されていることがお分かりいただけるかと思います。
近似の導入
回答パターンが多いデータセットを正確に可視化する場合、ごちゃごちゃしすぎだといっても
「そういうデータなのだから仕方ない」
としか言いようがありません。
しかし読めないデータ可視化は、アートとしてはよいのですがデータ分析としては意味がありません。
そこで花束ダイアグラムでは、解釈可能な粒度まで回答パターンを近似したものを描画することもあります。
例えば上図を近似した花束ダイアグラムは以下のようになります。
ここでは、
「頻度が低い回答パターンを、類似している頻度の高いパターンに割り振って近似する」
ということをしています。
回答パターンが制限されるというのは、右側の項目の数が減るということですが、高頻度の回答パターンに属さない選択アイテム(左側の項目)も同時に削減されます。
正確性は多少失われますが、このように、どんなデータセットについても解釈可能なレベルでのパターン可視化が可能になります。
今回は花束ダイアグラム(サンキータイプ)の読み方をご紹介しました。
もっと細かい図のチューニングも可能ですが、詳細は省略しています。
花束ダイアグラムはウェブアプリを用いて作成できる図ですが、現在アプリは運営側にアカウントを依頼し、承認を得た場合のみ利用できる体制となっています。