Tableauの基礎Tips
連続と不連続の概念を説明してみた
こんにちは、新田珠々(あらた すず)です。
DATA Saber Bridge 3rdのためBIツールのTableauに触れ始めました。
個人的に連続と不連続が非常に直感的でわかりやすいと思ったので解説してみます。
まず言葉の定義を見ていきましょう。どちらもgoo辞書で調べました。
「不」は打消しや否定の意味があるので乱暴に言えば
「続いていてば連続」「それ以外は不連続」とも理解できます。
次にNotion AI に「Tableauの連続と不連続で記事を書いて」とお願いしてみました。
Tableauを使用する上で重要な概念の一つに、「連続」と「不連続」があります。これらの理解は、効果的なデータ分析とビジュアライゼーションの作成に不可欠です。
連続(Continuous)とは
連続データは、無限の値を取り得る数値データを指します。例えば:
売上高
温度
時間
Tableauでは、連続フィールドは通常、緑色で表示されます。これらのフィールドは軸上に配置され、連続的な範囲を形成します。
不連続(Discrete)とは
不連続データは、個別の、明確に区別できる値を持つデータを指します。例えば:
製品カテゴリー
顧客ID
年(2023年、2024年など)
Tableauでは、不連続フィールドは青色で表示されます。これらのフィールドはヘッダーとして表示され、個別の値として扱われます。
連続と不連続の使い分け
データの性質や分析の目的に応じて、連続と不連続を適切に使い分けることが重要です。例えば:
時系列データを月別に集計したい場合、月を不連続として扱うことで個別の月ごとの集計が可能になります。
一方、同じデータを連続的なトレンドとして見たい場合は、月を連続として扱うことでスムーズな線グラフを作成できます。
Tableauでは、多くの場合、フィールドの連続・不連続を簡単に切り替えることができます。これにより、データの見方を柔軟に変更し、異なる視点からの分析が可能になります。
「連続は無限の値を取り得る数値」というのは納得感が強いですね。
連続は緑で、不連続は青など知らないことも教えてくれました。
(ハルシネーションの可能性もありますが検証は割愛します)
上記で十分理解できる気もしますが、蛇足ながら別の書き方をしてみます。
個人的に連続で例に挙げたいのは「時間の流れ」と「距離」です。
時間で考えてみる
記事を書いているいまは2024年11月19日 22時26分です。
今日、明日、明後日……と時間は続いていきます。
日にちの区別は人間が扱いやすいようラベリングしただけで
時間の流れを今日と明日で切り分けることはできません。
11月19日から一気に12月1日には行けません。同様に一瞬で10年後にも行けません。
これは時間が「連続している」からです。
また、22時26分と27分の間には細かい「秒」があります(ミリ > マイクロ > ナノ。さらに細かいのはピコ、フェムト、アトと続くそうです)
つまり細かく見ても「途切れずに続いている」のが時間の流れです。
距離で考えてみる
次は距離で考えてみます。
この記事を書いているのは関東です。
北海道、北陸、広島、九州など日本中につながっています。
同様にエベレストからマリアナ海溝まですべての場所は地続きです。
宇宙に目を向けても途切れずにどこまでも続いています。
この距離も、飛び越えることはできませんから「連続」です。
走り幅跳びで6メートルを超えたとしても距離が「途切れた」わけではありません。踏み切りから着地まで、高さは変わりつつ距離を移動しただけでやはり連続しています。
ここで改めて辞書の定義をみてみましょう。
時間も距離も連続しています。
「Tableauで集計する売上はお金で硬貨は『1円』が一番小さいから不連続では?」という疑問を持つ方もいるでしょうが、財務では小数点以下の金額が存在しています。ですから連続的な値として扱えます。
他に為替レートや株価などは小数点以下の細かい変動があり連続的な性質を持っています。このようにデータの性質や分析の目的によって連続か不連続かの判断が変わることがあります。データの特性を理解し適切な方法で分析することが大切だと思います。
本日の解説はここまでです。
お読みいただきありがとうございました。
トップ画像は以下からお借りしました。ありがとうございました。
NDLオンライン
https://ndlsearch.ndl.go.jp/imagebank
川瀬巴水の風景版画
https://ndlsearch.ndl.go.jp/imagebank/theme/hasuishinhanga