Tableauでよく見る用語がわかりにくいのでpythonで例えてみた

今回は、データ分析ツールの一つである「Tableau(タブロー)」でよく使われる用語について、かみ砕いてまとめてみようと思います。
作者はもともとpythonを使っていたので、pythonで例えてみました。
とりあえず今回は「ディメンジョン」と「メジャー」です。


背景

現在DataSaberに挑戦しており、とりあえず何か文章にまとめて後で見返したいなあと思ったのと、tableauのコミュニティに少しでも貢献したいなあと漠然と思ったので、いったんnoteにしてみました。
なお、作者の日本語力は(悪い意味で)定評があります。

ディメンジョン

こいつ、説明めっちゃ難しくないですか?
pythonのdataframeで例えると、例えば、df.groupby("ケーキの種類") や df.groupby(["ケーキの種類", "日付"]) のように、「どの列を軸にしてまとめるか」というのが「ディメンジョン」に近い考え方かなと思います。

Python でグラフを作る際(matplotlib や seabornなど)、横軸や色分けに使う列が「ディメンジョン」の役割を持つって考えてみると、

import seaborn as sns
import matplotlib.pyplot as plt

# データフレーム df があるとして
sns.barplot(x="ケーキの種類", y="売上金額", data=df)
plt.show()

x="ケーキの種類" となっているので、「ケーキの種類」という“カテゴリ(分類軸)”を使っている → Tableau でいう「ディメンジョン」に相当。

という風に考えると、かなりイメージしやすかったです

メジャー

となると、対になる「メジャー」は、pandasでいうとy軸になりがちのやつですね。今回の例だと「売上金額」です。
たぶん、df["売上金額"].sum()とかで使えるやつですね。

グラフでプロットする際に「Y 軸に数値をとる」ケースが典型例。

と解釈してみました。

メジャーは連続値、ディメンションはカテゴリカル変数みたいなイメージを持ったらいいのかなと思いました。あくまでもイメージですが。

まとめ

  • ディメンジョン(Dimension)

    • Python: groupby やプロットの “カテゴリ軸” に使う列

    • Excel: ピボットテーブルで “行” や “列” にドラッグするフィールド

  • メジャー(Measure)

    • Python: 集計・平均など数値操作を行う列(df["売上金額"].sum()など)

    • Excel: ピボットテーブルの “値” に置くフィールド


そして、記事書いてるときに見つけた先人のnoteがめっちゃわかりやすかったので、共有します。むしろこっちみればいいかも。。
https://note.com/ritz_tableau/n/nf4f4066be7f3


いいなと思ったら応援しよう!