Tableauでよく見る用語がわかりにくいのでpythonで例えてみた
今回は、データ分析ツールの一つである「Tableau(タブロー)」でよく使われる用語について、かみ砕いてまとめてみようと思います。
作者はもともとpythonを使っていたので、pythonで例えてみました。
とりあえず今回は「ディメンジョン」と「メジャー」です。
背景
現在DataSaberに挑戦しており、とりあえず何か文章にまとめて後で見返したいなあと思ったのと、tableauのコミュニティに少しでも貢献したいなあと漠然と思ったので、いったんnoteにしてみました。
なお、作者の日本語力は(悪い意味で)定評があります。
ディメンジョン
こいつ、説明めっちゃ難しくないですか?
pythonのdataframeで例えると、例えば、df.groupby("ケーキの種類") や df.groupby(["ケーキの種類", "日付"]) のように、「どの列を軸にしてまとめるか」というのが「ディメンジョン」に近い考え方かなと思います。
Python でグラフを作る際(matplotlib や seabornなど)、横軸や色分けに使う列が「ディメンジョン」の役割を持つって考えてみると、
import seaborn as sns
import matplotlib.pyplot as plt
# データフレーム df があるとして
sns.barplot(x="ケーキの種類", y="売上金額", data=df)
plt.show()
x="ケーキの種類" となっているので、「ケーキの種類」という“カテゴリ(分類軸)”を使っている → Tableau でいう「ディメンジョン」に相当。
という風に考えると、かなりイメージしやすかったです
メジャー
となると、対になる「メジャー」は、pandasでいうとy軸になりがちのやつですね。今回の例だと「売上金額」です。
たぶん、df["売上金額"].sum()とかで使えるやつですね。
グラフでプロットする際に「Y 軸に数値をとる」ケースが典型例。
と解釈してみました。
メジャーは連続値、ディメンションはカテゴリカル変数みたいなイメージを持ったらいいのかなと思いました。あくまでもイメージですが。
まとめ
ディメンジョン(Dimension)
Python: groupby やプロットの “カテゴリ軸” に使う列
Excel: ピボットテーブルで “行” や “列” にドラッグするフィールド
メジャー(Measure)
Python: 集計・平均など数値操作を行う列(df["売上金額"].sum()など)
Excel: ピボットテーブルの “値” に置くフィールド
そして、記事書いてるときに見つけた先人のnoteがめっちゃわかりやすかったので、共有します。むしろこっちみればいいかも。。
https://note.com/ritz_tableau/n/nf4f4066be7f3