こつこつできない人のDATA Saberチャレンジ②Tableau初学者のひっかかり概念盛り合わせ
2024年12月からApprenticeとしてTableauの資格の一つであるDATA Saberにチャレンジ中のこぴです。情けないのですが、本当に駆け込みで各ordeal/コミュニティポイントをかき集めております。
ブログ第2弾は自身のようなTableau初学者が手を動かしていく中で疑問を抱きやすい概念について、自身の備忘も兼ねて記します。
※誤解もあるかもしれません!現時点で自身のバックグラウンドも含めた
納得の仕方と見ていただけると幸いです。
連続と不連続?
スーパーストアと向き合う中で一番お世話になる「オーダー日」のような日付型でよく出会う「連続/不連続」。
なんか参考にしているグラフと見た目が一致しないな…と思っていたらここが違うことが要因のことが(体感)多いです。
初めて見たときは大学でほんの少しかじっていた知識を思い出し、
「連続値/離散値」ってことだな~といったん飲み込みました。
ただ、連続/離散は、特定の値がどちらに属するかは明確に正解があります。そこ間違えて取り扱ったらダメよ~という感覚です。
一方でTableauワールドでの「連続/不連続」はかなり自由度がある印象です。Vizの目的や目標とするビューによって、それぞれのデータの立ち振る舞いをこちらが指定できる(=適切に指定する必要がある)と感じました。
ノットイコール「連続/離散」、それがTableauの「連続/不連続」ですね。
と思ったら公式に数学用語「連続的/離散的」の言及がありました。あながち間違っておりませんでした。緑と青を見たら「連続/不連続」ということですね。
Tableau は、フィールドが離散的か連続的かによって、ビューでデータを異なる方法で表現します。連続と不連続は数学用語です。連続的とは、「途切れることなく、切れ目のない全体を形作っている」ことを意味します。これらのフィールドは緑色で表示されます。連続フィールドが行シェルフまたは列シェルフに配置されると、ビューに軸が作成されます。
離散的 (不連続) とは、「個別に分離され、区別される」ことを意味します。これらのフィールドは青色で表示されます。離散フィールドが行シェルフまたは列シェルフに配置されると、ビューにヘッダーが作成されます。
そしてなるほど!連続の値を入れたときにビューに出てくるのは
「(縦/横)軸」である一方で、不連続の値を入れたときに出てくるのは軸と言ってしまいがちなのですが、あくまで「(縦方向/横方向)ヘッダー」という扱いなんですね…!
これは得心がいきました。困ったときの公式ドキュメント。
左の例では、[数量] フィールドが連続的であるため、ビューの下部に横軸が作成されます。緑色のピルと軸から、連続フィールドであることがわかります。
右の例では、[数量] フィールドが離散的です。軸ではなく横方向のヘッダーが作成されます。青色のピルと横方向のヘッダーから、不連続であることがわかります。
「連続/不連続」によるビューの変化についてはこちらにも詳しく記載されています。
ディメンションとメジャー?
かなり「連続/不連続」に似ているな~と思うのは私だけでしょうか。最初のほうは少々ごっちゃになっておりましたが、引用するとおりメジャーとディメンションにはそれぞれ「連続/不連続」の2タイプが存在します。
不連続ディメンション
連続ディメンション
(データ型が文字列またはブール値のディメンションは連続にはなりません)
不連続メジャー
連続メジャー
ディメンション
「連続/不連続」の項で自由度があるな~と書きましたが、切替可能なディメンションとそうでないディメンションは明記されています。不連続のみのディメンションがあることから、目にする頻度として青(不連続)のディメンションが多く、ごっちゃになりやすいのもうなずけます。
イコールの概念ではないけれど、緊密に連携しているのは体感のとおりでした。
切替可:日付ディメンション、数値ディメンション
切替不可(不連続のみ):文字列含むディメンション、ブール値含むディメンション
日付ディメンションと数値ディメンションは不連続または連続のいずれかにでき、すべてのメジャーは不連続または連続にすることができます。
日付ディメンションは、不連続または連続になる場合があります。文字列またはブール値を含むディメンションは、連続にはなりません。
Tableau はディメンションを集計しません。
メジャー
メジャーはとにかくTableauワールドにあると集計!集計!集計の対象!
集計されたくないメジャーっぽい顔をした値は、ディメンションに逃がせばいい(=集計しない)ということですね。
メジャーはビューにドラッグすると、既定で集計されます。集計の種類は、ビューの種類によって変わります。集計を必ずチェックして、必要があれば変更してください。
Tableau はフィールドの値を集計し続けます。フィールドが離散的になっても、それはメジャーであり、Tableau はデフォルトでメジャーを集約するためです。
Tableau が、データの種類などが原因でフィールドをディメンションまたはメジャーとして誤って分類した場合は、変換してその役割を変更することができます。メジャーを集計する必要がない場合 (数値の ID など)、フィールドをディメンションに変換します。
いやいや、ディメンションも集計することあるでしょ、というのはこちらですね。ちょっと前述の内容と相反している気もしますが、ディメンションについてはこの限られた集計しかできないよ、といまは認識しておきたいと思います。
最小値、最大値、カウント、またはカウント (個別) を使用して、ビューのディメンションを集計できます。ディメンションを集計すると、ディメンションが実際にはメジャーの特性を引き受けるよう、新しいメジャー列が一時的に作成されます。
ディメンションを表示するもう 1 つの方法は、ディメンションのコンテキスト メニューから [属性] を選択して、ディメンションを属性として扱うことです。
集計と非集計?
すでに前項で出てきてしまっていますが本記事の最後は「集計/非集計」についてです。
初見だとなんじゃそら?となったのですが非集計でデータをプロットしたときになるほど~バラ子でこの値を扱うってことね、とイメージがわきました。
ちなみに原語だと【aggregation:集計、non-aggregation:非集計】ですが、私が専攻していた生物学でaggregationといえば細胞やタンパク質の凝集体を指すので、よりわかりやすかったです。細胞を1個ずつほぐしてあるのが非集計ですね。
脇道に逸れますが、アプリ内を英語表示で操作したほうがわかりやすい説…とふと思ったのでのちほど試してみたいと思います。いまはさすがに反応速度が一気に落ちるので厳しいですが…英語メニューかっこいいですし…
連続/不連続、ディメンション/メジャーは1対1の概念!という感じでしたが、集計/非集計は少し異なった趣きがありますね。
というのもメジャーの項でも書きましたが、Tableauワールドでは集計がスタンダード、という状況なので、
事前定義済みの用意された集計がたくさんあります!
…とはいえ集計しないほうが便利な場面もありますよね?
ポチっ、非集計。 となります。
多対1、あるいは非集計も(集計しないという)集計の1種である、という構図がわかりやすいのかもしれません。
Tableau では、表のような事前定義済みの集計が用意されています。集計を含む計算フィールドではないメジャーに対しては、AVG([Discount]) などの既定の集計を設定できます。
ビュー内の既存のフィールドの集計を設定することもできます。
・属性
・ディメンション
・合計
・平均
・カウント(個別)
・最小
・最大
・Std (標準)Dev (Pop) (偏差 (母集団) )
・分散
・Variance (Pop) (分散 (母集団) )
・非集計
初学者が引っかかりがちなTableauワールドで必須の概念3つについて記してみました。
個人的にはもやもやするときにはいろんな人の解説記事を見つつ、公式ドキュメントに立ち返るのが一番!との学びがありました。
こちらで第2弾は結びといたします。ありがとうございました!