見出し画像

データの結合方法、クロスデータベース結合:Tableau DataSaber講義まとめ~Intermediate I その1~

DataSaberの勉強のため、講義内容を私なりにまとめました。
講義はTableauを深く理解できる内容になっていて、非常に勉強になりました。

※手順の詳細は載せず、課題で習得できるテクニック/知識を中心に書いています。講義では詳しく説明されています。
※データソース:サンプル - スーパーストア
※Tableau Ver.:2023.2.0


データ結合方法

Tableau Desktopでの結合方法は以下の3つです。

1. データ結合

同じデータソース(データベース)にあるテーブル同士を結合する。

  • いわゆる普通のJoin。

  • データソースシートで結合する。

データソースシートで結合

2. データブレンド

別々のデータソースを取り込んで、後から鎖でつなぐ。

※Tableau独特の集計方法。クロスデータベース結合が出てきてあまり使わなくなったが、賢く使うと便利な方法。

  • それぞれのテーブルで集計してからくっつける。

  • 必ず左結合

  • 右のテーブルにあって、左にないものはブレンド結果の表には表示されない。

  • データソース(データベース)が違っても結合できる。

データブレンド例

注意点

  • 使用する人が変更できてしまう(リンクマークを外せる)ので、誤ってリンクを外してしまったら分析ができなくなる。

  • キーに対して該当する値が複数ある(例:マスタテーブルで品名に対してカテゴリが2つある)場合、結果の表にアスタリスクが表示される。
    ※ちなみにこの状態でJoinすると、スイカが2重になって、売上が倍増してしまう。

上手くいっていない例
  • AとBをブレンド、その結果とCをブレンド・・というような直列のブレンドはできない。

データブレンドの活用例

  • 集計してから結合するので、粒度の違うデータ同士を結合する時に活用できる。

  • 同じデータソースで、違う粒度のデータ結合を行う場合は有効。

3. クロスデータベース結合

データ結合(JOIN)とデータブレンドをMIXしたもの。

※こちらもTableau独特の集計方法。

  • データソースシートで結合する。

  • 結合後の表は、行レベル結合(データ結合 ROW by ROW)。

  • データソース(データベース)が違っていても結合できる。データブレンドでは様々な制約があるため、これができた。

  • 1つのデータソースになるので、LOD表現も使える。

  • 知見のある人が設定した正しい結合方法のデータを、安全に利用できる。(クロスデータベース結合したものをパブリッシュして、serverに置いておくと、他の人が変更できなくなる)

まとめ:3つの結合方法の比較

違いを良く理解して、賢く使いたいですね。

結合の場所、結合の流れ、パフォーマンスに影響するものの比較
パフォーマンスは早め
ローカルに負荷はあまりない
全てのデータが異なるデータベースからやってくるので負荷がかかる。

※クロスデータベース結合の場合、データ量が多い時はhyperを使用した方がいい。ライブを使う場合は、注意する。

データブレンドを使う場面を見極めて賢く使う


参考文献:DATA Saber Boot Camp Week3 "HandsOn - Intermediate I" by KT
Images:by starline and by pikisuperstar on Freepik , by Freepik and by Freepik


この記事が気に入ったらサポートをしてみませんか?