ブレンドのポイント~初心者向けに~
こんにちは!Riekoです。
今回はDataSaberで学んだデータ整形の中でも、
ブレンドについてお話したいと思います。
では、ブレンドについてTableau Helpに書かれている説明を見てみましょう。
ちょっと難しいですね。
そこで私なりのブレンドのポイントをリストアップしてみます。
ブレンドのポイント
データが別々のデータソースに存在する場合に使用する
くっつけるデータ同士が異なる詳細レベルの場合に使用する
販売と在庫、売上と仕入など。
シートごとにプライマリーデータソースを選択できる
プライマリーデータソースはワークブックで一つであり、その他はセカンダリデータソースになる
結合方法はプライマリーデータソースにした方から見て左外部結合になる
以上について図を用いて説明していきたいと思います。
データが別々のデータソースに存在する場合
画像のように2つのExcelファイルがあったとします。
これらは別々のデータソースであり、1ワークブックに複数シートがあるわけではありませんね。
こういう時にブレンドを使います。
使い方は簡単、まずは一つ目のデータソースを接続し、もう一つのデータソースをドラッグアンドドロップでTableauに落とし込むだけで、ブレンドとして接続されます。(他にも方法がありますが、ここでは省略します)
接続するデータソースが異なる詳細レベルの場合
上の画像で紹介した「果物在庫.xlsx」と「果物販売.xlsx」がそれにあたるので、中身を見てみましょう。
「果物販売データ」は、1つ1つの果物がどれだけ販売されたかのデータです。
それに対し「果物在庫データ」は、1つ1つの果物が何個在庫があるのかのデータです。
こういったデータは一般的に「トランザクションデータ」と言われます。
DBを勉強している方ならわかるのですが、注文や在庫のように、値がどんどん追加や削除、更新などがされるのがトランザクションデータ、それに対して社員名簿や商品名簿など、基本的にあまり内容が変わらないデータのことを「マスタデータ」と呼びます。(厳密にはもっとちゃんとした定義があるのですが、ここでは割愛します)
このように、「果物販売データ」と「果物在庫データ」は両方ともトランザクションデータになります。
そして「在庫」「販売」は、それぞれ別のところでデータの更新が行われます。
例えば販売を記録するのはレジだったり、販売システムだったりしますが、
在庫の記録は商品を仕入れている倉庫などでのシステム入力だったりしますよね。
このように2つのトランザクションは別の粒度で発生します。
そのため、販売されているけど在庫のないデータや、在庫はあるけどまだ売れていないデータなどが存在してしまいます。(そういったことが発生しないようにしているシステムもありますが)
このような、接続するデータが別の粒度で発生している場合、Tableauではブレンドという接続方法を選択します。
シートごとにプライマリーデータソースを選択できる
ブレンドしました!さあvizを作るぞ!ってなったとき、
まずはディメンションなど何かしらドロップしますよね。
そこで最初にドロップしたフィールドのデータソースが「プライマリーデータソース」、それ以外が「セカンダリデータソース」になります。
プライマリーデータソースはワークブック内で一つで、セカンダリデータソースはそれ以外全部なので複数が該当します。
プライマリーデータソースはワークブック内で一つということを抑えておきましょう。
ただ、その制約はシートの中でのみです。
別のシートに移動すると、プライマリ、セカンダリの設定はリセットされます。
なので別シートでは最初にドロップしたフィールドがプライマリデータソースとして設定されます。
結合方法はプライマリーデータソースに対して左外部結合
データの結合には「内部」「左外部」「右外部」「完全外部」がありますが、ブレンドの場合は必ず「左外部」になります。
なので、どれをプライマリーデータソースにするかを正しく選ばなければなりません。
しかし、シートごとにプライマリーデータソースを変えられるので、
最初のシートでは「販売」をプライマリーデータソースにしたけど、
次のシートでは「在庫」をプライマリーデータソースに、ということが可能です。
分析の目的に応じてプライマリーデータソースを選択しましょう。
おわりに
いかがでしたでしょうか?
ブレンドは私も最初理解するのに少し苦労しましたが、
以上のポイントを押さえておけば大まかなところは理解できるのではないかと思います。
他にも結合方法は色々とありますので、
機会があればまた記事にしていきたいと思います。
最後まで読んでくださってありがとうございました😊
Rieko