Tableau PrepBuilder 学習
分析用のデータは、信頼できるデータでなければ!と思っています。
Tableauで分析する前、データの状態は確認してますか?
「傾向の分析だから誤差とすればよいよ、、」と言われても、、
私の場合、それって誤差レベルか一応確認してます。。
そんな時に使用してるのが、「Tableau PrepBuilder」です💛
本来の使い方なのか!と言われると困りますが、好きで使っています!
Tableau Prep はどのようなツール?
データプレパレーションツールで分析等に使うデータの前処理を行うもの。Tableau等で分析する前にデータを整形して分析しやすくします。
uniqueフィールドなのに重複してるとか、文字の揺れ("Yes","yes等)や、あるフィールドをGroupにした時の最新日付の顧客名称を使用するとか、、
Tableauでパフォーマンスが良くない場合は、前処理で整形も考慮に。
◆いいなと思うところ
マウス処理だけで直感的に行えるところが最高にいい!
- データをビジュアライズしながら作業を進めていける
(図例)オーダーIDは複数行ある、オーダー日と出荷日(あれっ?変だ)
- 処理をフローとしてSaveし共有できる
ETLツールなのか?
ETLとは、複数散らばっているデータを統合処理してDWHなどにデータを保管するツールで、プロセスは下記。
①データ抽出 (Extract)、②変換・加工 (Transform)、③連携・保管 (Load)
プロセス簡素化の大きなメリットがありますが、プログラミングが必要。
PrepBuilderは、②をメインとしたTableau 製品スイートのツールになりますので少し位置づけが異なります。
個人メモと使用例
私は個人的にPrepBuilderがとても気に入っていて、スプレッドシートの集計替わりにも使っています。
複数散らばっている大きなデータで固まりそうなものは、UnionしたりJoinししたりであっという間に集計できます。
その工程でおかしなデータを目で確認できるしファイルにも書き出せるから、ホント助かっています。
Excelやスプレッドシートは英大小文字(例:A001SyE32m)は区別しないので、これをKeyにvlookupや重複削除していたら気をつけてくださいね。
(index,match, exact でできるけど、大変、、)
重複チェック
下記は、1製品IDは1製品名?1製品IDに複数の製品名がついてる?の確認
簡単な重複チェックは集計をフローに追加して行います。
下記へは、左側の(画面切れ、、)フィールドをドロップするだけ。
①グループ化したフィールド:
ここに置いたフィールドをグループ化。複数OK。
更にフィルターやクリーニングした値を指定できる。
②集計フィールド:
①のグループ化をここに置いたフィールドで集計。複数OK。
集計方法指定。フィルターで値の範囲や計算も指定できる。
ーーーーーーー
下記の結果、29の製品IDが異なる2つの製品名を持っているようです!
フィールド:出荷までの日数を追加
出荷までの日数(出荷日ーオーダー日)のフィールドを追加します。
計算フィールドの作成をするとフィールドが追加されます。
出荷までの日数のマイナス値を選択し右クリック「保持」し、直接出荷日フィールドの年の値を「値の編集」で変更することもできます。
マイナスの値が数件あり、出荷日の年が1年ズレているようです。
出荷までの日数でマイナス値を全て選択し右クリック「保持」し、出荷日とオーダー日と見比べ変更すべき値か確認します。
出荷日フィールド値の変更は、直接値を右クリックし、「値の編集」で変更できます。
変更内容は残るので、その変更を削除すれば元に戻ります。
今のつぶやき
2回目の投稿となります。
Tableau Prepは好きなんだけど使い込んではおらず、今回初めて細かいところも見て、「こんなこともできるんかーい」と感じました。
そして、サンプルースーパーストアのデータが、Prep使って変更できるようなデータを混ぜているところがイイね! と思いました。
疲れたので、、ほっこり会話
ーーー
13時頃のごはん処にて・・・
品のいい老夫婦:お嬢ちゃん、今昼食なの?
お嬢:(お嬢のお供に)うーん、あの人たち、なにを聞いきてるの?
お嬢お供:今、おひるごはんなの?って聞いてるんだよ。
お嬢:(デン!)おじさん、おひるごはんはね、
ちゅうしょく じゃなくて きゅうしょく って言うんだよ。
品のいい老夫婦 他:アハハ!かわいいね~
お嬢お供:(ひぇ~)