Tableau Prepの処理速度を早めるTIPS
前書き:Tableau Prepについて
Tableauが2018年4月発表した「データ準備を支援する新製品」。過去の名称、Project Maestro。データ分析者の7~8割業務はデータ。その課題を解決する為のツール。
製品としてはPrep Conductor(オンラインでクレンジング)とPrep Bilder(オフラインでクレンジング)の2つがあります。今回はBilderを前提に記載をしていきます。
まだ分析用のETLツールを未導入の方は、まずはPrep Conductorからおすすめします。(2020年5月6日、改定)
00:Prep重い……原因と解決策は?
ただし、Prepの話を聞くと重い…という話をよく聞きます。本投稿ではPrep重い問題をどうやれば解決できるか。基本仕様から小技テクニック集をまとめました。
01:パソコンの仕様を確認
Prep Conductorでは最低のPCスペックが定義されています。(詳細は下記URLをご覧ください)
もちろん 最小要件 < 推奨要件 < 高パフォーマンス で パフォーマンスが異なります。最小要件以下でないかはご確認ください。
02:他のアプリケーションは閉じる
推奨要件以上でなく、数GBの処理をガリガリ回す際は残念ながら他のアプリケーションを閉じてもらえると嬉しいです。スキーマ構成中ならば問題ないのですが、「出力中は閉じる」これは徹底ください。
03:Excelではなく、csvで読み込む、できるならばhyperで
Excelの読み込みは残念ながら遅いです。シートが1つの場合、csvファイルに変更してください。同一データの場合、csvファイルに変更してください。
また可能ならば、hyper形式。TableauはTableau規格のデータ読み込みが最も早いです。数十GBのデータ読み込みも数秒程度の場合も。
ただしcsvとhyperは、ワイルドカードユニオンはできません。
04:ローカルファイルユニオン ✕除外 ○ワイルドカード一致
結果ユニオン条件を試してみて、除外クエリよりも、ワイルドカードでのユニオンのほうが読み込みが早いです。わずかの差ですが。
05:【最重要】サンプル数は極力少なくする
プレビュー機能が重い最大の要因と言っても過言ではないような気がします。サンプルが少ないと不安。。。という方も、勇気を持って各ファイルサンプル数を1000とかでいいので、試してみてください。
06:Prepのフローはシンプルに
Tableau Prepは初心者が、SQLの初級・中級者が実現することと同じようなことを実現してくれます(偏見)
だからこそ、いかにシンプルにするのか。を忘れてはいけないなと反省しています。シンプルにするためのおまけを下記に記載します。
07:おまけ1 カラム除外は初期段階
カラムのDropは初期データソースの読み込み段階で除外してください。クリーニングではなく、初期のカラム選択。
08:おまけ2 データ処理はユニオン前?後?
別のスキーマのデータソース処理、ユニオン前後どちらでデータ処理するか悩みどころです。
1) 別データソースで同じクレンジングをするならば、ユニオン前
2) 別データソースで別データ処理クレンジングをするならば、ユニオン後
09:pivot処理 便利だけど要注意
Pivotは非常に魅力的な機能です。ただし、行列変換はデータを時間をかけて丁寧に調べてくれます。できるだけ早めの段階でpivotしたほうがいいです(過去逆のこと言ってましたごめんなさい)
なにかあれば、ぜひご相談くださいー!
この記事が気に入ったらサポートをしてみませんか?