Tableau Prepの作業を変えるTips集 2 ーデータの扱い方(縦持ち)、フロー修正作業の柔軟さ(後から修正、立ち戻り)ー
Tableau Prepユーザー会のNakajima2です。
Japan Preppin Data FamメンバーのPrep Tips集をご紹介します。
今回は第2回目、2つのTipsです。
Prep Tips (3) : フィールド数の最小化、データ縦持ち -Mr. Morita直伝-
<初心者〜上級者>
データ前処理の鍵1 : 最小限のフィールド数で作業を
Tableau Prepを使ったデータ前処理では、データセット内のフィールド(列)数を可能な限り減らすことが重要です。これはなぜでしょうか?
答えはシンプルです。フィールド数が多いほど、データの扱いが複雑になり、分析のパフォーマンスが低下します。また、不必要なフィールドを持つことで、分析時に誤解を招く原因となることもあります。重要なのは、分析に必要な情報のみを保持し、それ以外は思い切って削除する勇気を持つことです。
データ前処理の鍵2 : 縦持ちデータ構造への変換
データ構造を「縦持ち」に変換することも、効果的なデータ前処理の方法です。
「縦持ち」形式とは、複数のフィールドが同じ種類のデータを持っている場合、これらを一つのフィールドに統合し、別のフィールドでデータの区分を示す形式のことを指します。
この変換により、データモデルがシンプルになり、Tableau Desktopでの分析やビジュアライゼーション作成時に柔軟性が高まります。
例えば、時間に関するデータが年ごとに異なるフィールドに分かれている場合、これらを一つの「年」フィールドとしてまとめ、「データ値」フィールドでそれぞれの年の値を表現するようにします。
実践的な例1 フィールド数の削減
(作業前):データソースの接続時に「Product_Type」「Product_Scent」「Pack_Size」「Product_Size」「Unit_Cost」「Selling_Price」というフィールドが存在。
(作業後):その後のステップで最低限 必要となる「Product_Type」「Selling_Price」の2つのフィールドのみとし、他のフィールドは削除する。
実践的な例2 縦持ちデータ
(作業前):「2020年売上」「2021年売上」「2022年売上」というフィールドが存在。
(作業後):「年」「売上」という2つのフィールドに変換。各レコードには「2020」「2021」「2022」という年の値とそれに対応する売上が記録される。
まとめ
データの扱いやすさを最優先に、データフィールド数の削減と縦持ちデータ構造への変換することは、Tableau Prepでのデータ前処理における基本的ながら極めて重要なステップです。これにより、データセットがより扱いやすくなり、分析の精度とパフォーマンスが向上します。
分析の目的に合わせて不要な情報は削除し、データをシンプルに保つことで、より鮮明で洞察に富んだビジュアライゼーションを作成することが可能になります。
Prep Tips (4) : フィールドを削除した場所に戻り、必要なフィールドを再度追加
<初心者〜中級者>
Tableau Prepでの効率的なデータ前処理は、分析作業の質と速度を大きく左右します。上記の通り、フィールド数を最小限に保つことは、作業効率とフローの実行速度の向上に寄与しますが、その過程で「後で必要になるかもしれないフィールド」を削除することに多少の不安を感じるかもしれません。
そこで、Tableau Prepの強力な機能についてお話ししましょう。この機能により、フィールドの削減がもたらす利点を最大限に活かしつつ、柔軟性を保つことができます。
データ加工の柔軟性
フィールドの追加と削除フィールド削減の利点フィールド数を必要最低限に保った際に、データ加工作業を進める中で、「削除したフィールドが後になって必要になった」という状況に直面することもあります。
ここでTableau Prepの便利な機能、いつでも加工フローの過去のステップに戻り、削除したフィールドを再度追加することが可能です。
(事例) 前述のデータソースの接続時に「Product_Type」「Selling_Price」のみとしたフローで、作業を進めた際に削除した「Product_Size」「Unit_Cost」のフィールドを使用する必要性が出てきた。
データソースの接続時のステップに戻り、「Product_Size」「Unit_Cost」フィールドを再利用できる設定にしました(削除を解除した)。
これにより、データの探索と分析がより動的で迅速に行えるようになり、分析プロセス全体の柔軟性と効率性が向上します。
SQLとの比較
SQLでは、フィールドを削除した後、そのフィールドが必要になった場合、再度クエリを書き直し、データセットを再生成する必要があります。
一方、Tableau Prepでは、視覚的なインターフェースを通じて、フィールドの追加や削除を簡単に行い、変更内容を即座に確認できます。
まとめ
Tableau Prepの強力な機能を利用することで、フィールド数を最適化しながらも、データ分析の過程での柔軟性を失わずに作業を進めることができます。
これにより、作業効率とフローの実行速度を向上させることが可能になり、同時に分析の質も高めることができます。Tableau Prepを使いこなすことで、データ分析の可能性を広げ、より深いインサイトを得ることができるようになります。