見出し画像

Tableau Prep Tips集21 ー重複行の特定ー フィールド単位の作業

Tableau Prepユーザー会のNakajima2です。
Japan Preppin Data FamメンバーのPrep Tips集をご紹介します。
今回は、重複行の特定です。

データ準備の重要なステップの1つは、「重複行の整理」です。
重複データが混在していると、分析結果が正確でなくなる可能性があります。これを解決するために、Tableau Prepの新機能として「重複行の特定」 が2024.1 バーションから登場しました。

この機能は、重複データを効率的に特定し、簡単に削除または管理できる優れたツールです。以前、Tableau PrepのTips集 16でもこの処理概要をご紹介しましています。
今回は、初心者の方にも分かりやすく、フィールド単位での重複確認などこの機能の使い方と、メリットをご紹介します。

Prep Tips (41) : 重複行の特定

1. 重複行の特定機能とは?

Tableau Prepの「重複行の特定」は、データ内の繰り返しレコードを簡単に見つけ出す機能です。これにより、ユーザーは以下の作業を短時間で実行できます:

  • 重複データの確認: どのデータが重複しているかを素早く確認可能。

  • 削除または保持の選択: 重複行を削除する、または特定の基準に基づいて保持する行を選択可能。

2. 実際の操作方法

Preppin‘ Data 2024W47 を例にした手順です。

ステップ1: データの接続

  1. Tableau Prepでデータソースを接続します(例:ExcelファイルやCSV)。

  2. クリーニングステップを追加します。

ステップ2: 重複行を特定する

1)全てのフィールドに対し重複行を特定する場合

  1. 上部メニューから「重複行の特定」オプションを選択します。

画面上部の「重複行の特定」を選択する

この操作で、Prepが自動的に重複行を選び出す関数式を作成しています。

[重複する行はありますか?]
IF      ({PARTITION [Customer ID], [First Name], [Last Name], [Phone Number],       [Address]: 
         { ORDERBY [Customer ID] DESC: ROW_NUMBER() } } 
   = 1)
THEN '一意' ELSE '重複' END

自動で作成される計算式 PARTITION と ORDERBY の関数を用いた条件式で選択されています


2)特定のフィールドに対し重複行を特製する場合

  1. 重複を特定するためのキー( [Customer ID] など)を指定します。

    • 複数のフィールドをキーとして選択することも可能です。

  2. 表示されたメニューから「重複の特定」オプションを選択します。

フィールドを指定した場合の「重複行の削除」 操作

この操作で、Prepが自動的に指定したフィールドを対象とした重複行を選び出す関数を作成しています。

[重複する行はありますか?]
IF   ({PARTITION [Customer ID]:
        { ORDERBY [Customer ID] DESC: ROW_NUMBER() } }
   = 1)
THEN '一意' ELSE '重複' END

自動で作成される計算式 PARTITION と ORDERBY の関数を用いた条件式で
指定したフィールドのみが選択されています

お気づきのように、PARTITION関数の部分に指定するフィールドを記載することで、指定の複数フィールドをキーとした重複行の確認をすることが出来ます。

ステップ3: 重複行を整理する

  1. 前述操作で作成された [重複する行はありますか?] フィールドで、「重複」のデータを除外で処理するなどで重複している行を削除します。

  2. 結果を確認し、処理が正確に実行されたことを確認します。

[重複する行はありますか?] フィールドで、「重複」のデータを除外
「重複」のデータを除外した後の結果例


3. 利用するメリット

① 作業時間の短縮

手動で重複行を探して削除する作業は非常に時間がかかります。この機能により、数秒で重複行を特定し整理できます。

② データの品質向上

重複データを削除することで、分析の精度が大幅に向上します。特に、売上データや顧客データなど、精度が重要なデータセットに効果的です。

③ 柔軟性の向上

重複を特定する基準を自由に設定できるため、異なる分析目的に対応できます。

4. 注意点

  • 保持基準を慎重に設定: 重複行の削除時に、どの行を保持するかの基準を明確にしましょう。例えば、最新のデータを優先するのか、最初に入力されたデータを保持するのかを決める必要があります。

まとめ
Tableau Prepの「重複行の特定」機能は、初心者から上級者まで、データ準備の効率を大幅に向上させる強力なツールです。この機能を活用することで、データクレンジングの作業時間を短縮し、分析の信頼性を高めることができます。データ準備の段階で発生するストレスを軽減し、より本質的な分析に集中できるようになるでしょう。

ぜひこの新機能を活用して、より正確で効果的なデータ分析を実現してください。


いいなと思ったら応援しよう!