Tableau Prep Tips集21 ー重複行の特定ー フィールド単位の作業
Tableau Prepユーザー会のNakajima2です。
Japan Preppin Data FamメンバーのPrep Tips集をご紹介します。
今回は、重複行の特定です。
データ準備の重要なステップの1つは、「重複行の整理」です。
重複データが混在していると、分析結果が正確でなくなる可能性があります。これを解決するために、Tableau Prepの新機能として「重複行の特定」 が2024.1 バーションから登場しました。
この機能は、重複データを効率的に特定し、簡単に削除または管理できる優れたツールです。以前、Tableau PrepのTips集 16でもこの処理概要をご紹介しましています。
今回は、初心者の方にも分かりやすく、フィールド単位での重複確認などこの機能の使い方と、メリットをご紹介します。
Prep Tips (41) : 重複行の特定
1. 重複行の特定機能とは?
Tableau Prepの「重複行の特定」は、データ内の繰り返しレコードを簡単に見つけ出す機能です。これにより、ユーザーは以下の作業を短時間で実行できます:
重複データの確認: どのデータが重複しているかを素早く確認可能。
削除または保持の選択: 重複行を削除する、または特定の基準に基づいて保持する行を選択可能。
2. 実際の操作方法
Preppin‘ Data 2024W47 を例にした手順です。
ステップ1: データの接続
Tableau Prepでデータソースを接続します(例:ExcelファイルやCSV)。
クリーニングステップを追加します。
ステップ2: 重複行を特定する
1)全てのフィールドに対し重複行を特定する場合
上部メニューから「重複行の特定」オプションを選択します。
この操作で、Prepが自動的に重複行を選び出す関数式を作成しています。
2)特定のフィールドに対し重複行を特製する場合
重複を特定するためのキー( [Customer ID] など)を指定します。
複数のフィールドをキーとして選択することも可能です。
表示されたメニューから「重複の特定」オプションを選択します。
この操作で、Prepが自動的に指定したフィールドを対象とした重複行を選び出す関数を作成しています。
お気づきのように、PARTITION関数の部分に指定するフィールドを記載することで、指定の複数フィールドをキーとした重複行の確認をすることが出来ます。
ステップ3: 重複行を整理する
前述操作で作成された [重複する行はありますか?] フィールドで、「重複」のデータを除外で処理するなどで重複している行を削除します。
結果を確認し、処理が正確に実行されたことを確認します。
3. 利用するメリット
① 作業時間の短縮
手動で重複行を探して削除する作業は非常に時間がかかります。この機能により、数秒で重複行を特定し整理できます。
② データの品質向上
重複データを削除することで、分析の精度が大幅に向上します。特に、売上データや顧客データなど、精度が重要なデータセットに効果的です。
③ 柔軟性の向上
重複を特定する基準を自由に設定できるため、異なる分析目的に対応できます。
4. 注意点
保持基準を慎重に設定: 重複行の削除時に、どの行を保持するかの基準を明確にしましょう。例えば、最新のデータを優先するのか、最初に入力されたデータを保持するのかを決める必要があります。
まとめ
Tableau Prepの「重複行の特定」機能は、初心者から上級者まで、データ準備の効率を大幅に向上させる強力なツールです。この機能を活用することで、データクレンジングの作業時間を短縮し、分析の信頼性を高めることができます。データ準備の段階で発生するストレスを軽減し、より本質的な分析に集中できるようになるでしょう。
ぜひこの新機能を活用して、より正確で効果的なデータ分析を実現してください。