正解とのデータ検証の仕方 -その2-
Preppin' Dataやっていて困ったことが起きた際の対応方法として、ご紹介します。
前回は、Excelを利用した検証方法をご紹介致しました。
今回は、Prep上で検証できる方法をご紹介します。
ユニオンを利用する方法
検証方法の例として、Preppin' Dataから2023W01の課題を利用します。
この操作は、Tableau Prep Builder バージョン 2024 1以降で実施出来ます。一番手軽に検証が出来る方法と思います。
自分で作成したフローの結果(下の図では青いステップ)に対し、課題に提示されているOutput例(下の図ではオレンジの丸で示された回答例)とユニオンをします。
新たにクリーニングステップ(上の図では「検証」となっています)を作成します。
Prepが自動で生成する [Table Names] のフィールを削除し、下の図 上の方にある「重複行の特定」を押して、作成したフローの結果とOutput例の比較を行います。
作成されたフィールドで、「一意」と「重複」のレコード(行)数が同じになっていれば、作成したフローの結果とOutput例は一致していることになります。
作成したフローの結果が違っている場合は、下の図のように「一意」と「重複」のレコード(行)数が違う数字になります。
結合を利用する方法
ユニオンと同じ事例で、結合を利用する方法になります。
結合の利用は作業の手間が増えますが、どのデータが間違っているのかを確実に把握することが出来ます。
結合の操作では、下の図のように結合キーの設定で「+」のボタンを押して、全てのフィールド同士で結合を行います。フィールド数が多いと手間ですが、ここはしっかり行いましょう。
作成したフローの結果とOutput例が完全に一致していると、下の部の左下部分に表示される結合結果のグラフに、「除外済み」のデータがない状態になります。
こうなったら、OKですね。
作成したフローの結果とOutput例が一致していない場合は、下の図のように結合結果のグラフに「除外済み」のデータが表示されます。
画面上の「不一致の値のみを表示」を押すと、一致していないデータの詳細が表示されます。表示欄のスクロールバーをずらし、一致してないデータを直接確認出来ます。
作成したフローのデータ型がOutput例と一致していない場合は、結合結果のグラフが「0」と表示され、全くデータが合っていないことを示してくれます。
この時、全てのフィールド同士で結合を設定する作業時に、特定のフィールドを結合する作業をして直ぐに下の図の表示が出てきます。データ型が一致していないフィールドが直ぐに分かります。
目検だとだいたい合ってそうと終わらせがちですが、微妙に違う場合があり、それこそがひっかけになっています。
検証をすることで、学びのチャンスがあります。違いを見逃さないようにしましょう。