見出し画像

データクリーニングのチェック

データクリーニングの検証に役立つチェックリストをまとめました。
以下の項目を確認して、データの品質を向上させましょう。

  1. エラーの発生源

    • データセットに含まれるエラーの原因を見つけるために、適切なツールや関数を使用したか?

  2. NULLの処理

    • 条件付き書式やフィルターを使用してNULLを検索したか?

  3. 単語のスペルミス

    • スペルミスはすべて特定したか?

  4. 数字の入力間違い

    • 数字が正しく入力されているか、ダブルチェックしたか?

  5. 余分なスペースや文字

    • TRIMで余分なスペースや文字を削除したか?

  6. 重複の処理

    • Remove Duplicates関数やSQLのDISTINCTを使って、重複を削除したか?

  7. データ型の不一致

    • 数値、日付、文字列のデータが正しく入力されているか確認したか?

  8. 文字列の乱れ(矛盾)

    • すべての文字列が一貫性を持ち、意味のあるものであると確認したか?

  9. 日付のフォーマットの乱れ(矛盾)

    • データセット全体で一貫した日付のフォーマットが保たれているか?

  10. 誤解を招く変数ラベル(列)

    • 列の名前は適切なものか?

  11. データの切り捨て

    • 修正すべきデータの切り捨てや、欠落がないか確認したか?

  12. ビジネスの論理性

    • ビジネスに関する知識に基づいて、データが意味をなしているか確認したか?

以上のチェックポイントを使って、データクリーニングのプロセスを改善し、データの品質を高めていきましょう。

この記事が気に入ったらサポートをしてみませんか?