データクリーニングのチェック
データクリーニングの検証に役立つチェックリストをまとめました。
以下の項目を確認して、データの品質を向上させましょう。
エラーの発生源
データセットに含まれるエラーの原因を見つけるために、適切なツールや関数を使用したか?
NULLの処理
条件付き書式やフィルターを使用してNULLを検索したか?
単語のスペルミス
スペルミスはすべて特定したか?
数字の入力間違い
数字が正しく入力されているか、ダブルチェックしたか?
余分なスペースや文字
TRIMで余分なスペースや文字を削除したか?
重複の処理
Remove Duplicates関数やSQLのDISTINCTを使って、重複を削除したか?
データ型の不一致
数値、日付、文字列のデータが正しく入力されているか確認したか?
文字列の乱れ(矛盾)
すべての文字列が一貫性を持ち、意味のあるものであると確認したか?
日付のフォーマットの乱れ(矛盾)
データセット全体で一貫した日付のフォーマットが保たれているか?
誤解を招く変数ラベル(列)
列の名前は適切なものか?
データの切り捨て
修正すべきデータの切り捨てや、欠落がないか確認したか?
ビジネスの論理性
ビジネスに関する知識に基づいて、データが意味をなしているか確認したか?
以上のチェックポイントを使って、データクリーニングのプロセスを改善し、データの品質を高めていきましょう。
この記事が気に入ったらサポートをしてみませんか?