
Photo by
matsuri365d
データクリーニングのチェック
データクリーニングの検証に役立つチェックリストをまとめました。
以下の項目を確認して、データの品質を向上させましょう。
エラーの発生源
データセットに含まれるエラーの原因を見つけるために、適切なツールや関数を使用したか?
NULLの処理
条件付き書式やフィルターを使用してNULLを検索したか?
単語のスペルミス
スペルミスはすべて特定したか?
数字の入力間違い
数字が正しく入力されているか、ダブルチェックしたか?
余分なスペースや文字
TRIMで余分なスペースや文字を削除したか?
重複の処理
Remove Duplicates関数やSQLのDISTINCTを使って、重複を削除したか?
データ型の不一致
数値、日付、文字列のデータが正しく入力されているか確認したか?
文字列の乱れ(矛盾)
すべての文字列が一貫性を持ち、意味のあるものであると確認したか?
日付のフォーマットの乱れ(矛盾)
データセット全体で一貫した日付のフォーマットが保たれているか?
誤解を招く変数ラベル(列)
列の名前は適切なものか?
データの切り捨て
修正すべきデータの切り捨てや、欠落がないか確認したか?
ビジネスの論理性
ビジネスに関する知識に基づいて、データが意味をなしているか確認したか?
以上のチェックポイントを使って、データクリーニングのプロセスを改善し、データの品質を高めていきましょう。