データの「整理」で具体的に行っていること
データを使いやすくすることについてのまとめがあってもいいのではないか
データ基盤のアーキテクチャの図はよくみかける。その一方で、そこで何が行われているかについて具体的なことはあまり話題になっていない。
話題にするほどのことでもないのかもしれないが、日々の仕事には必要なことだ。
そこで筆者のいう「データ整備」のうち、データをきれいにして使いやすくする「整理」について書いてみることにした。
データの整理は「集約されから抽出に使われるまで」の範囲
最初に「整理」の範囲を決めておく。「整理」とは、データ基盤に集約されてから、次のステップである「抽出」で扱われるようになるまでを指す。
データレイクにあるデータを、データマートやダッシュボードにするというのはこの「整理」という行為の表現の1つである。
「整理」してデータを使いやすくするために行っていること
ぱっと思いついたのを列挙していく
誕生日から年齢を算出しておく
存在しない年齢(200歳やマイナス際)や範囲外の値をどうにかする
unixtimeをtimestampやdatetimeに変換する
datetimeならタイムゾーンを(日本時間にすることが多い)揃える
区分の未設定と不明とNULLをまとめる
よく使うフラグや区分を作る
年代や性年代
新規フラグ
日、月、週、4半期、年の区分
複数に分かれている同じ種類のデータをカラムを調整して1つに結合する
違う定義の値がないようにする
売上の消費税や割引を統一する
ステータスの表記
キャンセルになった場合の扱い
個人情報の削除または暗号化する
不要なデータは早い段階で切り離しておく
まったく使わないか滅多に使わないカラム
古すぎて役に立たない期間のデータ
ネストを展開する
JSONをばらしておく
商品や店舗のマスタをJOINしておく
よく使う単位で集計しておく
月・年・店舗・性年代・エリアごとなど
BIツールで扱えるようにしておく
「整理」のマニュアルというかガイドみたいのがあってもいいのかも
やることはまだまだあるし、それぞれについて詳しく書いたらいくらでも書けるのだがきりがないので1時間で書くと決めて書いた(というこの一文を最初に書いた)。
具体的にといいつつ項目を書き出しただけになってしまったので、個別にもっと掘り下げて「整理」のマニュアルとは言わずともガイドみたいなの作ろうかな。そうしたら世の中のデータが少しでも使いやすくなることに貢献できる、かも。