SQL分析データ準備と基礎統計#01:元データを眺める
データ準備を始めるにあたってまずやるべきは元データを眺めることです。どんな変数を作ればよいのか、どんな傾向のあるデータなのかをこれ以上分解できない原子レベルで理解します。多くの場合、得られたデータは現実世界で起こっていたことの一側面です。例えば顧客分析であれば、このデータから顧客に何が起き、顧客がどのような行動をしたのかという物語をおぼろげながらも理解できます。機械の分析であれば、センサーデータは機械の動きに関する物語です。ここに想像力を働かせ、作るデータのイメージを膨らませます。追って進んでいく分析プロセスにおいて、データは集計などがなされ、変形していきます。そのときにこの原風景が頭の中にあることで、本来分析したい対象に対する想像力を維持するのに役立ちます。例えば以下のデータはスーパーマーケットのレシートデータです。どんなことが言えるでしょうか。
1枚目のレシートは朝早くに、キャベツ、たまご、豚バラ肉を買っています。しかもまとめ買い傾向です。近所の小料理屋が買い出しに来たのかもしれません。2枚目のレシートはお昼時で昼食を買いに来たことが分かります。3枚目は100円引きのお寿司を購入しているとともに、牛乳と食パンを買っています。もしかしたら今晩の食事と明日の朝食の買い物かもしれません。今後顧客のセグメンテーションをするとき、購入している商品カテゴリーや時間帯、数量、割引商品の購入等が変数として使えそうなことが想像できます。また購入される商品の組み合わせもヒントになるかもしれません。
大量のデータがあるとき、このような眺める作業を行っていると時間がいくらあっても足りません。だからこそ分析の手法は発展してきました。しかしながら集約してしまったデータでは気がつかないこともあります。なので例えば1時間とか時間を決めて眺めることをお勧めします。また分析の途中で行きづまった時に、改めて眺めてみても良いかと思います。
///