SQL分析データ準備と基礎統計#05:時系列データで陥ったパターン
時系列データ、例えばアプリやWebサイトのログデータ、センサーログなどがある場合の陥りがちなパターンの紹介です。こういったデータは大きく、分析単位、時間軸を意味するデータ、イベント種別を意味するデータで構成されます。暗黙的に分析単位内で時間軸、例えばタイムスタンプデータはユニークであると想定してしまいがちですが、想像よりも多い割合で同一タイムスタンプが存在します。例えばWebサイトのログだと複数ページで構成されるページの閲覧、センサーログであれば複数のエラー条件に同時合致するなど、考えてみれば起こりうるデータです。
このようなデータに対してウィンドウ関数や、TeradataのnPath関数を利用する場合、適切にorder by 句を適切に設定しないと結果が実行毎に異なってきます。そのため、一番単純にはこのorder by 句にイベントデータを含める必要があります。またその前段階において全列でgroup by しておき、そもそもの重複を除外しておく必要がある場合もあります。何かの書き込みエラーとリトライで重複行が存在する場合もあるためです。
///