SQL分析データ準備と基礎統計#17:統計量
量的変数におけるデータの中身を把握する方法として、分布をみるほかに、統計量を把握する方法があります。代表的なものは平均、最小、最大値です。各代表値の説明は検索すればいろいろ出てくると思うのでそちらに任せますが、よく気にするのはヌル件数(欠損値)、外れ値の件数です。機械学習の説明変数として利用する際、邪魔になるのがここであるため、注意するポイントになります。また、これらの値を除外せずに置き換える必要がある場合には、平均値や中央値などで埋めるため、その際にもこの結果を参考にします。変数値が欠損しているのを埋める際、この埋めた値が最終的なスコアに対して良い影響も悪い影響も与えて欲しくないため、分布の真ん中に隠すように埋めたい、となると、平均値、中央値が使われるケースが多くなります。
ある単一の量的変数に対する統計量を取得するSQLの例が以下です。src内のSQLは変数が異なるため、可変になりますが、以降はどの変数でも共通です。そのためsrc内はExcelのconcatenate関数とオートフィルを使って量産して、unionでつないで一気に処理しても構いません。またinsert文を作って一気に処理して結果を書き込み、できた結果を見に行っても良いかと思います。以下の例では群ごとに統計量をとっていますが、群が不要で全体を取りたい場合には、群の列部分をSQLから除いてください。group byの数と結合キーにも含まれているため、そちらを除くのも忘れずに。
///
この記事が気に入ったらサポートをしてみませんか?