dataikuのProcessor Libraryを使いこなす.2:Data cleansing

わたるん

2023年12月10日 09:36

はじめに

Processor Libraryの解説。2回目はData cleansingについて
すでに紹介してあるProcessorは割愛してあります。それでは参りましょう

Data cleansing

Convert number formats

数値の表記を変換（下記画像だとDailyRateがカンマ区切りなしのRAWフォーマットになっているのを1000区切りでカンマを入れるEnglishフォーマットに変換）

Impute with computed value

平均値、中央値、最頻値を用いて欠損値を補完（下記画像だと年齢が空欄の場合、中央値で補完）

Group long-tail values

指定したカラムの値で’List of values by’に該当しない値を全てグループ化。主要な値とその他こまごました値といったデータの場合、その他はグループでまとめてしまうといった使い方（下記画像だとMaritalStatusがSingleだったらそのままで、Single以外はすべてotherでグループ化している）

Normalize measure

値を正規化

Fill empty cells with fixed value

カラムの値が空欄だった時に指定した値で補完をする（下記画像だと年齢が空欄だったらすべて20を固定でセット）

Split invalid cells into another column

カラムの値が条件に合致しない場合、新たに作成するカラム"Colum for invalid data"に値を移動させる（下記画像だとチケット番号がIntegerでなかったら「チケット番号文字あり」に移動させている）

Negate boolean value

0/1の値をbooleanのtrue/falseに変換

Fill empty cells with previous/next value

カラムの値が空欄の時に前の値もしくは次の値で補完（下記画像だとMoranは年齢に値が入っていなかったのでAllenの年齢で補完している）

まとめ

今回はData cleansingグループの解説を書いてみました。英語版のドキュメントを読んだけどいまいち使い方がよく分からないものもあったり。次回はStringsの解説をいたします。

最後までお読みいただき、ありがとうございます。