【データコンペ】pandas.profilesがEDAに超便利
1. 使えるシーン
前回の反省としてEDAをしきれていなくて、
半端な仮説で特徴量生成に着手してしまったことや、
加工後の欠損に気付かずエラーでタイムロスしたことがあった。
一方で、やはりデータの欠損や分布を毎回見るのが面倒くさい。
特にPythonのグラフ描画が面倒過ぎる!
その反省を活かしてググっていたところ見つけたのが、
pandasのprofilesというメソッド。
データコンペや新しい分析に着手するとき、一番最初に使える!
↓この記事が参考になる
2. 活用方法
自分が見ていた観点は以下で、これが恐ろしいこに1行のコードで出せる・・!
データ量:カラムと行数の確認
欠損値:欠損データがどのカラムにいくつあるかチェックする
データの型:カテゴリカルとニューメリックの数
変数のDistinct:これとデータ量でなんとなく構成がわかる
データ分布:ヒストグラムがめちゃくちゃ簡単に見れる
これだけで使う前処理のイメージがなんとなく湧く
相関:これが一番感動した!クリックだけで組み合わせ変えて、
2変数の相関係数が見れる。もちろん相関行列でも見れる
一通り概観で見たいところは揃ってませんか?!素晴らしい。
Tableauがあっても最初にデータを見るときは、
こっちの方が早くて見やすいと思う。