【データコンペ】pandas.profilesがEDAに超便利

1. 使えるシーン

前回の反省としてEDAをしきれていなくて、
半端な仮説で特徴量生成に着手してしまったことや、
加工後の欠損に気付かずエラーでタイムロスしたことがあった。

一方で、やはりデータの欠損や分布を毎回見るのが面倒くさい。
特にPythonのグラフ描画が面倒過ぎる!

その反省を活かしてググっていたところ見つけたのが、
pandasのprofilesというメソッド。

データコンペや新しい分析に着手するとき、一番最初に使える!

↓この記事が参考になる

2. 活用方法

自分が見ていた観点は以下で、これが恐ろしいこに1行のコードで出せる・・!

データ量:カラムと行数の確認
欠損値:欠損データがどのカラムにいくつあるかチェックする
データの型:カテゴリカルとニューメリックの数
変数のDistinct:これとデータ量でなんとなく構成がわかる
データ分布:ヒストグラムがめちゃくちゃ簡単に見れる
                     これだけで使う前処理のイメージがなんとなく湧く
相関:これが一番感動した!クリックだけで組み合わせ変えて、
          2変数の相関係数が見れる。もちろん相関行列でも見れる

一通り概観で見たいところは揃ってませんか?!素晴らしい。

Tableauがあっても最初にデータを見るときは、
こっちの方が早くて見やすいと思う。


いいなと思ったら応援しよう!