kaggle(分析コンペ)の大まかな流れ

2020年4月5日 23:06

お疲れ様です、ワピアです。😆

今回は、データ分析コンペって何をするの？という疑問に答えられるようなnoteを書いていきたいと思います。

それではさっそくLet's GO!

前提の確認

最初にするのは、前提確認です。
何事も基礎が大事って言います。一応やっておきましょう。

チェックする内容以下のものです。

・どういった問題なのか（２値分類タスク、価格予測など）
・データの内容（テーブル、画像など）
・評価指標（RMSEなど）

データの可視化、データへの理解を深める作業です。
EDA(Exploralatory Data Analysis)と呼ばれたりもします。

データによって行うことが違いすぎるので、難しいのですがよく行うのは以下のやつです。

・基本統計量の確認
・欠損値
・カウントグラフ
・相関係数のヒートマップを見る

さっきのEDAと同時進行で行っていきます。
機械学習ではモデルによっては、数値しか受け付けなかったり、欠損値があるとエラーになったりするものもあります。
前処理を行って回避していきます！

代表的な前処理

・相関のない、余計なカラムの削除
・文字列データを数値に変換
・外れ値の除去
・欠損値を代表値（平均など）で埋める

いよいよモデル作成を行います！

ちょっと長くなるので別記事に譲ってます。
そちらにコードもあるので、実装できます！

バリデーションとは日本語で妥当かどうか判断することで、
モデルの予測がどのくらい正しいかチェックする目的で行います。

バリデーションは結構種類があり、データによって適切な方法が変わってくるので一概には言えませんが、モデルの性能評価する上で非常に重要です。
別記事に書きます。

これはバリデーションと同時進行、バリデーションの結果と照らし合わせながら行ってきます。

さっきモデル作成の部分で、勾配ブースティング木モデルの紹介記事があったのですが、そこで触れているのでもしよろしければご覧ください🙇‍♀️

最後に結果を提出して終了です。
長々とした説明になりましたが、これで終わりです。

分析コンペは流れを見た通り、データサイエンスの実務で行われる工程（特に前処理・特徴量生成）を含んでいて様々な知見が得られます！

簡単なコンペに取り組んでみてもいいかもしれません！
ご覧いただきありがとうございました！

この記事が気に入ったらサポートをしてみませんか？