見出し画像

kaggle(分析コンペ)の大まかな流れ

お疲れ様です、ワピアです。😆

今回は、データ分析コンペって何をするの?という疑問に答えられるようなnoteを書いていきたいと思います。

それではさっそくLet's GO!

前提の確認

最初にするのは、前提確認です。
何事も基礎が大事って言います。一応やっておきましょう。

チェックする内容以下のものです。

・どういった問題なのか(2値分類タスク、価格予測など)
・データの内容(テーブル、画像など)
・評価指標(RMSEなど)

データをみる

データの可視化、データへの理解を深める作業です。
EDA(Exploralatory Data Analysis)と呼ばれたりもします。

データによって行うことが違いすぎるので、難しいのですがよく行うのは以下のやつです。

・基本統計量の確認
・欠損値
・カウントグラフ
・相関係数のヒートマップを見る

前処理・特徴量生成

さっきのEDAと同時進行で行っていきます。
機械学習ではモデルによっては、数値しか受け付けなかったり、欠損値があるとエラーになったりするものもあります。
前処理を行って回避していきます!

代表的な前処理

・相関のない、余計なカラムの削除
・文字列データを数値に変換
・外れ値の除去
・欠損値を代表値(平均など)で埋める

モデル作成

いよいよモデル作成を行います!

ちょっと長くなるので別記事に譲ってます。
そちらにコードもあるので、実装できます!

バリデーション

バリデーションとは日本語で妥当かどうか判断することで、
モデルの予測がどのくらい正しいかチェックする目的で行います。

バリデーションは結構種類があり、データによって適切な方法が変わってくるので一概には言えませんが、モデルの性能評価する上で非常に重要です。
別記事に書きます。

ハイパーパラメータのチューニング

これはバリデーションと同時進行、バリデーションの結果と照らし合わせながら行ってきます。

さっきモデル作成の部分で、勾配ブースティング木モデルの紹介記事があったのですが、そこで触れているのでもしよろしければご覧ください🙇‍♀️

結果を提出

最後に結果を提出して終了です。
長々とした説明になりましたが、これで終わりです。

最後に

分析コンペは流れを見た通り、データサイエンスの実務で行われる工程(特に前処理・特徴量生成)を含んでいて様々な知見が得られます!

簡単なコンペに取り組んでみてもいいかもしれません!
ご覧いただきありがとうございました!


この記事が気に入ったらサポートをしてみませんか?