kaggle(分析コンペ)の大まかな流れ
お疲れ様です、ワピアです。😆
今回は、データ分析コンペって何をするの?という疑問に答えられるようなnoteを書いていきたいと思います。
それではさっそくLet's GO!
前提の確認
最初にするのは、前提確認です。
何事も基礎が大事って言います。一応やっておきましょう。
チェックする内容以下のものです。
・どういった問題なのか(2値分類タスク、価格予測など)
・データの内容(テーブル、画像など)
・評価指標(RMSEなど)
データをみる
データの可視化、データへの理解を深める作業です。
EDA(Exploralatory Data Analysis)と呼ばれたりもします。
データによって行うことが違いすぎるので、難しいのですがよく行うのは以下のやつです。
・基本統計量の確認
・欠損値
・カウントグラフ
・相関係数のヒートマップを見る
前処理・特徴量生成
さっきのEDAと同時進行で行っていきます。
機械学習ではモデルによっては、数値しか受け付けなかったり、欠損値があるとエラーになったりするものもあります。
前処理を行って回避していきます!
代表的な前処理
・相関のない、余計なカラムの削除
・文字列データを数値に変換
・外れ値の除去
・欠損値を代表値(平均など)で埋める
モデル作成
いよいよモデル作成を行います!
ちょっと長くなるので別記事に譲ってます。
そちらにコードもあるので、実装できます!
バリデーション
バリデーションとは日本語で妥当かどうか判断することで、
モデルの予測がどのくらい正しいかチェックする目的で行います。
バリデーションは結構種類があり、データによって適切な方法が変わってくるので一概には言えませんが、モデルの性能評価する上で非常に重要です。
別記事に書きます。
ハイパーパラメータのチューニング
これはバリデーションと同時進行、バリデーションの結果と照らし合わせながら行ってきます。
さっきモデル作成の部分で、勾配ブースティング木モデルの紹介記事があったのですが、そこで触れているのでもしよろしければご覧ください🙇♀️
結果を提出
最後に結果を提出して終了です。
長々とした説明になりましたが、これで終わりです。
最後に
分析コンペは流れを見た通り、データサイエンスの実務で行われる工程(特に前処理・特徴量生成)を含んでいて様々な知見が得られます!
簡単なコンペに取り組んでみてもいいかもしれません!
ご覧いただきありがとうございました!
この記事が気に入ったらサポートをしてみませんか?