データコンペ最初のsubmissionまでのフロー(超大まか)

コンペティションにおけるデータ分析でのフロー

❶元データをじっくり見る

❷❶に基づいた前処理をする

❸モデル作成を行う

❹submissonする前に確認する

❺submissionする

というフローを通すことで、無駄にしないsubmissionができます。以下にそれぞれ何をやるのかを綴っていきます!

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

❶元データをじっくり見る

データ分析の最初にやることは、まず「excelファイルを見る」ことです。なぜなら、excelファイルを見ることで、データの構造(どんなデータがはいっているのか?)、現象の理解(このデータはどのように作られているのか?)そして全体俯瞰(全体的なデータの感触)を知ることができるからです。

❷❶に基づいた前処理

❶で得たデータの感触から、どのようにNaN(欠損値)を除去するか、それから、モデリングのために新たな特徴量を作成するなどを丁寧にやっていきます。個人的にここが一番時間がかかり、かつ難しいのではないかと思います。❶と❸の橋渡し的な箇所ですからね。

❸モデル作成を行う

学習を行うための計算器を選定し、モデルを作ります。データにとって最適と思われるものを選んでいきます。また、計算させるだけだと、それがどういう結果になったのかよく把握できないので、検証というものを行います。なかでも有名なのが、交差検証(Cross Validation)で、これを用いてモデルの性能を見積もっていきます。

❹submissionする前に確認する

モデルができたー!と言って足早にsubmissionしたい気持ちはわかりますが、一旦確認することが大事です。確認することとしては、特徴重要度の確認などを行い、その特徴量は本当にモデルの役に立っているのかを見ます。

❺submissionする

❹の工程が終わったら、あとはsubmissionをするのみです。そしてモデルの性能を上げるために、❷や❸をまた何度もやっていきます(根性)。


今回は、コンペティションにおける最初のsubmissionのまでのデータ分析のフローを見ていきました。ご拝読ありがとうございました。

いいなと思ったら応援しよう!