見出し画像

【データコンペ】河川の水位予測の振り返り

このデータコンペが明日で終了。
最終スコアは0.2418707でやりきりました。

残り1日で72位・・ブロンズメダルは95位までなので、
よほどのシェイクがない限り、初のメダル獲得が出来そう。

ただ反省する点も多いので、振り返って次に向けて学びを得たい。

- Keep

・初めて本番のコンペに参加して期限内に提出まで行けた
・土日合宿(祝日にまとまった時間コンペやること)を3回やった
・クラスメソッドや関数を入れたコードを読み込んだこと
・キーのないデータ同士を自分達のロジックでマスタ作成して、
    説明変数として組み込むコードを仕上げたこと
・Nishikaで得た知識を一部活かせたこと
・メダル圏内で終えられたこと
・最後まで悪あがき的に粘ったこと

- Problem

・Dockerの実行環境を理解しきっていないこと
・実行ファイルrun.pyの読解が出来ていないこと
・classmethodのファイルの提出形式の理解に時間がかかった
・classmethodでの効果検証がやりにくかった
・それら仕様に時間が取られてデータの理解がしきれなかった

- Try

・run.pyを読み込んで実行ファイルを理解する
・Docker環境を構築してテスト実行やエラーログを確認しやすくする
・EDAから入って予測精度が上がる仮説をデータで立ててから特徴量を追加する
・PyCaretでモデルを選定する
・論文や類似コンペの記事を探してアプローチを真似ること

- まとめ

・データではなくモデルを提出するコンペの理解に苦労した
過去に参加したNishikaとKaggleはcsv形式のデータとシンプルだったが、
今回はモデルとPythonファイルを提出する形だった。
しかもPythonファイルはClassmethodで指定の名前で作成しておかなければならず、どう動いているか?run.pyと併せて理解するのに苦しんだ。

pklが何でどう動いているかもまだ理解が怪しい。
結果そこに時間が取られて、モデル構築やEDAに十分な時間が使えなかった

・EDA→特徴量生成→モデル選定を次にやる
今回で実行環境や開発箇所が体感的に理解できた。
次はそこの理解スピードを上げて、早めにEDAや特徴量生成に着手する

・銀メダル以上を狙う
今回で銅メダルが取れそう?なので、次はそれ以上を狙っていきたい

- 調べたいこと

・コンペに合わせたDocker環境の構築
・pklファイル
・EDAのお作法を知る
・Classmethodとは
・PyCaretのサンプルコードを回す


いいなと思ったら応援しよう!