データ分析コンペ ゴールドメダル獲得まで
probspaceというデータ分析コンペに参加して上位10%に与えられるゴールドメダルを取得できたので振り返りも兼ねてノートにアプローチをまとめようと思います。
コンペ順位
https://comp.probspace.com/competitions/taxi_demand/ranking
背景
そもそもデータ分析コンペに参加したきっかけは昨年機械学習の一種であるLGBMを用いた予測モデルの担当になったことです。そこである程度書籍、OJTを通して体系的な知識を学ぶことができました。そこで得た知識、経験の社外でのレベル感が知りたかったのでkaggle、SIGNATEといったデータ分析コンペに参加するようになりました。
挑戦
過去のコンペは主に担当している分野と同じ予測問題で特に時系列予測を中心に参加しました。その時点の私のレベルはベースモデルは自作できるが、有効な特徴量やアンサンブルなどは知見がなく60〜70%辺りを推移していました。
対策
そこで今回実施した対策は過去のコンペで上位陣の解法で取り入れらる所を全て取り入れました。具体的には単純なラグ特徴量だけでなくdiff系、ドメイン知識がなければChatGPTと壁打ちしながらアイデア出し、簡単なアンサンブルモデルの作成です。これらを時間の限り実施することでスコアは地道にアップしました。
まとめ
私なりの結論としてはまずどのレベル感でも挑戦してみて上位陣の解法を学び自分の手札に取り入れられればメダルを獲得できると思います。