
【#016】エンヤのデータサイエンス挑戦記:SMBC GHG排出量予測コンペにチャレンジ!
2024/12/4(水)
はじめに
こんにちは、エンヤです!
現在、SMBC Groupが主催する「GREEN×DATA Challenge 2024」で、温室効果ガス(GHG)排出量の予測に取り組んでいます。いよいよ残り2日を切りました! 今回のコンペで試そうと思っていたことは一通り出来たと思うので、あとは最終提出するファイルを2つ慎重に選びたいです。
分析コンペだと、開催終了後に公開されていない評価データによって最終的な順位が決まります。今の順位から大きく上がったり下がったりという事があって、夏に取り組んだSIGNATECUP2024というコンペでは銀メダル圏内から最終的には銅メダル圏内まで大きく順位を落としてしまいました…
いずれにせよ最後までやれる事はやりきって後悔のないようにしたいです!
現在のスコアと順位
評価指標:RMSLE
最新スコア:0.7190298
順位:11 位 / 818人投稿
締切:締切: 2024年12月5日 23時59分59秒 (残り44時間)
なんとか10位前後をキープする事が出来て金メダル圏内です。
ただ本当に僅差なので、最終順位では大きく下がる可能性もあります。
今日の施策
Optunaによるハイパーパラメータの調整
最終提出に向けて、LightGBM、CatBoost、XgBoost の3つのモデルについてハイパーパラメータの調整を行いました。今までは全て手動で行っていましたが、Optunaという自動最適化フレームワークを使って調整しました。
今までのコンペでも使ってはいたのですが、最適化計算を1日使っても精度が改善しなかったりと上手く使えていなかったのであまり利用していませんでした。今回は調整するパラメータを絞って、さらに調整する値の範囲も絞ることで効率的に計算を行い、最終的には全てのモデルでCVスコアを改善する事が出来ました。
今日のアウトプット
分析コンペが終わった時にやるべきこと:
「ランキング上位者の解法を再現する」
データサイエンティストのインタビューで、分析コンペの最後にすべての知識を吸収することでデータサイエンスのスキルが大きく向上すると紹介されていました。
今まではコンペが終わるとすぐに次のコンペを探していたので、あまり振り返りが出来ていませんでした。SIGNATEのコンペでは表彰式が開催されて、その中で上位者が解法についてプレゼンを実施します。聞くだけではなく今回は解法を再現してスキルアップに繋げていきたいです。
最後に
今年も残すところあと1か月となりました。来年は時系列予測のタスクに取り組んだり、Kaggleでもメダルを獲得出来るようにレベルアップをしていきたいです。まずは今のコンペを最後までやりきります!
注意事項
本記事では、コンペティションの参加規約および情報公開ポリシーに則り、具体的なコードや詳細なデータ分析結果の開示は控えています。すべての知見は一般的な内容に留め、コンペ終了後の非営利目的での公開を念頭にしています。