【#004】エンヤのデータサイエンス挑戦記:SMBC GHG排出量予測コンペにチャレンジ!(2024年11月8日)

こんにちは、エンヤです!
現在、SMBC Groupが主催する「GREEN×DATA Challenge 2024」で温室効果ガス(GHG)排出量の予測に挑んでいます。今日は新たに取り組んだ内容とその成果についてシェアします。

現在のスコアと順位

  • スコア:0.72130

  • 順位:6位 / 335人中

少しずつ順位も上がってきて、データの精度が向上している実感があります!

今日の取り組み

  1. 特徴量エンジニアリング
    今日の変更点は「重要度が低い特徴量を1つ削除」したことです。シンプルな変更でしたが、結果としてスコアが0.0007改善しました。削除を考慮した特徴量の選定が、意外にパフォーマンスに影響を与えると改めて感じています。

次のステップ:まだ活用していない特徴量の検討

現在のモデルではまだ使い切れていない特徴量もあるので、引き続き試行錯誤しながら精度改善に取り組むつもりです。
特に、欠損値が多すぎるカテゴリーデータや、緯度・経度といった位置情報をどう活用していくかが次の課題です。これらのデータを使いこなすことで、モデルのさらなる精度向上が期待できるかもしれません。

感想

地道な特徴量の工夫が少しずつスコアに表れるのがデータサイエンスの面白さです。このコンペで得た知見は、今後のプロジェクトにも大きく役立つと確信しています。どんな小さな調整が成果に繋がるか予測できないからこそ、データの奥深さを毎日実感しています。

今後もデータを通じた実践的な挑戦と、その進捗をシェアしていくので、引き続き応援よろしくお願いします!

いいなと思ったら応援しよう!