【#004】エンヤのデータサイエンス挑戦記:SMBC GHG排出量予測コンペにチャレンジ!(2024年11月8日)
こんにちは、エンヤです!
現在、SMBC Groupが主催する「GREEN×DATA Challenge 2024」で温室効果ガス(GHG)排出量の予測に挑んでいます。今日は新たに取り組んだ内容とその成果についてシェアします。
現在のスコアと順位
スコア:0.72130
順位:6位 / 335人中
少しずつ順位も上がってきて、データの精度が向上している実感があります!
今日の取り組み
特徴量エンジニアリング
今日の変更点は「重要度が低い特徴量を1つ削除」したことです。シンプルな変更でしたが、結果としてスコアが0.0007改善しました。削除を考慮した特徴量の選定が、意外にパフォーマンスに影響を与えると改めて感じています。
次のステップ:まだ活用していない特徴量の検討
現在のモデルではまだ使い切れていない特徴量もあるので、引き続き試行錯誤しながら精度改善に取り組むつもりです。
特に、欠損値が多すぎるカテゴリーデータや、緯度・経度といった位置情報をどう活用していくかが次の課題です。これらのデータを使いこなすことで、モデルのさらなる精度向上が期待できるかもしれません。
感想
地道な特徴量の工夫が少しずつスコアに表れるのがデータサイエンスの面白さです。このコンペで得た知見は、今後のプロジェクトにも大きく役立つと確信しています。どんな小さな調整が成果に繋がるか予測できないからこそ、データの奥深さを毎日実感しています。
今後もデータを通じた実践的な挑戦と、その進捗をシェアしていくので、引き続き応援よろしくお願いします!