【#012】エンヤのデータサイエンス挑戦記:SMBC GHG排出量予測コンペにチャレンジ!

2024/11/16(土)


はじめに

こんにちは、エンヤです!
業務でデータの利活用を進めるために、「テクフロ」を受講しながら日々データサイエンスを学んでいます。
現在、SMBC Groupが主催する「GREEN×DATA Challenge 2024」で、温室効果ガス(GHG)排出量の予測に取り組んでいます。このコンペティションも中盤に差し掛かり、スコアを少しずつ改善しながら順位をキープしています。今日は、モデルのハイパーパラメータ調整でスコアを改善した取り組みや、新しい特徴量を追加した試行錯誤についてご紹介します。


現在のスコアと順位

  • 評価指標:RMSLE

  • 最新スコア:0.720333(0.00005の改善)

  • 順位:9位 / 521人(変動なし)
    締切: 2024年12月5日 23時59分59秒 (残り19日)

ほんの僅かの改善ですが、改善施策の成果が出て安定した順位を維持しています。小さな改善が積み重なることで、最終的に良い結果につながると信じて、コツコツと取り組んでいます。


今日の施策

  1. L2正則化の調整
    昨日に続き、過学習を抑えるためにL2正則化の値を少しずつ上げる調整を行いました。その結果、スコアが改善し、モデルの汎化性能が向上しました。ただし、正則化値を上げすぎるとスコアが逆に悪化する傾向が見られたため、調整は一旦ここまでにしました。

  2. 外部データの活用
    次に、追加の改善を目指して外部データを用いた特徴量エンジニアリングを試みました。具体的には、アメリカ合衆国の州ごとのエネルギー消費量や電力価格などのデータを調査し、新しい特徴量として追加しました。

    1. 試みた内容

      • 手作業でCSVファイルをダウンロードし、既存データに統合。

      • 特徴量の追加により、モデルの多様性を高める狙い。

    2. 結果
      残念ながら精度は向上せず、外部データが予測に有効でない可能性があることがわかりました。詳細なデータを取得するにはAPIの活用が必要であるため、次回以降に挑戦したいと思います。


感想

L2正則化の微調整は、昨日に続いてスコア改善に繋がりました。一方で、外部データの特徴量追加においては期待した成果が得られませんでしたが、APIを活用した詳細なデータを取得することで精度を改善する事が出来ると考えています。これまで試したことのない分野への挑戦はハードルが高いですが、新しいスキルを得るチャンスと考え、前向きに取り組みたいと思います。


今回のポイント

  • L2正則化の調整:過学習を抑える効果的な手法として、少しずつ値を調整することが重要。

  • 外部データ活用の可能性と課題:新しい特徴量を加える試みは有益だが、適切なデータを見極め、効率的に取得する手法(API利用など)が重要。

  • 試行錯誤の重要性:結果が出ないときも、新しい知見やスキルを得る機会と捉える。


注意事項

本記事では、コンペティションの参加規約および情報公開ポリシーに則り、具体的なコードや詳細なデータ分析結果の開示は控えています。

いいなと思ったら応援しよう!