【#005】エンヤのデータサイエンス挑戦記：SMBC GHG排出量予測コンペにチャレンジ

Enya

2024年11月9日 05:32

こんにちは、エンヤです！

現在、SMBC Groupが主催する「GREEN×DATA Challenge 2024」で温室効果ガス（GHG）排出量の予測に取り組んでいます。今日は新たに試した施策とその成果についてシェアします！

現在のスコアと順位

スコア：0.72086（0.00045改善）
順位：5位 / 359人中（6位 ⇒ 5位）

今日の施策

今日は以下の4つの施策を試しました！

特徴量を1つ作成して追加：新しい特徴量を1つ追加しました。
モデルのアンサンブル：予測の精度を高めるため、複数のモデルを組み合わせるアンサンブルを実施。
外れ値の処理：試しましたが今回はスコアに影響なし。
欠損値補完：試しましたが今回はスコアに影響なし。

結果：スコアは0.00045向上し、順位も6位から5位に上昇しました！

今日のポイント：アンサンブルの実施

これまで、GHG排出量の予測には「lightgbm」というモデルを使っていました。今日は新しく「catboost」と「xgboost」という2つのモデルも追加して予測し、それらの結果を「アンサンブル」で組み合わせました。

アンサンブルとは？

アンサンブルは、複数のモデルを組み合わせることで、1つのモデルだけを使うよりも高精度な予測を目指す方法です。

たとえば、Aさん・Bさん・Cさんの3人に「明日の天気予報」を頼むとします。もし3人全員が「晴れ」と予測したら、「明日は晴れるかも」とより信頼できますよね。でも、Aさんが「晴れ」、Bさんが「曇り」、Cさんが「雨」とバラバラに予測した場合、みんなの意見を平均したり、多数決をとったりして、少しでも正確に予測しようとする方法があります。これがアンサンブルの考え方です。

実際にデータ分析の世界でも、この方法を使うことで、精度の高い予測が期待できるため、多くのコンペやプロジェクトで用いられています！

感想

ほんのわずかですが、スコアが改善して5位にランクアップしました。とはいえ、他の参加者もどんどんスコアを上げてきているので気は抜けません！毎日少しずつ改善を積み重ね、さらに精度を上げられるよう努力します。

今後も試行錯誤を続けながら、この挑戦記で進捗をシェアしていきますので、引き続き応援よろしくお願いします！