2023データ分析コンペ記録
2023/1/2
いろいろ試して暫定評価の推移をとかメモとかを記録していく。
1回目暫定評価:sample_submit.csvをそのまま投稿:8,114.8998011
!echo y | pip install "インストールするもの"
でjupyterlab内でインストールできる。
2023/1/3
とりあえず複数のデータフレームを1つに結合してみた。
temp.loc[(temp['description'].notnull()), 'description'] = 1
temp['description'].fillna(0, inplace=True)
祝日カラムだけ欠損値があったので欠損値は0、それ以外は1にしてみた。
とりあえず、数字以外のカラムを全てカテゴリ型に変換してlightgbmでクロスバリデーションしてみたら、rmseの平均は、4380だった。
選手名の背番号とポジションを削除して綺麗にしたら4389と悪化。
2回目暫定評価:全てのデータを結合してカテゴリ変数指定をしただけ。選手名も加工していない状態。:4,658.7056634
IDはただの連番だから削除、会場名と会場所在地は多重共線性が強いので会場のカラムを削除したら4414になった。
3回目暫定評価:IDと会場名を削除:4,918.6782612
なぜか悪化
次はIDは残してみる。そうすると4392
4回目暫定評価:会場名のみ削除:4,614.9359828
よかった。改善した
次はIDのみ削除。4404
5回目暫定評価:IDのみ削除:4,933.4695194
悪化した。IDは時系列になっていて、年が進むにつれて全体的な観客数が増えていくからだろう。
venueのみ削除して、放送局の数を数値化したら4356と改善。
6回目暫定評価:4,621.4703568:まさかの悪化、、、
「Codes&Co.」「コーズコー」