トレード機械学習とデータ量

考えてること

データ量

  • サンプル数

  • カラム数

サンプル数増やすとだいたい性能上がるけど、カラム数増やして性能が上がるかどうか

普通の機械学習の問題だと、あまり分布が変わらないから、あれだけど

トレードだと分布が変わったりするから、numeraiのfeature exposureが低い方が良いヒューリスティックスとかがあって、その辺関係してきたりするのかな

この辺どうなってるんだろう?

確認したこと

  • ohlcv + 新データ(欠損は雑処理) + lgbmはohlcv + lgbmとほぼ同じ成績になる

  • ohlcv + 新データ(dropna) + lgbmはohlcv + lgbmより成績悪い

仮説

  • A: 新データにohlcvに含まれる以上の情報がない

  • B: ohlcvが一番効いて、C: 普通に学習するとohlcvだけ選択される

  • C: 欠損処理で性能劣化

やってみたい実験

  • X 新データだけで学習 (Bの検証)

  • Y ohlcvから新データを予測 (Aの検証)

  • Z 欠損をohlcvから予測して埋める (C)