トレード機械学習とデータ量
考えてること
データ量
サンプル数
カラム数
サンプル数増やすとだいたい性能上がるけど、カラム数増やして性能が上がるかどうか
普通の機械学習の問題だと、あまり分布が変わらないから、あれだけど
トレードだと分布が変わったりするから、numeraiのfeature exposureが低い方が良いヒューリスティックスとかがあって、その辺関係してきたりするのかな
この辺どうなってるんだろう?
確認したこと
ohlcv + 新データ(欠損は雑処理) + lgbmはohlcv + lgbmとほぼ同じ成績になる
ohlcv + 新データ(dropna) + lgbmはohlcv + lgbmより成績悪い
仮説
A: 新データにohlcvに含まれる以上の情報がない
B: ohlcvが一番効いて、C: 普通に学習するとohlcvだけ選択される
C: 欠損処理で性能劣化
やってみたい実験
X 新データだけで学習 (Bの検証)
Y ohlcvから新データを予測 (Aの検証)
Z 欠損をohlcvから予測して埋める (C)