決定木を用いた競馬予想アルゴリズムの開発

モチベ

  • 簡単に勝ち馬を予測できるロジックがほしいと思った.

データ

  • 約8万レコードの過去のレース結果から、勝ち馬/負け馬のデータを1000レコードずつ無作為抽出。

    • 不均衡データの解析は面倒なので、これを避けるためのサンプリング。

    • よって、合計2000レコード。テストデータとかは使っていない。

解析手法

  • 言語はR。

  • 簡単に予測したいのでモデルアーキテクチャとして単一の決定木を用いた。

  • 木の剪定を行い、過学習は防いでいるつもり。

おおざっぱな解析結果

  • 出走位置(馬番号)と、当日の馬体重で、閾値が導出でき、これら2つの特徴量から、勝ち馬/負け馬の判定ができる決定木を作成できた。

課題

  • 当然だがSVMやランダムフォレストの方が精度が高いはず。ただし、予測するためのデータセットを作成しなければいけないので、面倒。。

作成した決定木

ここから先は

17字 / 1画像

¥ 100

この記事が気に入ったらチップで応援してみませんか?