決定木を用いた競馬予想アルゴリズムの開発
モチベ
簡単に勝ち馬を予測できるロジックがほしいと思った.
データ
約8万レコードの過去のレース結果から、勝ち馬/負け馬のデータを1000レコードずつ無作為抽出。
不均衡データの解析は面倒なので、これを避けるためのサンプリング。
よって、合計2000レコード。テストデータとかは使っていない。
解析手法
言語はR。
簡単に予測したいのでモデルアーキテクチャとして単一の決定木を用いた。
木の剪定を行い、過学習は防いでいるつもり。
おおざっぱな解析結果
出走位置(馬番号)と、当日の馬体重で、閾値が導出でき、これら2つの特徴量から、勝ち馬/負け馬の判定ができる決定木を作成できた。
課題
当然だがSVMやランダムフォレストの方が精度が高いはず。ただし、予測するためのデータセットを作成しなければいけないので、面倒。。
作成した決定木
ここから先は
17字
/
1画像
¥ 100
この記事が気に入ったらチップで応援してみませんか?