書籍: 「競馬研究所」の内容を検証してみた。その1.ダート1200mに強い血統
おはようございます。
しゃしゃしゃしゃです。
競馬の予測モデルを作っているものの、ドメイン知識が全くないことに気付きました。
なので10冊ほど競馬関連の書籍を買ってみたのですが、その中の「競馬研究所」シリーズについて検証します。
ざっと見た感じ、このコースはこの血統が強いとか、この特徴を持つ馬がうまいとかが書かれていたのでその内容をちょこっと検証してみようと思います。
競馬研究所1: ダート1200mはサウスヴィグラス、エンパイアメーカー、エーピーインディが美味しい
検証データ: 2007年~2020年7月5日までのダート1200mの4623レース
血統等なにも気にしない場合の結果(ベースライン): 的中率6.5% 回収率67%
回収率が控除率を考慮した80%に収まってないのは払戻が均等になるように購入してないからとかだと思います。
父馬名でgroupbyをして登場回数が500以上(根拠なし)のデータを回収率でソートした結果↓
いますね。
サウスヴィグラス。
そして単勝回収率は107%、的中率も9%とベースラインを上回っています。
ただ、エンパイアメーカーとエーピーインディがいないので、個別で抜き出してみました。↓
登場回数が少ないので、母父馬名でも検証します。
おらん。個別の結果を抜き出した。↓
悪い。
母父馬名を考慮してもいい結果にはなりそうに無い。
エーピーインディに関しては登場回数が少ないし、データ取得時にミスがあったのかもしれないですね。
結果: サウスヴィグラスは現在も使える指標かもしれないがエンパイアメーカーとエーピーインディは使えないかも
書籍の方では人気ランクという独自の指標も併せてA>B>C>D>EのうちのDを買えばいいと書いてあったので厳密には検証できてません。
ただ、データを見た感じエンパイアメーカーとエーピーインディはサンプル数が少ないのでその条件を加えること自体がバイアスなんじゃないかな?って思いました。
思ったこと
競馬系の書籍って回収率を上げる情報みたいなのが書いてあって、美味しさ指数を検討する上ではいいんじゃないかなと思いました。
ただ、的中確率を予測するための特徴量エンジニアリングに使えるかどうかは要検証って感じです。
この記事が気に入ったらサポートをしてみませんか?