競馬において重要な変数は何なのか
こんにちは、トウケイバです。
前回の記事で、競馬における変数はなんとなくですが把握することができたかと思います。
では、このなかから重要な変数を見つけるためには、どうすればいいのでしょうか。
先行研究の紹介
自分で仮説をたてて検証するのも1つの手ですが、効率が悪いので、まずは先行研究を参照することから始めたいと思います。
JRA-VAN
まず最初にご紹介するのが、我らがJRA-VANの分析です。
公式ということもあって変数を選んだ理由などの説明が詳細なので、これから競馬分析を始めるかたは一度は読んでおくべき記事だと思います。
そして以下が、JRA-VANが分析に使用した変数です。
競馬場
距離
コース区分
レース条件(グレード)
重量種別
天候
馬場状態
出走頭数
逃げ馬・先行馬の割合
枠番
馬体重
馬体重増減割合
負担重量
負担重量率
騎手 勝率
騎手 3着内率
性別
馬齢
調教師 勝率
調教師 3着内率
生産者
馬主
父
母父
予測対象馬
出走回数
1着回数
3着内回数
出走回数(同トラック)
1着回数(同トラック)
3着内着回数(同トラック)
出走回数(同距離)
1着回数(同距離)
3着内着回数(同距離)
重賞出走回数
重賞勝利数
重賞3着内回数
脚質(逃げ・先行)
前走のレース条件
前走からの間隔
前走のレースのレベル
前走のレースタイム比
前走の上がりタイム比
前2走のレースのレベル
前2走のレースタイム比
前2走の上がりタイム比
前3走のレースのレベル
前3走のレースタイム比
前3走の上がりタイム比
直近1年のベストタイム比
直近1年のベスト上がりタイム比
過去1ヶ月の平均調教本数
過去1ヶ月の最高ラップタイム
走破速度
これらの採用理由についてはサイト内で説明されているので、興味がある方はそちらもご確認ください。
これらの変数のなかで最も興味深かったのが、目的変数として採用されている「走破速度」です。
その採用理由について、JRA-VANは以下のように述べられています。
JRA-VANの予測モデルでは、データマイニングや統計の処理上扱いやすい、走破速度を予測しています。
レースの着順の場合、1着〜何着といったようにすごく狭い数字でしか表せませんが、走破速度であれば、〜秒という細かい数値で結果がでるため、たしかにそういった意味では扱いやすそうです。
また、走破速度であれば実力差をより正確に反映できるともいえます。
同じ1着であっても、圧倒的に勝つのとギリギリで勝つのとでは実力は大きく異なります。
それらの着順の価値を正しく反映させられるという意味でも、走破速度を目的変数に採用することは統計学的に理にかなっていることのように思えます。
私は目的変数をレースの着順や回収率に設定しており、走破速度は考慮していなかったため盲点でした。
stockedge.jpさん
次にご紹介するのは、stockedge.jpという方のブログです。
このブログは、競馬分析の検索結果でトップに出てくるとても有名なものです。
そして、この方が重要だと考えた変数が以下になります。
馬の年齢
馬の勝ち回数
過去4レースの三着までに入っていた割合
コースが右回りか左回りか直線か
前回のレース時からの馬の体重変化量
今回と同一の距離コースにおけるスピード指数の平均
平均距離との差÷平均距離
今回のコースの距離
前回のレースから何日空いたか
出場回数
馬の平均獲得賞金額
グレードは何か
馬番
馬の現在の重さ
騎手の過去4走の勝率
騎手の平均獲得賞金額
騎手の一着率
馬主の一着率
競馬場はどこか
前走の順位
2走前の順位
前回のスピード指数
前走の上がり3ハロンタイム
一日の内の何レース目か
馬の脚質
出遅れ率
レース日は何月か
馬の性別
コースは芝かダートか
馬場指数
調教師の勝率
レース日の天候
斤量
斤量÷馬の体重
馬の勝ち回数
stockedge.jpさんは先程ご紹介したJRA-VANのサイトを最も参考にしたものの一つとして挙げられており、いくつか同じような変数が見受けられるかと思います。
この方は、JRA-VAN以外にも、書籍や論文などを参考にされており、それらをうまく掛け合わせているようです。
試行錯誤して選定された変数だと思うので、この研究についても今後の分析にしっかり活かしていきたいと思います。
ニコちゃんAI競馬
更に先行研究を調べていくと、そのなかで面白い記事を見つけました。
それがこの「ニコちゃんAI競馬」というチームを組む親子です。
なんとこの親子、ドワンゴが主催する競馬予想プログラミング競技会「電脳賞」で、回収率180%超えを叩き出した超ツワモノ分析者でした。
100%を超えるだけでも御の字といわれる競馬で180%超えというのは、「ニコちゃんAI競馬」という可愛らしいチーム名からは想像できないほどの凄まじい記録です。
お父さんのテリー氏は、この回収率をもたらした要因を次のように語っています。
一言でいうと、「1番人気が1位になりにくいレースを探す」という発想をしたんです。
ほとんどの人が上位の馬の的中を狙うのに対して、彼らは1番人気が1位になりにくいかどうかを探しました。
その理由については以下のように述べられています。
今回のレースで評価されるのは、1位を的中させた回数ではなくて、「最終的に儲けた額」ですよね。であれば、「的中率」は犠牲にしてでも、高い倍率になるレースをチョイスしていく前提でロジックを組んだ方がいいという判断をしたんです。
これらの分析では、具体的に3歳馬のデータを中心に選んだそうです。
その根拠の詳しい詳細については記事を読んでいただくとわかるのですが、簡単にいえば、そのほうが1着が当てづらくなるようです。
これはかなり目から鱗な情報ではないでしょうか。
よく1発大儲けするためには、荒れやすいレースを狙ったほうが良いといいますが、それをデータ分析の力で証明したといえます。
また、馬券の買い方についても金言を残しています。
確率論で一番当たりやすい組み合わせの6頭BOX【※】買いをやっていきました。
ボックス買いは、その頭数が増えるほど購入金額は増えてしまいますが、的中の確率は確かに上がります。
つまり彼らは、オッズが正しく評価されていないレースを対象に、高倍率の馬券を確実に的中させていくという手法で成功したということになります。
さいごに
これ以上続けると記事が長くなってしまうので、Part.1はこの辺で終えたいと思います。
今回、3つの先行研究をご紹介しましたが、どれも分析の際に用いる変数が同じではありませんでした。
このことからも、競馬において重要な変数を決めるのは困難であることが分かります。
トウケイバでは引き続き、様々な先行研究を参照しつつ、実際にそれらを用いて馬券購入をリベンジしてみたいと思います。
それでは、今日はこのへんで。