競馬データ分析をエクセルで実現|回収率100%超えの合理的手順
「競馬データ分析をエクセルで実現」の要点
エクセルの関数だけでも他の競馬ファンを圧倒するデータ分析は可能
新潟芝1000mの7枠、8枠はファクターの交互作用を与えなくても回収率100%を超えるが、近年はその傾向が低減してきている
「中京芝1200mの1枠、2枠&出走頭数13頭以上&2番人気以上」は合理的に回収率100%超えを導ける
福島ダート1150mはそのままでボラティリティの高いコースなので、他のコースと比較して期待値を得やすい
競馬を「勝ち馬を探すゲーム」から「ボラタイルな環境を生成するゲーム」にすることで差別化していくのも手
※準備が整ったらこちらのファイルや学習環境を提供したいので、興味ある方はフォローするなりして、しばしお待ちあれ
■分析データ概要
2020年から2024年の5年間
障害戦および取消・除外馬は除く
オッズ50倍を超える馬は除く(傾向を安定させるため)
競馬データ分析をエクセルで実行する方法
ここでは各種ファクターで条件を指定し、馬番、枠番の一覧で回収率を表現する。
何を表現主体とするかは各人の思想に依拠するため正解はないが、発想を最大限膨らませるため、一覧性を確保する観点からこのような形態にしている。
上記のエクセルは基本的な関数のみで実装しているので、プログラミングの技術は特に必要ない。
ぜひ画面を拡大して参考にし、自分なりの競馬データ分析エクセルを作ってみてほしい。(自分も道半ばゆえ、お互い切磋琢磨していこう!)
以下、特徴的で合理性のある回収率100%超えの条件を提示していく。
①ゼロファクター:新潟芝1000mの7枠、8枠
新潟芝1000mはご存じのように外枠が圧倒的に有利。
しかしその有利さはオッズには完全には織り込まれておらず、回収率は100%を超えている。
芝の状態:外枠部分は新潟芝1000mのレースでしか使用されない。芝がフレッシュな状態を保っているため、外枠の馬は良好な馬場状態で走ることができる。
走行ラインの利点:外ラチ(柵)が走行の目印となり、馬が走りやすいラインを維持できる。これは特に直線コースにおいてアドバンテージとなる。
コース特性:スタート直後から600mくらいまでに、高低差1mのアップダウンが2回続く。この地形的特徴により、単純なスピード勝負ではなく、スタミナを要する展開になりやすい。
持続力の重要性:コーナーがないため、他のコースのようにスピードを緩めて一息入れるポイントがない。スピードを持続させる能力が求められる。
血統の影響:父にサンデーサイレンスの血を持たない馬の方が、このコースでは好成績を収める傾向がある。
サンデーサイレンス系の特徴:サンデーサイレンス系の馬は、最後の直線で一気に加速する鋭さが特徴だ。しかし、新潟芝1000mではこの特性が活かしにくく、むしろスピードを持続させる能力が求めらることから苦戦するものと考えられる。
下記は2023年~2024年の傾向。
7枠、8枠の合算回収率が99%と100%を割り込んでいる。
このように近年はその優位性も低減しいるため、将来を見据えてもう一工夫を施すことを考えておきたい。(上記のエクセル内ファクターで対策可能なので、自分なりに考えてみよう)
②マルチファクター:中京芝1200mの1枠、2枠&出走頭数13頭以上&2番人気以上(1番人気除く)
まず中京芝1000mの1枠、2枠の傾向。
1枠から8枠にかけて複勝率、回収率が低下傾向であることが見て取れる。
1枠、2枠合算での回収率は103.3%と高い。
距離の短さ:短距離レースではスタートダッシュが非常に重要となる。内枠は最短距離の経済コースを走ることができる。
スピード重視の展開:このコースは基本的にスピード勝負となる。内枠の馬は外枠の馬に比べて早い段階でリードを奪いやすく、そのまま逃げ切る展開が多い。
ロードカナロア産駒:ロードカナロア産駒は、1枠と2枠の複勝率が他の枠に比べて高くなっている。
ただ、1枠の回収率が100%を割っており心もとないため、もう一つ「出走頭数」ファクターの13頭以上(多頭数)に限定してみよう。
1枠の回収率が100%を超えて安定性が増してきた。
複勝回収率の回帰係数も-7.7%→-8.0%と、より内枠有利(外枠不利)の傾向が強まった。
多頭数は馬同士の駆け引きや不利の発生など不確実性が増すため、レース全体のボラティリティが高くなる。
その仮説から、2番人気以下の方が回収率が高まるのではないかと判断できる。
検証してみよう。
こちらが1番人気を取り除いた結果。
1枠、2枠の回収率合算が112.3%まで伸びた。
このように、合理性を持った道筋でファクターを組み合わせていくと、未来の再現性も高まるだろう。
③ボラタイルな環境生成:福島ダート1150m&出走頭数13頭以上&3番人気以上&単勝オッズ10倍以上
福島ダート1150mは素の環境での複勝回収率が高いボラタイルなコース。
こういった、そもそも荒れやすいコースは勝ち馬を見つけるのではなく、よりボラタイルな環境を生成するようにファクターを組み合わせるとよい。
たとえば、
「出走頭数13頭以上&3番人気以上&単勝オッズ10倍以上」
といった感じで、荒れるファクターを意識して追加してみよう。
実に2枠単位ではすべて回収率が100%を超えた。(全体で104.2%)
競馬を「勝ち馬を探すゲーム」から「ボラタイルな環境を生成するゲーム」にすれば、一般の競馬ファンとの差別化と同時にゲームの難易度を下げることが可能となる。
「競馬データ分析をエクセルで実現」の豆知識
知っておくと便利かつ競馬仲間と話すネタとしても面白い「競馬データ分析をエクセルで実現」に関する豆知識をご紹介。
競馬のデータ分析をエクセルではなくpythonで実現するメリットは?
データ処理能力:Pythonは、エクセルよりも圧倒的に大量のデータを処理できる。競馬分析では過去のレース結果、馬の成績、騎手の情報など膨大なデータを扱う必要があるが、Pythonなら3万行や4万行のデータでも問題なく処理できる。エクセルで画面が固まるような大規模なデータセットでも、効率的に分析が可能。
再現性と自動化:Pythonを使えば、データの前処理から分析、可視化まで一貫してプログラム内で行えるため、再現性が高くなる。データを変更しても最小限のコード修正で済み、煩わしい手作業が大幅に減少する。また、定期的な分析や予測の自動化も容易になる。
高度な分析手法:PythonにはNumPy、SciPy、Pandas、Matplotlibなどの強力なデータ分析ライブラリがある。これらを使用することで、複雑な統計分析や機械学習モデルの構築が可能になる。特に、Scikit-learnやTensorFlowなどのライブラリを活用すれば、高度な機械学習や深層学習を用いた競馬予測モデルを作成できる。
コスト効率:Pythonはオープンソースで無料で使用できる。一方、エクセルは有料のソフトウェアだ。個人で分析を行う場合や、複数の環境で作業する場合、Pythonのコスト効率は大きな利点となる。
拡張性と柔軟性:Pythonは汎用プログラミング言語であるため、データ分析以外にもウェブスクレイピングやアプリケーション開発など、幅広いタスクに活用できる。例えば、競馬データの自動収集や、分析結果を表示するウェブアプリの作成なども可能だ。
競馬の分析をするための過去データはどこで入手できる?
JRA-VANデータラボ:JRA公式の競馬データを提供するサービスであり、過去30年以上のデータを閲覧・分析できる。
netkeiba.com:競馬情報を網羅的に提供するウェブサイトであり、過去のレース結果やデータ分析機能を備えている。一部の機能は無料で利用可能だが、詳細なデータや高度な分析機能を利用するには有料会員登録が必要となる。
スクレイピングによるデータ収集:プログラミングの知識がある場合、ウェブスクレイピングを用いて無料でデータを収集する方法もある。例えば、R言語を使用してnetkeibaから過去のレースデータを取得し、CSV形式で保存するなど。
ExcelのPower Query機能:ExcelのPower Query機能を活用して、ウェブ上のデータを直接取得し、分析する方法ある。JRA公式サイトからレース結果データを取得し、Excel上で加工・分析するなど。