【馬券データ分析】データ分析の落とし穴

2023年11月4日 23:21

こんにちは。キラリです。

今回は、データ分析を使用して競馬予想をする際に、必ず一度はハマる落とし穴についてご紹介します。

データ分析の落とし穴とは

競馬予想をする際に、過去データを分析していると、回収率が100％を大きく超える条件を見つけることがあります。

しかし、実際にその条件で抽出した馬に投票しはじめると、平気で馬券圏外に飛んでいき、長期的にも、まったく想定したような回収率にならなくなったという経験はないでしょうか。

例えば、京都競馬場の芝コースの1600メートルであれば、○○ジョッキーの過去の単勝回収率は300％を超えている。

というのを発見して、実際にその条件に当てはまる馬の馬券を購入していっても、全然期待した回収率にならない、というようなケースです。

これは、実は「京都-芝-1600メートルでの○○ジョッキー」という条件に優位性はまったくなく、データを分析していく過程で、回収率が高くなるように都合よく条件を決めてしまったことが原因です。

これを「オーバーフィッティング」と呼んでいます。

上の例だと、すぐに気づけるかもしれませんが、馬券で回収率を上げるためにいろんなデータを分析していると

気づかないうちにオーバーフィッテイングしてしまっていることがあり、何の優位性もない条件を使い続けてしまうことがあります。

私の場合は、少ないファクターだけで回収率が100%を超えるような買い目が出てきてしまうと、まず間違いなくオーバーフィッティングしていて、長期的に信頼できる条件ではないのでないかと疑ってかかります。

オーバーフィッティングを回避するために２つの対策が有効です。

一つは、①優位性を論理的に説明できる条件を使うこと、もう一つは②十分なサンプル数で複数の角度から優位性を検証することです。

それぞれ説明します。

これは、例えば私が以前記事にさせていただいた、

「馬番の奇数/偶数/大外」という条件の例でいうと、

奇数番の馬はゲートに入ってから待たされる時間が長いため、スタートのタイミングがとりづらく、ストレスも溜まりやすいから不利である。

という優位性が説明できます。

一方で、「京都-芝-1600メートルでの○○ジョッキー」という条件では、なぜ○○ジョッキーが京都-芝-1600メートルを得意としているのか、どういう優位性があるのか理由の説明が難しいのではないかと思います。

私が実際に使用している検証方法は、まず10年分の大量データで、その条件の単勝回収率と複勝回収率を集計し、優位性があることを確認します。

次に、１年単位のデータでも同様な集計を行って、単勝回収率と複勝回収率に同じような優位性の傾向が出るか確認します。

やり方はこれだけではないと思いますが、このような複数の検証を経て、それでも優位性が確認できる条件こそ、長期的に信頼できる条件と言えます。

なお、必ずしもこの方法を使う必要はなく、別の手法でも問題ないと考えています。

一方、「京都-芝-1600メートルでの○○ジョッキー」といった条件だと、統計的に十分なサンプル数が得られていない可能性もあるのではないかと思います。

以上のように、データ分析をする際は自分に都合のいいように条件を決めてしまい、オーバーフィッティングになっていないか注意する必要があります。

対策として、①優位性を論理的に説明できる条件を使うことと、②十分なサンプル数で複数の角度から優位性を検証することが有効になると考えています。

以上です。
読んでいただいた方、ありがとうございます。

******************
記事の全体図はこちら
******************