【馬券データ分析】数字の信頼度について
こんにちは。キラリです。
今回は、私が考えているデータ分析のコツで、「数字の信頼度」というテーマについてご紹介します。
結論
・「単勝回収率」や「複勝回収率」を見る場合は数字の裏に隠れている「数字の信頼度」を意識する
・データ数は多ければよいわけではない
・データ数が少なくても傾向は見える、また、「このままデータ数が増えていったらどのくらいに収束しそうか」を意識すると違った視点が見えてくる
・有識者のさりげない一言にお宝が隠れている
数字の信頼度
私は競馬予想をするときに、競走馬に関する様々なファクターを切り口に回収率を分析して、買い目を抽出していくスタイルをとっています。
競馬予想をするときに、常に「データ」や「数字」といった切り口からアプローチしてきて感じることがありまして
単勝回収率や複勝回収率には「数字の信頼度」という、もう一つの隠れた数字が裏に存在していて、その「数字の信頼度がどれくらいなのか」ということを考えながら数字を見ていくことが重要だと考えています。
そして、「数字の信頼度」を読み取るときのバロメータになるのが、「データ数」と「データ特性」だと思っています。
さらに言いますと「データ数は多ければよいというものではない」ですし、「データ数が少ないからといってあてにならないわけではない」と考えています。
今回はこの内容について具体例で説明してみたいと思います。
データ数は多ければよいわけではない
「単勝回収率」や「複勝回収率」を集計してその傾向を見るときに、データ数が少なすぎると数字の信頼度としては心もとなく感じることがあると思います。
具体例で言いますと、「短距離の差し、長距離の逃げ」という昔からある競馬格言について、最近のデータでもそのような傾向があるのか事実確認をするために調査していくと
長距離のダート戦というのはそもそもレース数が少ないため、2014年以降の約10年分のデータで見ても、下の表のデータ数くらいにしかなりません。
では、データ数が少ないからといって20年前のデータまでさかのぼることが正解かというとそうでもなく
「最近のデータでも有効な格言なのか」ということを確認することが目的なので、昔のデータが入りすぎると逆に最近の傾向が分かりづらくなり、数字の信頼度が下がることになります。
つまり、目的によってはデータ数を増やしたことが逆に数字の信頼度を下げる可能性があることに注意が必要だと考えています。
他の例で言いますと、私は騎手を評価するときに「直近2年間の複勝回収率が75%を超える騎手を高く評価」しているのですが、騎手の人気度合いというのは時間が経過すると変化しますし、あるとき突然調子を落とし始める騎手も存在すると思っています。
そのため、あまり過去のデータを見すぎると「最近調子を落としてきた騎手をずっと高く評価し続けてしまう」などのデメリットが出てきてしまうと考えられます。
そのような「データの特性」によって、必ずしもデータ数を増やすことが数字の信頼度を上げるわけではないことに注意が必要だと考えています。
データ数が少ないからといってあてにならないわけではない
例えばGⅠレースのデータ傾向を見たい時など、どうしてもデータ数が少なくなるケースというのが存在すると思います。
私の場合、データ数の少ない数字を見るときは「このままデータ数が増えていったらどのくらいに収束しそうか」というのを意識することが有効だと考えています。
例えば、ジャパンカップというレースはよく言われるように牝馬が活躍しやすいレースだと思っていまして、実際に2010年以降のデータで勝率や回収率を集計すると下のようになります。(ちなみに私は2015年に勝利したショウナンパンドラが好きでした🤣)
上の表の赤枠を見ていただくと、4つの項目全てで牝馬が牡馬を圧倒しています。
これだけ差がついていると、やはりデータ数が少ないとはいえ、牝馬の方が活躍しやすいという傾向は否定しづらいと思います。
ここでGⅠレース以外も含めて性別ごとの長期的な回収率を見ていきますと以下のような回収率になっています。
この結果と、先ほどのジャパンカップの結果を比較すると、ジャパンカップで牝馬の方が活躍しやすいという傾向はあるにしても、やはり牡馬が活躍してなさすぎると捉えられます。
固い決着になりやすいレースであることを考慮したとしても、もっとデータ数が増えてくれば牡馬の回収率はもっと高くなるのではないかと私は感じています。
言いたいこととしては、データ数が少ない場合でも数字の信頼度がゼロではなく、やはり傾向というのは見えてきますし
長期的に見るとどのくらいの数値に収束していきそうかを考えることでまた違った視点も見えてくるのではないかと考えています。
単勝回収率と複勝回収率
私は「単勝回収率」と「複勝回収率」であれば「複勝回収率」の方をより重視して見るようにしています。
その理由としては、「単勝回収率」というのは「複勝回収率」に比べてデータ分布が極端な分布になりやすいため、確率を収束させて数字の信頼度を上げるために、より多くのデータ数を必要としてしまうからです。
これは経験則になりますが、実際にいろんなデータの傾向を分析するために、徐々にデータを分割していく(最初に10年分のデータで傾向を見て、その後年別のデータで見ていくなど)と単勝回収率の方からだんだんと傾向が崩れていきます。
また、データ分析の内容にもよりますが、複勝回収率で見ると比較的キレイに傾向が読み取れる場合でも、単勝回収率で見ると混乱してしまう。といったケースもあります。
データ数が少ない場合などは特に、複勝回収率を見たほうが傾向をつかみやすい(数字の信頼度が高い)のではないかと考えています。
有識者のさりげない一言は宝の山
「データ数が少ないからといってあてにならないわけではない」というお話と関連して
長年競馬予想家として活躍していらっしゃる方や競馬解説者の方などが、さりげなくポロっと漏らした言葉というのは回収率を上げるために非常に有効なヒントになるケースが多いです。
そういったさりげない一言を見逃さずに持ち帰って、実際に自分で数字を集計してみると本当にそうなっている、ということは非常に多く
それがきっかけで自分の予想ロジックに今でも採用している競走馬の評価条件というのが結構あります。
それはデータ的な裏付けがあって言われている場合もあれば、いろんなレースを見てきた感覚値で言われている場合もあると思うのですが
おそらく本人の中では、あまりにもあたりまえのことだったり、数字的な裏付けが十分ではなかったりするため、深く説明されないケースが結構あると思うのです。
しかし、そういったあまり知られていないような情報こそ、長期的に安定して回収率を上げられる条件だったりします。
これの一番良い例が、以前過去記事で紹介させていただいた「セン馬になって1戦目の馬は成績が悪い」という条件です。
おそらく私はテレビ中継かなにかを見ていて、ふと解説者の方が「まぁ、この馬はセン馬になって1戦目ですからね・・・」となにげなく言われたのを覚えていて
最初は「セン馬になって1戦目だからなんなんだ?」と思っていたのですが、後で実際にデータを調べてみたら非常に成績が悪いということが分かりました。
ひょっとすると業界の方からしたらあたりまえのことなのかもしれないのですが、一般の競馬ファンであればまず知りえない情報だと思います。
もしくは「セン馬になって1戦目の馬」というのは数が少ないため、数字的な裏付けがとりづらかったのかもしれません。
私としては、そのような情報を抱えていらっしゃるのであれば、言っていただければいくらでもデータを調べて数字的な裏付けが取れるか確認します🤣
もし私と同じような手法で回収率を上げようとしている方がいらっしゃれば
「有識者の方がさりげなくポロっと漏らす言葉」というのはとてもヒントになると思いますので、意識して聞いてみることをお勧めします。
余談
そもそもが余談のような記事で、さらに余談枠を設けさせていただくのですが😅
本記事で取り上げさせていただいた「短距離の差し、長距離の逃げ」というのは大谷内泰久 殿の書かれた以下の記事から着想を得たもので
*********************
競馬の真実、競走馬の真実、勝つための馬券戦略【一部無料公開、5.7万字】|大谷内泰久の最強競馬予想&重賞完全攻略 (note.com)
*********************
当記事には、私がこれまで深掘りしてこなかった内容が数多く盛り込まれており大変勉強させていただきました。
また、私は一競馬ファンにすぎないため、自分の書いた記事が長年プロの競馬予想家としてご活躍されてきた方々の目に入ろうなどとは、まったく想定していませんでした。
そのため、それを知ったときにはとても光栄に感じたのと同時に、自分が過去の記事で語ってしまった、浅はかな競馬知識や暴論の数々を見返して非常に恥ずかしく感じていました😅
ただ、一競馬ファンの立場から、どうすれば回収率を上げられるのか、馬券で勝つにはどうすればよいのかということについて、時に真剣に、時に遊び心を交えながら、必死に知恵を絞ってきた内容となっておりますので
暖かい目で見ていただけると幸いです。
以上となります。
******************
記事の全体図はこちら
******************