真面目に統計で競馬を考える「闘計馬」経過報告「予想に役立ちそうなデータの選別の仕方」(2022/06/27 昼)
過去データ10年分とかケチくさいこと言わないで
1986年からのデータ取りました。340MBです。
聞いたところでは調教師の現役年数は40年超えることもあるらしいので
取れるだけとっていいでしょう。
種牡馬の現役時代のデータも参考になるかもしれません。
種牡馬の気性が荒っぽい(標準偏差が高い)と
子供にも遺伝するのでしょうか!?
人間だったら男は標準偏差高そうだし、女性は低そうですよね。
牝馬の標準偏差が低いかどうかとか気になりませんか?
私は競馬は素人なんで「どのデータが予想に役立つのか」
全然知らないので
感覚的に予想に役立ちそうとか立たなさそうとか判断してます。
「プログラム設計の着想」という本によると
「封筒の裏計算」という話があるのですが
簡単に説明するとハドソン川に
1年間に流れる流量を予想するときに
川幅と川底の深さに見当をつけて
1分間に流れる流量を何となく暗算したり
封筒の裏に計算したりして目星を立てられるようにしろ
というような話なのですが
そういう「当たらずとも遠からず」な目星を立てて
プログラムで計算した時の誤差が何%以内なら
計算式も正しかろうと見当を立てられないと
全然見当違いなシステムが出来上がるよという話です。
競馬予想を統計で計算するのにどのデータが重要かとか
AIに学習させるデータを検討したりするのも
こういう封筒の裏計算の考え方と似たようなものです。
競馬の場合は検算のしようがありませんが
データが予想に役立ちそうかどうかは
コンピューターに計算させて統計をとればよいのです。