見出し画像

データベースの精度。

AbilityIndexのデータベースを作っているのですが、ある時問題点というか疑問が浮かんできて頓挫。

一応データなので正確でないといけないのですが果たしてどうやって精度を確認するのかと考え、指数の横の参照数を各年度、月毎に数え照らし合わせすることに😊

で、参照数と実際のデータ数(3歳1勝以上、オープン馬を除く)との誤差率は99.71%。

参照数27810に対して該当条件レースが27729、その差は81レースでした。ローカルシーズンなど該当レースが多く組まれている時などに見落としや重複があるようです😅

傾向をみるだけなら、これで良いとも言えるのですが、100%はキツいとしてももう少し正確なデータに仕上げたいという気持ちもあります☺️

追記

別のnoteに書こうとも思いましたがここに。

データの精度を上げるためにこれからは各場の開催日毎に参照数を累計し、併せてデータ数との誤差が生じないように都度計算・検算することにします。

なので過去のデータ数と参照数が99.40%未満のデータから再計算・検算を行い最終的に完璧なデータに仕上げようと考えています☺️

完成は2年後ぐらい🥶⁉️

この記事が気に入ったらサポートをしてみませんか?