見出し画像

馬体の定量的評価法 ~EQCULEUS~

 本記事では、定量的な馬体評価に関する方法を紹介する。この方法では、過去のセールやクラブ募集時の馬体画像を計測して得た数値と、その馬の競走成績を合わせた統計データに基づき、評価を行う。実際、2019年セレクト・セレクションセールに上場された馬を評価し、現在までの成績と照らし合わせた結果、競走能力の高い馬を推測する点に関して一定の精度を有していることが示された。

1.背景

 馬主、および一口馬主にとって、馬体からその馬の能力を見抜くことは良い馬に出資するために欠かせない。しかし、そのような“相馬眼”は毎日のように馬と向き合い、繰り返し模索した結果得られる賜物であり、一朝一夕の努力で身につくものではない。そういった事情から、専門家など豊富な知識を持つ人物による評価コメント等を聞くことができるネットコンテンツが最近では盛り上がりを見せている。上記のコンテンツ等でみられる馬体の評価は、わかりやすさを重視するために、定性的な評価が一般的である。定性的な評価とは個人の感覚を基準とした評価のことを指し、相手にその馬の特徴を即座にイメージさせることができる点がメリットといえる。よく見かける、「繋ぎが立っている」、「首がやや太い」、「顔が大きい」、などの表現は定性的評価の代表例であり、それによって我々はその馬の特徴を容易にイメージできる。一方でこのような定性的評価は、個人の主観・感覚に大きく左右される、つまり客観性に欠けるという大きな問題点がある。これにより、他者との間で認識が合わなかったり、過去の自分の評価にすら矛盾したりする可能性があり、結果として正確な評価が妨げられる。このような問題を避けるために、定量的に馬体を評価することが必要である。定量的な馬体評価とは、馬体を数値化しその数値に基づいて馬体を評価するアプローチである。数値を用いることで、あいまいな表現・評価等は一切排除され、全ての受け手が共通の認識を得ることができる。また、得られた数値は蓄積されることによって統計データとして扱うことが可能になる。このデータを用いれば、馬体の特徴と競走能力の関係について統計的に議論することができるようになり、それによって新たな知見や法則等が発見されることも期待できる。このような背景から、定量的な馬体評価の手法を確立することが必要とされている。

 そこでここでは、馬体の数値化およびそのデータを用いた定量的馬体評価に関する方法、EQCULEUS (Evaluation by Quantifying Conformation of Unitless LEngths for eqUine Screening)を紹介する。EQCULEUSでは、1歳時の馬体画像とその馬の競走成績がペアとなって蓄積された大量の過去データを利用して馬体を評価する。したがって、過去データの加工・解析を行った後、馬体評価するという流れとなる。初めに、蓄積された馬体画像において、各パーツの長さを計測して数値化を行う。その後、それらをクラスタリング手法の一つであるK-means法を用いて馬体の類似度に応じたグループ分け(クラスタリング)を行い、各グループの平均獲得賞金などを基に、競走能力に関してグループを順序付けする。以上をあらかじめ行った上で、成績が既知でない馬の馬体、例えばセールやクラブ募集時の馬体、を評価する。評価方法は、数値化した評価対象馬の馬体がどのグループに属するかを調べればよい。平均獲得賞金などが高いグループに属すれば高評価、そうでなければ低評価と考えることができる。実際、この方法により2019年セレクトセール・セレクションセールに上場された馬を評価した結果、1レースあたりの獲得賞金の高い馬を推測する点に関し、一定の精度を有していることが示された。EQCULEUSにより、今後、主観に左右されない高精度な馬体評価の実現だけでなく、馬体の特徴と競走能力に関する新たな知見の発見など、馬体評価に関連した分野にブレイクスルーがもたらされることを期待している。

2.馬体の数値化

 初めに、まずは過去のセールやクラブ募集時の馬体画像から馬体を数値化する。ここで言う馬体の数値化とは、文字通り馬体画像上で対象のパーツを計測し、数値化することである。この数値を用いることで、統計解析したり、他馬のものと比較したりすることで、馬体を定量的に評価することができる。しかしながら、異なる画像に写った馬体は、使用したレンズや撮影地点などの撮影条件が同じである保証がないため、画像上で計測した長さ(単位:ピクセル)をそのまま解析に使うことができないという課題がある。この課題を解決するために、EQCULEUSでは馬体の各パーツの長さを自身の脚の長さとの比に変換して扱う。これによって、ピクセルという単位が自身の脚の長さの〇〇倍という形で表されるようになり、異なる画像に写った馬体でも同じ土俵で扱うことが可能になる。数値化する過程を以下に示す。

1.画像上で以下のように、計19のパーツに点を打つ。

図1.19個のパーツに打たれた点

2.各点の間を以下のように結び、その各長さを図のように定義して長さを計測する(単位:ピクセル)。さらに、それら36個の長さを成分として持つベクトルを$${L=\left(l_1, l_2, …, l_{36}\right)}$$とする。

図2.19個のパーツ間を線でつないだ様子

3.各長さを肘-前球節間の長さ$${l}$$(図2)で割り、$${\hat{L}=\left(l_1/l,l_2/l,...l_{36}/l\right)}$$とする。これにより、ピクセルという単位をもつ長さ$${\left(l_1,l_2,…,l_{36}\right)}$$が、自身と$${l}$$との比に変換される。

以上の過程を踏むことで、馬体を自身の$${l}$$を基準とした数値で表すことができた。また、$${\hat{L}}$$はその馬の馬体構造を特徴付ける変数の集まりであることから、今後、構造ベクトル(Conformational vector)と呼ぶことにする。

3.競走成績データの加工

 次に過去のデータのうち、馬体のペアとなる競走成績に関するデータを加工する。ここでは、それぞれの馬を芝・ダートどちらに適性があったかに基づいて2つに分類した。芝・ダートそれぞれにおける1レースあたりの賞金を計算し、その値が大きい方に適性があるとした。2つの値に差がない場合は、芝・ダート両方に属するものとした。今回用意した過去データでは、芝適性馬が1924頭、ダート適性馬が2945頭であった。このように、各馬の「芝・ダート適性」、「(適性がある方の)1レースあたりの賞金」、の2つを得た。また、「(適性がある方の)1レースあたりの賞金」を今後Prize money per raceの略として$${PMR}$$と表記し、競走能力を反映する指標とした。さらに、$${pmr}$$を任意の賞金額として芝適性馬各馬の$${PMR}$$が$${pmr}$$を上回る割合を$${R_{all-t}}$$、ダート適性馬の場合を$${R_{all-d}}$$とした。

4.構造ベクトルのクラスタリング

 得られた各馬の構造ベクトルは、一部の成分を削減したのち、K-means法と呼ばれるクラスタリング手法により、特徴に応じてグループ分けされる。ここでは、芝・ダートの競走において求められる馬体構造が異なるという仮定の下、グループ分けは前に定義した芝適性馬の集団とダート適性馬の集団とで別々に行う。混乱を避けるため、以下、芝適性馬のグループ分けについて述べる。初めに、芝適性馬集団における各馬の構造ベクトルをK-means法により2つのグループに分け、次に、得られた2つのグループをそれぞれ再び2つのグループに分け、合計4つのグループとする。同様の作業をもう一度行い、最終的に各馬の構造ベクトルを8のグループに分ける。その後、各グループに属する各馬の$${PMR}$$が$${pmr}$$を上回る割合$${R_{gr}}$$を算出した。ここでは$${pmr=113}$$を用いた。また各グループは、$${R_{gr}}$$の大きい方から順にGr.1, Gr.2, …, Gr.8とグループ番号を付けることとする。以下の図は、各グループの$${R_{gr}}$$をプロットしたグラフである。

図3.芝適性馬集団における各グループの$${R_{gr}}$$

グラフ内の平行破線が示す値は$${R_{all-t}}$$であり、$${R_{all-t}=0.33}$$であった。これより、Gr.1からGr.4では$${R_{gr} > R_{all-t}}$$であり、標準(芝適性馬全体)と比べて$${pmr}$$を上回る馬が多い一方で、Gr.5からGr.8では$${R_{gr} < R_{all-t}}$$となり、標準よりも$${pmr}$$を下回る馬が多いことがわかる。また、Gr.1とGr.8の間には、$${R_{gr}}$$に関して2倍以上の差があった。以上のように、馬体を数値化することで得られた各馬の構造ベクトルを、K-means法によりグループ分けした結果、各グループの$${R_{gr}}$$に関して差が現れることがわかった。

5.成績が未知の馬の馬体評価

 冒頭でも述べたように、ここまで過去データの加工・解析を示してきた。ここからは、成績が既知でない馬の馬体を評価する方法を示す。セールやクラブ募集時などの、成績が既知でない馬の馬体を評価する際は、評価対象馬の構造ベクトルがどのグループに属するかを調べればよい。今回はこの評価方法のデモンストレーションとして、2019年セレクトセール・セレクションセールに上場された馬を評価対象馬集団として、成績が既知でない馬であると想定して評価した。まずは評価対象馬集団に対して芝馬としての評価を行った。ここでも初めに、前述の方法で評価対象とする馬の馬体を計測し、構造ベクトルを求めた。次に、第4節(構造ベクトルのクラスタリング)で分けた、過去データのうちの芝適性馬集団に関する8グループにおいて、各グループの構造ベクトルをそれぞれ平均し、平均構造ベクトルを算出した。その後、評価対象馬集団の各構造ベクトルと各グループの平均構造ベクトルとのユークリッド距離をもとに、評価対象馬集団を8つのグループに分けた。グループ番号は$${R_{gr}}$$の大きい方から順に付けられていることから(図3)、グループ番号が小さければ小さいほどその評価対象馬の評価が高いといえる。

 本来であれば馬体評価はここで完了であるが、現時点の評価対象馬集団の成績を用いてこの方法の妥当性を示す。ここでは芝馬としての評価を行ったため、評価対象馬集団の各グループ内の、実際に芝適性馬だった馬(全182頭)に限定した$${R_{gr}}$$を算出し、これを$${R_{gr-eval}}$$とした。以下の図は、各グループの$${R_{gr-eval}}$$をプロットしたグラフである。

図4.評価対象馬集団の各グループ内の実際に芝適性馬だった馬に限定した$${R_{gr}}$$

グラフ内の平行破線が示す値は、評価対象馬集団内の各芝適性馬の$${PMR}$$が$${pmr=113}$$を上回る割合、$${R_{eval-t}}$$である。$${R_{gr}}$$のグラフ(図3)と同様に、グループによって$${R_{gr-eval}}$$が異なっていることがわかる。また、各グループの$${R_{gr-eval}}$$を$${R_{gr}}$$に対してプロットしたものを以下に示した。

図5.各グループの$${R_{gr-eval}}$$と$${R_{gr}}$$の関係(芝馬としての評価)

グラフ内の平行破線と垂直破線は、それぞれ$${R_{eval-t}}$$と$${R_{all-t}}$$を示している。このグラフから、$${R_{gr}}$$の値が大きくなるにつれて$${R_{gr-eval}}$$の値も大きくなっていることがわかる。実際、各グループの$${R_{gr-eval}}$$と$${R_{gr}}$$との相関係数は約0.68であり、正の相関が認められた。これは、過去データのうちの芝適性馬集団で見られた構造ベクトルと成績の関係性が、評価対象馬集団においても同様に見られることを意味する。つまり、グループ番号が小さいグループに属した評価馬ほど$${pmr}$$を上回る可能性が高いという傾向を示している。

 次に、評価対象馬集団に対してダート馬としての評価も行った。この場合、過去データのうちのダート適性馬集団を8グループに分け、平均構造ベクトルを算出してこれらを用いた。また、これはダート馬としての評価のため、評価対象馬集団の各グループ内で、実際にダート適性馬だった馬(全302頭)に限定した$${R_{gr}}$$を算出し、これを$${R_{gr-eval}}$$とした。ダート馬に関しては$${pmr=90}$$を用いた。以下の図は、各グループの$${R_{gr-eval}}$$をプロットしたグラフである。

図6.評価対象馬集団の各グループ内の実際にダート適性馬だった馬に限定した$${R_{gr}}$$

平行破線が示す値は、評価対象馬集団内の各ダート適性馬の$${PMR}$$が$${pmr}$$を上回る割合、$${R_{eval-d}}$$である。各グループの$${R_{gr-eval}}$$を$${R_{gr}}$$に対してプロットしたグラフは以下に示した。

図7.各グループの$${R_{gr-eval}}$$と$${R_{gr}}$$の関係(ダート馬としての評価)

平行破線と垂直破線は、それぞれ$${R_{eval-d}}$$と$${R_{all-d}}$$を示している。ダートの場合でも$${R_{gr}}$$の増加に伴って$${R_{gr-eval}}$$も増加していく傾向にある。したがって、芝馬としての評価同様、グループ番号が小さいグループに属した方が$${pmr}$$を上回る可能性が高くなる傾向があることがわかる。以上のデモンストレーションにより、芝・ダートどちらの場合においても、グループ番号が小さいグループに属した評価対象馬を選んだ方が、将来$${PMR>pmr}$$となる確率が高くなることが示された。これより、EQCULEUSによる馬体評価が一定の精度を有していることが示すことができた。

6.まとめ

 本記事では、定量的な馬体評価の方法、EQCULEUSを紹介した。EQCULEUSでは、まず馬体を評価する前に成績が既知の馬の馬体を数値化し、K-means法により8つのグループに分ける作業が必要であることを示した。その後、各画像に写った馬体を同じ土俵で扱うために、馬体の各パーツの長さを自身の脚の長さとの比に変換し、これを構造ベクトルとした。これらの構造ベクトルをK-means法により8つのグループに分けたところ、各グループの$${R_{gr}}$$に関して差が現れることがわかった。つまり、競走能力を示す指標である$${R_{gr}}$$が構造ベクトルにより左右されるということである。成績が未知の馬の評価に関しては、デモンストレーションとしてEQCULEUSにより2019年セレクトセール・セレクションセールに上場された馬を評価した。この結果、芝・ダートどちらの場合においても、グループ番号の小さいグループに属した評価対象馬、つまりEQCULEUSによる評価が高い馬は$${PMR>pmr}$$となる確率が高かった。これより、EQCULEUSが一定の精度を有していることが示されたといえる。今後、過去データを増量したり、クラスタリング手法(グループ分けの方法)を変更したり、様々な改良を加えることで、EQCULEUSの精度が向上する可能性がある。また、血統や歩様など、他のファクターに関する定量評価と統合することでEQCULEUSに足りない部分を補うこともできると考えている。以上のように、将来的にEQCULEUSが馬体評価の代表的な手法となることを期待している。


この記事が気に入ったらサポートをしてみませんか?