
【一口馬主】AIを使って評価モデルを作成する
はじめに
下記でご紹介しているように、馬体のコンフォメーションデータをもとに、募集馬の馬体分析に取り組んでいます。
最終的に実施したいこととしては下記のようなイメージです。
データの収集
評価モデルのネタとなる過去の募集馬データを集めます
評価モデルの作成
馬体のコンフォメーションデータや成績をもとに評価モデルを作成します
勝ち上がり率の算出
募集馬データを評価モデルで評価し、勝ち上がり率を算出します

今回は評価モデルの作成についてお話しします。
評価モデルとは
評価モデルのイメージとしては、以下のようなものです。
下記の点数を合計し、3点で勝ち上がり率70%、2点で50%、1点で30%、0点で20%、-1点で10%と予測。
性別が牡の場合2点
体重が500kg以上の場合1点
飛節の角度がXX以上だと-1点
上記はあくまでも例なので、実際にはもっと複雑なものになる想定です。
手作業による評価モデルの限界
初めは手作業で評価モデルを作成する予定でしたが、以下の問題点がありました。
点数の重みづけが大雑把になる
例えば、性別が牡の場合2点、体重が500kg以上の場合1点として、合計点数で評価するような場合。
牡の場合は2.5点、体重500kg以上の場合は、1点ではなく1.3点、といったように小刻みにしたほうが正確に評価できる可能性があります。
ただし、データ項目として60項目以上あるため、点数を10分の1刻みに細かくしてしまうと、最低でも600回の評価計算をする必要があり非常に時間がかかります。
そのため、現実的なラインとしては、せいぜい-2点~2点程度のレベルでの重みづけとなります。
頑張っても-5点~5点くらいが限度かと感じています。
評価基準の曖昧さ
体重や飛節の角度といった数値での評価の場合に当てはまりますが、例えば体重500kg以上2点とした場合、500kgの馬は2点、499kgの馬は0点となります。
わずかの差で評価に大きな差が出てしまいます。
組み合わせ評価の困難さ
例えば、牡馬の場合、体重500kg以上で良好な成績を収めるものの、牝馬の場合、体重500kg以上ではむしろ活躍していないような特徴が仮にあったとして、それを見つけるには性別と体重を合わせて評価する必要があります。
組み合わせに応じて逆の傾向を示すパターンはいくつもあるのでは?と考えていますが、すべての項目においてそのように組み合わせて評価することは実質不可能です。(データ項目が60項目の場合、2項目の組み合わせのパターンは、ざっと1800通り)
解決策としてのAI利用
上記の問題を解決するために、AI(機械学習)を活用したモデル作成を実施します。
今回は2項分類という手法を用います。
2項分類は過去のデータをもとにYES/NOを判断する手法です。
例えば、競馬以外の例でいうと、下記のようなことに使われるイメージです。
保険商品の成約情報(年齢、性別、収入、家族構成、成約結果など)をAIで学習させ、その結果をもとに顧客の成約の可能性を判断する。
血液検査の結果をAIで学習させ、病気の可能性を判断する。
今回は、過去の募集馬データと成績(勝ち上がり結果)をAIで学習させ、勝ち上がるか否かの評価モデルを作成します。
その結果をもとに、募集馬の勝ち上がり率を算出します。
将来的には、勝ち上がり率だけでなく、オープン馬率なども算出できるようにしたいと考えています。
機械学習のもう少し細かい話
使用するツールやアルゴリズムについても紹介します。
ツール
IBM Watson Auto AI
アルゴリズム
Watson Auto AIでは2項分類においていくつかのアルゴリズムが選択できます。
今回は下記の理由からExtra Treesを採用しました。
・多量な特徴量、少ないレコード数、特徴量の特性が不明という場合に強い
・いくつかのアルゴリズムと比較して、より良い精度が出た
これは今後の実績を見ながら柔軟に変更する予定です。
モデルの評価基準
評価モデルを選定する際に、「精度」を基準としています。
※精度=勝ち上がりと予測した馬が、実際に勝ち上がった率
上記以外にも、例えば、「正確性」なんかを基準とする場合もありますが、今回は採用していません。
※正確性=実際に勝ち上がった馬が、勝ち上がりと予測した中に含まれている率
正確性は、例えば病気を発見するモデルなどで採用されることが多いと思われます。(病気と判定した人の中に、病気でない人が含まれてもいいので、病気の人が可能な限り含まれるようにしたい場合)
評価モデルを使用した予測
下記に評価モデルを使用した予測をご紹介します。
注意
2024年7月時点でこのAIを使用したモデル作成手法を確立できたとは言い難い状況です。
ある程度確度が高いと思われるモデルが作成できた位で、これからも試行錯誤していく予定です。
その結果、アルゴリズムの変更や、特徴量の追加、モデル評価の大幅変更も発生するかもしれません。
東京サラブレッドクラブ
シルクホースクラブ
DMM バヌーシー
さいごに
AIを活用することで、手作業では難しい評価モデルの作成が可能となります。
今後のデータ収集とAIの学習により、さらに精度の高い評価もでるも作成できると考えています。