▼競馬データの特徴
年ごとに新たなプレーヤーが参入し、成績の振るわなかった者が短期間で次々と退出する世界においては、年齢別成績の全体の統計よりも在籍年数の長いデータのみを利用したほうが、現実を理解しやすい場合がある。
単純な集計では経年による変化よりも新規参入者の傾向が色濃く反映されてしまうのである。
例えば、母馬や種牡馬、騎手、競走馬そのものなどは在籍期間の短いデータを除いて集計してみると、まったく様相が異なるのが分かる。
実は、競馬のデータは膨大にあるが、注意すべき特徴を持っている。
1)競走馬1頭あたりのデータは極端に少ない。平均して10走程度だが、10走未満で引退や転出する馬が3分の2くらいだったか、とにかく過半数を超える。
2)順位を争うため、数字の殆どは相対的なもので絶対値ではない。レースが違えば走破タイムがレース内の相対的な数値であると分かる。
3)殆どのファクターではプレーヤーが多い。競走馬はもちろん、騎手、調教師など、何でも100種類を超える。100種類を超えるということは1種類あたり平均して1%未満のシェアしかなく、影響力の強いデータがない。
4)長めのデータであっても長期間固定的なものではなく、スピードの違いはあれど変化する。
1年とかそれより短い期間のデータでは明らかに不足だが、だからと言って長い期間のデータであっても取り扱いを誤ればおかしな結論を導き出す理由が以上の中にある。
そこで、短いデータを(集計から)捨てて長めのデータだけを選び出し、その変化にも注意しながら加工していく。
今夜は、このブログで用いているデータベースを使用して、集計方法の違いで示唆に富む結果を見出すことができる例を挙げたい。
以前完全に消去した血統データの一部を復活したので、母馬の出産時年齢を使うことにする。
▼データの概要
用いるデータは、2006年から2018年の中央競馬平地競走完走馬のデータである。
競走数は67,875競走、完走馬は延べ620,722頭である。
このデータベースを用いる。
2019年以降も現役である競走馬は多いが、成績の集計はあくまで2018年分までである。
地方競馬、海外の成績は含まない。
対象となる競走馬は2004年生まれから2014年生まれの11世代。
一度でも完走した馬は50,256頭いる。
2004年生まれはこのデータベースで新馬戦から追える。
2014年生まれは2歳となる2016年から4歳の2018年までカバーできることからこの世代までとした。
本来は2014年産駒も5歳以降のデータがあればいいのだが大きな問題は生じないと見做している。
競走馬の成績指標には勝利数を用いることにした。
勝利数を頭数で除した「1頭当たりの勝利数」(勝利数/頭数)とする。
この母集団全体の1頭当たりの勝利数は0.71である(35,821/50,256)。
出産時年齢別では図表293-1のようになる。
なお、このブログでは出産時年齢とは「仔の出生年-母馬の出生年」とする。
いつもお話ししているように、表はグラフにしてもらえれば分かりやすい。
今回のわたしの集計では、母馬の出産時年齢が9歳のときの仔が最も成績が良いという結果になった。
9歳をピークとして、ここから産駒の成績は少しずつ低下していく。
これが全体の平均だけで考えた世界である。
平均0.71を超えている期間は7歳から13歳までの産駒で「母馬はピークの9歳を過ぎてもしばらくは良馬を出し続けるのだな、母馬の年齢はよほどの高齢出産でなければあまり気にしなくて良く、母馬の出産年齢と産駒の競走成績の相関性は低い」と結論付けられそうだが、果たしてそれでよいのだろうか。
たいへん申し訳ないが、長くなってしまったので、次の夜につづく。
予告しておくと、出産年齢と産駒の競走成績の相関性はもっと高そうだとなる。
さらに、若い母馬の産駒はもっと成績が良いことが分かる。
(SiriusA+B)
年ごとに新たなプレーヤーが参入し、成績の振るわなかった者が短期間で次々と退出する世界においては、年齢別成績の全体の統計よりも在籍年数の長いデータのみを利用したほうが、現実を理解しやすい場合がある。
単純な集計では経年による変化よりも新規参入者の傾向が色濃く反映されてしまうのである。
例えば、母馬や種牡馬、騎手、競走馬そのものなどは在籍期間の短いデータを除いて集計してみると、まったく様相が異なるのが分かる。
実は、競馬のデータは膨大にあるが、注意すべき特徴を持っている。
1)競走馬1頭あたりのデータは極端に少ない。平均して10走程度だが、10走未満で引退や転出する馬が3分の2くらいだったか、とにかく過半数を超える。
2)順位を争うため、数字の殆どは相対的なもので絶対値ではない。レースが違えば走破タイムがレース内の相対的な数値であると分かる。
3)殆どのファクターではプレーヤーが多い。競走馬はもちろん、騎手、調教師など、何でも100種類を超える。100種類を超えるということは1種類あたり平均して1%未満のシェアしかなく、影響力の強いデータがない。
4)長めのデータであっても長期間固定的なものではなく、スピードの違いはあれど変化する。
1年とかそれより短い期間のデータでは明らかに不足だが、だからと言って長い期間のデータであっても取り扱いを誤ればおかしな結論を導き出す理由が以上の中にある。
そこで、短いデータを(集計から)捨てて長めのデータだけを選び出し、その変化にも注意しながら加工していく。
今夜は、このブログで用いているデータベースを使用して、集計方法の違いで示唆に富む結果を見出すことができる例を挙げたい。
以前完全に消去した血統データの一部を復活したので、母馬の出産時年齢を使うことにする。
▼データの概要
用いるデータは、2006年から2018年の中央競馬平地競走完走馬のデータである。
競走数は67,875競走、完走馬は延べ620,722頭である。
このデータベースを用いる。
2019年以降も現役である競走馬は多いが、成績の集計はあくまで2018年分までである。
地方競馬、海外の成績は含まない。
対象となる競走馬は2004年生まれから2014年生まれの11世代。
一度でも完走した馬は50,256頭いる。
2004年生まれはこのデータベースで新馬戦から追える。
2014年生まれは2歳となる2016年から4歳の2018年までカバーできることからこの世代までとした。
本来は2014年産駒も5歳以降のデータがあればいいのだが大きな問題は生じないと見做している。
競走馬の成績指標には勝利数を用いることにした。
勝利数を頭数で除した「1頭当たりの勝利数」(勝利数/頭数)とする。
この母集団全体の1頭当たりの勝利数は0.71である(35,821/50,256)。
出産時年齢別では図表293-1のようになる。
なお、このブログでは出産時年齢とは「仔の出生年-母馬の出生年」とする。
★図表293-1
出産時年齢 | 母集団全体の産駒頭数 | 母集団全体の産駒勝利数 | 勝利数/頭数 |
5歳未満 | 575 | 311 | 0.54 |
5歳 | 2,774 | 1,735 | 0.63 |
6歳 | 4,050 | 2,687 | 0.66 |
7歳 | 5,245 | 3,924 | 0.75 |
8歳 | 5,398 | 4,250 | 0.79 |
9歳 | 5,153 | 4,188 | 0.81 |
10歳 | 4,654 | 3,498 | 0.75 |
11歳 | 4,232 | 3,291 | 0.78 |
12歳 | 3,705 | 2,834 | 0.76 |
13歳 | 3,249 | 2,292 | 0.71 |
14歳 | 2,737 | 1,896 | 0.69 |
15歳 | 2,281 | 1,535 | 0.67 |
16歳 | 1,868 | 1,115 | 0.60 |
17歳 | 1,389 | 865 | 0.62 |
18歳 | 1,147 | 607 | 0.53 |
19歳 | 724 | 343 | 0.47 |
19歳超 | 1,075 | 450 | 0.42 |
合計 | 50,256 | 35,821 | 0.71 |
今回のわたしの集計では、母馬の出産時年齢が9歳のときの仔が最も成績が良いという結果になった。
9歳をピークとして、ここから産駒の成績は少しずつ低下していく。
これが全体の平均だけで考えた世界である。
平均0.71を超えている期間は7歳から13歳までの産駒で「母馬はピークの9歳を過ぎてもしばらくは良馬を出し続けるのだな、母馬の年齢はよほどの高齢出産でなければあまり気にしなくて良く、母馬の出産年齢と産駒の競走成績の相関性は低い」と結論付けられそうだが、果たしてそれでよいのだろうか。
たいへん申し訳ないが、長くなってしまったので、次の夜につづく。
予告しておくと、出産年齢と産駒の競走成績の相関性はもっと高そうだとなる。
さらに、若い母馬の産駒はもっと成績が良いことが分かる。
(SiriusA+B)