2020年8月30日日曜日

第293夜 集計方法により示唆に富む情報を得られる可能性がある。母馬の出産年齢を例に


競馬データの特徴
年ごとに新たなプレーヤーが参入し、成績の振るわなかった者が短期間で次々と退出する世界においては、年齢別成績の全体の統計よりも在籍年数の長いデータのみを利用したほうが、現実を理解しやすい場合がある。
単純な集計では経年による変化よりも新規参入者の傾向が色濃く反映されてしまうのである。
例えば、母馬や種牡馬、騎手、競走馬そのものなどは在籍期間の短いデータを除いて集計してみると、まったく様相が異なるのが分かる。
実は、競馬のデータは膨大にあるが、注意すべき特徴を持っている。
1)
競走馬1頭あたりのデータは極端に少ない。平均して10走程度だが、10走未満で引退や転出する馬が3分の2くらいだったか、とにかく過半数を超える。
2)
順位を争うため、数字の殆どは相対的なもので絶対値ではない。レースが違えば走破タイムがレース内の相対的な数値であると分かる。
3)
殆どのファクターではプレーヤーが多い。競走馬はもちろん、騎手、調教師など、何でも100種類を超える。100種類を超えるということは1種類あたり平均して1%未満のシェアしかなく、影響力の強いデータがない。
4)
長めのデータであっても長期間固定的なものではなく、スピードの違いはあれど変化する。

1
年とかそれより短い期間のデータでは明らかに不足だが、だからと言って長い期間のデータであっても取り扱いを誤ればおかしな結論を導き出す理由が以上の中にある。

そこで、短いデータを(集計から)捨てて長めのデータだけを選び出し、その変化にも注意しながら加工していく。
今夜は、このブログで用いているデータベースを使用して、集計方法の違いで示唆に富む結果を見出すことができる例を挙げたい。
以前完全に消去した血統データの一部を復活したので、母馬の出産時年齢を使うことにする。

データの概要
用いるデータは、2006年から2018年の中央競馬平地競走完走馬のデータである。
競走数は67,875競走、完走馬は延べ620,722頭である。
このデータベースを用いる。
2019
年以降も現役である競走馬は多いが、成績の集計はあくまで2018年分までである。
地方競馬、海外の成績は含まない。

対象となる競走馬は2004年生まれから2014年生まれの11世代。
一度でも完走した馬は50,256頭いる。
2004
年生まれはこのデータベースで新馬戦から追える。
2014
年生まれは2歳となる2016年から4歳の2018年までカバーできることからこの世代までとした。
本来は2014年産駒も5歳以降のデータがあればいいのだが大きな問題は生じないと見做している。

競走馬の成績指標には勝利数を用いることにした。
勝利数を頭数で除した「1頭当たりの勝利数」(勝利数/頭数)とする。
この母集団全体の1頭当たりの勝利数は0.71である(35,821/50,256)
出産時年齢別では図表293-1のようになる。
なお、このブログでは出産時年齢とは「仔の出生年-母馬の出生年」とする。

図表293-1
出産時年齢母集団全体の産駒頭数母集団全体の産駒勝利数勝利数/頭数
5歳未満5753110.54
5歳2,7741,7350.63
6歳4,0502,6870.66
7歳5,2453,9240.75
8歳5,3984,2500.79
9歳5,1534,1880.81
10歳4,6543,4980.75
11歳4,2323,2910.78
12歳3,7052,8340.76
13歳3,2492,2920.71
14歳2,7371,8960.69
15歳2,2811,5350.67
16歳1,8681,1150.60
17歳1,3898650.62
18歳1,1476070.53
19歳7243430.47
19歳超1,0754500.42
合計50,25635,8210.71
いつもお話ししているように、表はグラフにしてもらえれば分かりやすい。
今回のわたしの集計では、母馬の出産時年齢が9歳のときの仔が最も成績が良いという結果になった。
9
歳をピークとして、ここから産駒の成績は少しずつ低下していく。
これが全体の平均だけで考えた世界である。
平均0.71を超えている期間は7歳から13歳までの産駒で「母馬はピークの9歳を過ぎてもしばらくは良馬を出し続けるのだな、母馬の年齢はよほどの高齢出産でなければあまり気にしなくて良く、母馬の出産年齢と産駒の競走成績の相関性は低い」と結論付けられそうだが、果たしてそれでよいのだろうか。
たいへん申し訳ないが、長くなってしまったので、次の夜につづく。
予告しておくと、出産年齢と産駒の競走成績の相関性はもっと高そうだとなる。
さらに、若い母馬の産駒はもっと成績が良いことが分かる。
(SiriusA+B)

2020年8月23日日曜日

第292夜 全体の数字を掴んでおく(続)

▼競走馬は何勝するのか
次に、競走馬について全体の数を示したい。
要点をまとめておくと、「7,000頭の同期、4,500頭のデビュー、1,500頭の勝馬」である。
概要を掴むという話題なので、外国産馬や障害競走からの出戻り、地方転厩馬の再出走などの枝葉はここでは無視しておく。

このブログで使用する「中央競馬2006-2018年平地競走完走馬」のデータでは、13年間で延べ620,722頭が出走・完走している。
この間に1度でも中央競馬平地競走を完走した馬は66,067頭である。
1
頭当たり平均して9.4回完走しているということである(620,722/66,067=9.4/)
この期間中に競走馬半生の大部分が入っている2004-2014年生まれに絞ると平均完走回数は10.1回だから、概ね10回と考えてよいだろう。
直感的にお分かりになると思うが、結果が出ないとわかると早々に退出する競走馬は多い。

サラブレッドの国内生産は、近年は年間7,000頭程度である。このうち中央競馬平地競走に出られるのはだいたい4,500頭だ。
ここまでは意外に高いハードルではないけれど、新馬戦、未勝利戦で勝ち上がるのは3頭に1頭くらいで、ちょっと走らせれば「ああ、勝ち上がるのは難しそうだな」と直ぐに分かってしまう。
したがって、平均回数周辺すなわち10回前後が「山」ではなく、3回走って、そこから10回走るまでに見切りをつけられていく。
10
回走るまでに同期の3分の2は退場する。
詳細は図表292-1を参照願いたい。

ところで、競走馬は何勝できるのだろうか。
図表292-2を参照いただきたい。
基本的に、3分の2の競走馬は未勝利となる。
同期4,500余頭のうち、3,000頭は勝利に縁がない。
残る1,500頭が1勝以上するのだ。
100
頭の同期がいるとしよう。
67
頭は未勝利に終わり、15頭が1勝、7頭が2勝、5頭が3勝、3頭が4勝、2頭が5勝し、6勝以上できるのは1頭となるのだ。
先ほどの「3分の210回以下で退場する」というのと符合する。

▼全体像がつかめると理解も早い
全体像が分かるということは地図を見て場所を探すのに似ている。
男女の脳は違うが、男性であればピンとくると思われる。
女性でも略地図をみる感じだといえばわかるだろう。
競馬の仕組みとその具体的な数字を知ったうえで戦うのと、闇雲に戦うのとでは結果の差異は大きい。
以前のブログ記事で、中央競馬平地競走を選抜されたエリートがそろう国体などではなくて、小学校の運動会に近い実力差と考えたほうが良いといった意味を分かってもらえると思う。
7,000
頭の同期の中で4,500頭が中央競馬で走るのだ、どれほどのエリートなのかわかるだろう。

一方、新型コロナウイルス感染症流行の混乱する社会の中で、統計学への理解や統計の威力と無力さを感じる機会は多かった。
統計学は予測に適しているが、プロでもなかなかうまく予測できないことが分かった。
東京と大阪の人口比率などを調べる人も多かった。
わたしが気になったのは、競馬以外の事柄だからといって、こうしたことに関心を持たなかった人と、「SiriusA+Bさんがいっていることはこういうことですよね」と言ってくれる人がいたことである。
書き物にすれば分からないが、前者タイプの人と後者タイプの人では相当な違いがある。
(SiriusA+B)


★図表292-1 生年別完走頭数及び完走回数

生年 頭数 完走回数 平均 1戦 2戦 3戦 4戦 5戦 6戦 7戦 8戦 9戦 10戦 11-15戦 16-20戦 21戦以上
1994年生 1 1 1.0 1 0 0 0 0 0 0 0 0 0 0 0 0
1995年生 1 2 2.0 0 1 0 0 0 0 0 0 0 0 0 0 0
1996年生 6 14 2.3 3 0 2 0 1 0 0 0 0 0 0 0 0
1997年生 29 157 5.4 6 4 2 2 4 3 3 1 0 0 2 2 0
1998年生 91 488 5.4 21 18 12 5 4 5 6 2 4 0 8 3 3
1999年生 300 1,987 6.6 44 44 21 29 23 20 17 21 10 12 36 15 8
2000年生 615 5,053 8.2 70 72 60 48 44 30 32 28 30 20 90 53 38
2001年生 1,104 10,929 9.9 119 108 89 63 54 61 63 45 43 29 178 121 131
2002年生 1,652 18,303 11.1 160 124 136 117 89 77 82 67 67 51 224 196 262
2003年生 4,223 39,733 9.4 387 437 528 366 302 307 220 163 161 102 421 287 542
2004年生 4,546 47,555 10.5 323 411 488 435 341 290 196 204 155 156 522 330 695
2005年生 4,575 47,467 10.4 366 456 430 384 333 289 236 211 205 138 508 341 678
2006年生 4,589 47,435 10.3 343 399 470 425 340 334 250 181 170 161 520 308 688
2007年生 4,598 47,604 10.4 323 445 433 391 380 352 258 210 160 144 498 282 722
2008年生 4,566 46,750 10.2 336 390 483 439 361 325 252 204 139 157 479 312 689
2009年生 4,678 48,972 10.5 272 472 489 401 380 330 300 182 166 153 454 327 752
2010年生 4,461 47,256 10.6 268 447 403 418 338 299 260 208 164 129 496 336 695
2011年生 4,509 48,274 10.7 235 396 462 415 352 348 246 229 166 131 472 329 728
2012年生 4,491 46,205 10.3 230 401 414 384 432 371 253 205 166 135 498 310 692
2013年生 4,586 42,885 9.4 236 418 441 421 452 359 249 208 183 149 559 378 533
2014年生 4,657 37,267 8.0 265 432 481 452 417 383 261 239 195 193 729 441 169
2015年生 4,635 28,147 6.1 267 453 534 519 549 511 390 385 271 193 492 69 2
2016年生 3,154 8,238 2.6 928 852 599 368 228 101 48 19 7 4 0 0 0
合計 66,067 620,722 9.4 5,203 6,780 6,977 6,082 5,424 4,795 3,622 3,012 2,462 2,057 7,186 4,440 8,027
2004-2014生まれの集計 50,256 507,670 10.1 3,197 4,667 4,994 4,565 4,126 3,680 2,761 2,281 1,869 1,646 5,735 3,694 7,041
2004-2014生まれの集計割合 6% 9% 10% 9% 8% 7% 5% 5% 4% 3% 11% 7% 14%
★図表292-2 生年別勝利回数
生年 頭数 完走回 勝利件数 勝率 勝馬頭 0勝馬 1勝馬 2勝馬 3勝馬 4勝馬 5勝馬 6勝以上馬 0勝馬 1勝馬 2勝馬 3勝馬 4勝馬 5勝馬 6勝以上馬
1994年生 1 1 0 0.0% 0 1 0 0 0 0 0 0 100% 0% 0% 0% 0% 0% 0%
1995年生 1 2 0 0.0% 0 1 0 0 0 0 0 0 100% 0% 0% 0% 0% 0% 0%
1996年生 6 14 0 0.0% 0 6 0 0 0 0 0 0 100% 0% 0% 0% 0% 0% 0%
1997年生 29 157 1 0.6% 1 28 1 0 0 0 0 0 97% 3% 0% 0% 0% 0% 0%
1998年生 91 488 9 1.8% 6 85 5 0 0 1 0 0 93% 5% 0% 0% 1% 0% 0%
1999年生 300 1,987 65 3.3% 53 247 42 10 1 0 0 0 82% 14% 3% 0% 0% 0% 0%
2000年生 615 5,053 216 4.3% 153 462 109 29 11 4 0 0 75% 18% 5% 2% 1% 0% 0%
2001年生 1,104 10,929 633 5.8% 393 711 234 112 25 15 4 3 64% 21% 10% 2% 1% 0% 0%
2002年生 1,652 18,303 1,155 6.3% 636 1,016 320 187 84 31 6 8 62% 19% 11% 5% 2% 0% 0%
2003年生 4,223 39,733 2,653 6.7% 1,300 2,923 638 273 222 100 34 33 69% 15% 6% 5% 2% 1% 1%
2004年生 4,546 47,555 3,345 7.0% 1,489 3,057 646 321 237 157 80 48 67% 14% 7% 5% 3% 2% 1%
2005年生 4,575 47,467 3,281 6.9% 1,511 3,064 705 300 236 154 72 44 67% 15% 7% 5% 3% 2% 1%
2006年生 4,589 47,435 3,321 7.0% 1,500 3,089 674 305 258 153 64 46 67% 15% 7% 6% 3% 1% 1%
2007年生 4,598 47,604 3,333 7.0% 1,488 3,110 664 313 242 121 94 54 68% 14% 7% 5% 3% 2% 1%
2008年生 4,566 46,750 3,308 7.1% 1,492 3,074 693 310 203 143 85 58 67% 15% 7% 4% 3% 2% 1%
2009年生 4,678 48,972 3,478 7.1% 1,497 3,181 625 313 246 176 83 54 68% 13% 7% 5% 4% 2% 1%
2010年生 4,461 47,256 3,205 6.8% 1,497 2,964 724 288 225 143 74 43 66% 16% 6% 5% 3% 2% 1%
2011年生 4,509 48,274 3,339 6.9% 1,498 3,011 670 299 258 145 80 46 67% 15% 7% 6% 3% 2% 1%
2012年生 4,491 46,205 3,275 7.1% 1,469 3,022 677 276 249 136 71 60 67% 15% 6% 6% 3% 2% 1%
2013年生 4,586 42,885 3,129 7.3% 1,487 3,099 708 312 228 139 60 40 68% 15% 7% 5% 3% 1% 1%
2014年生 4,657 37,267 2,807 7.5% 1,473 3,184 754 326 238 107 34 14 68% 16% 7% 5% 2% 1% 0%
2015年生 4,635 28,147 2,070 7.4% 1,451 3,184 989 340 93 25 2 2 69% 21% 7% 2% 1% 0% 0%
2016年生 3,154 8,238 635 7.7% 571 2,583 514 51 5 1 0 0 82% 16% 2% 0% 0% 0% 0%
合計 66,067 620,722 43,258 7.0% 20,965 45,102 10,392 4,365 3,061 1,751 843 553 68% 16% 7% 5% 3% 1% 1%
2004-2014生まれの集計 50,256 507,670 35,821 7.1% 16,401 33,855 7,540 3,363 2,620 1,574 797 507
2004-2014生まれの集計割合 67% 15% 7% 5% 3% 2% 1%

ブログ アーカイブ