▼データベースの拡張
2006年から2014年までのブログ記事用のデータベースを2018年まで拡張するのに1年程を要した。
複数のデータ源からの新たな情報取得と、わたしの特殊なデータの持ち方が災いして手間がかかるのである。
有料データを購入しないセコさが貴重な時間を犠牲にした。
単純なデータ増を目指したわけではないこともある。
長期戦であった。
平凡な会社員ではあっても世間水準よりは仕事時間の長いわたしにとって、ある程度まとまった作業をするには計画を立てる必要がある。
そこで、平成から令和に時代が代わる連休期間をピークにするよう作業を進めてきていた。
それでも間に合わず、次の次の次の週末まで時間を要した。
ブログ記事も書けなかった。
ようやく完成したデータベースは膨大な情報量だ。
出走馬(中央競馬平地競走完走馬)の件数は62万件を超える。
旧データベースと接続すると言っても、新たな知見を元に必要と思って加えた情報がある。
市井の情報だけをツギハギしたものではない。
だからたいへんだったのだが、分析にも厚みが出るだろうと思う。
次の夜から新たな知見を加えて記事にしていく。
西暦 | 競走回数 | エントリー延べ頭数(1) | うち、出走取消(2) | うち、競走除外(3) | 出走延べ頭数(1)-(2)-(3) | 出走実頭数 | レース平均頭数 | 競走のうち平地競走回数 | 平地出走エントリー延べ頭数(1) | うち、出走取消(2) | うち、競走除外(3) | 出走延べ頭数(1)-(2)-(3) | 平均実出走頭数 | 障害競走回数 |
2006年 | 3,453 | 49,186 | 129 | 75 | 48,982 | 10,478 | 14.19 | 3,320 | 47,394 | 126 | 75 | 47,193 | 14.21 | 133 |
2007年 | 3,453 | 49,009 | 134 | 87 | 48,788 | 10,514 | 14.13 | 3,321 | 47,241 | 132 | 87 | 47,022 | 14.16 | 132 |
2008年 | 3,452 | 50,450 | 138 | 97 | 50,215 | 10,998 | 14.55 | 3,320 | 48,684 | 132 | 96 | 48,456 | 14.60 | 132 |
2009年 | 3,453 | 50,512 | 110 | 85 | 50,317 | 10,992 | 14.57 | 3,319 | 48,739 | 108 | 83 | 48,548 | 14.63 | 134 |
2010年 | 3,454 | 50,105 | 121 | 89 | 49,895 | 11,092 | 14.45 | 3,320 | 48,347 | 119 | 87 | 48,141 | 14.50 | 134 |
2011年 | 3,453 | 49,135 | 108 | 60 | 48,967 | 11,083 | 14.18 | 3,331 | 47,554 | 105 | 60 | 47,389 | 14.23 | 122 |
2012年 | 3,454 | 49,956 | 95 | 82 | 49,779 | 11,082 | 14.41 | 3,321 | 48,271 | 94 | 80 | 48,097 | 14.48 | 133 |
2013年 | 3,454 | 50,044 | 79 | 64 | 49,901 | 11,075 | 14.45 | 3,324 | 48,431 | 77 | 61 | 48,293 | 14.53 | 130 |
2014年 | 3,451 | 50,302 | 84 | 74 | 50,144 | 11,040 | 14.53 | 3,326 | 48,714 | 81 | 73 | 48,560 | 14.60 | 125 |
2015年 | 3,454 | 49,992 | 97 | 73 | 49,822 | 11,126 | 14.42 | 3,326 | 48,405 | 94 | 71 | 48,240 | 14.50 | 128 |
2016年 | 3,454 | 50,076 | 79 | 87 | 49,910 | 11,175 | 14.45 | 3,326 | 48,491 | 75 | 85 | 48,331 | 14.53 | 128 |
2017年 | 3,455 | 49,299 | 76 | 75 | 49,148 | 11,265 | 14.23 | 3,329 | 47,733 | 75 | 73 | 47,585 | 14.29 | 126 |
2018年 | 3,454 | 48,618 | 82 | 103 | 48,433 | 11,387 | 14.02 | 3,328 | 47,054 | 82 | 103 | 46,869 | 14.08 | 126 |
合計 | 44,894 | 646,684 | 1,332 | 1,051 | 644,301 | 143,307 | 14.35 | 43,211 | 625,058 | 1,300 | 1,034 | 622,724 | 14.41 | 1,683 |
このデータベースを眺めていて、いろいろ考えることがあった。
先ず、データ量が豊富なようでそうでもない、ということである。
60万件とはいえ、1頭あたりのデータ量は多い馬でも100件程度しかない。
それも稀だ。
デビュー早々に見切られてしまう馬も含むが、全馬単純平均で僅か5走くらいなのである。
馬個別の分析が「誤差レベル」であると痛感する。
次に感じたのが、着順など「相対的」データばかりであることだ。
走破タイムもコンディションに左右され、人間で言えば100メートル走決勝のような均質性はなく、マラソンのタイムのように同じタイムでもレース毎に評価が異なる。
順位を競うゲームであるからだ。
それでもタイム理論を信奉する人にも「やや朗報」はある。
以前に速度を用いて偏差値化したブログ記事を書いたが、データ期間が伸びても、前走で最も高い偏差値を出した馬の勝率はやはり約21%弱を維持した。
前走の偏差値そのまま(馬場やレベル等の「指数調整」なし。ただし、勝利馬より時速2km/hを超えるマイナスは一律に2km/h差としている)の単純比較なので、有効性は確認できた。
同様に、いくつか記事にしたことを検証してみたが、全般的に傾向は同じだった。
データ量が増えても結果が同じということは、サンプル数が充分である証左であると同時に、前段で触れた「1頭あたりのデータ量が少ない」ことも原因であると考えられる。
多くの馬でデビューから引退まで把握できればデータの長さは充分なのだろうと思ったりした。
そう考えると、ほぼ10年分あれば充分だろう。
8年は欲しい、5年では短いと思う。
▼長期データを扱うなら変動に対応を
データベースが長期間化すると、「固定的」としていた要素が永遠でないことを感じるようになる。
騎手も調教師も顔ぶれが変わるだけでなく、加齢により能力も変化する。
これは競走馬だけの話ではないということだ。
競馬番組のパターンや競馬場のコース、競馬の環境、制度やルールでさえ変わっていく。
長期のデータから学ぶことは、すべての要素で変化を前提にしておくことである。
加えて、「固定的な必勝法」は短命に終わるだろうという感覚である。
では、固定的でない必勝法とはどんなものか、思い巡らせてほしい。
競馬予想は「複雑系」であると思っている。
幹というか背骨になるような要素が無いまたは極めて弱い。
したがってできるだけ影響度の大きい複数の要素を組み合わせて考えることになるのだが、これを固定的に扱うと早々に「使えなく」なるのである。
例えば、
要素A60%+要素B25%+要素C15%+要素D0%
という予想公式を考えたとしよう。
出来上がってしばらくは通用するが、要素Aの影響度合いが低下してきたり、不要と思っていた要素Dが影響度を増したりするかもしれないということだ。
予想公式の変動の影響は大きいのである。
わたしの長い競馬経験でも、「騎手の時代」「調教師の時代」「生産者の時代」「外国産馬が席巻した時代」といった影響力の変化はあったように感じている。
主催者の控除率は25%程度あるので、収支をプラスにすることは非常に難しい。
必勝法は絶えず微妙なチューニングが必要なのではないかと思う。
最後にひと言加えさせていただくと、前走による予想は、例えばスピード指数でも上がり3ハロンでも賞金でも順位でも、20%を少し上回る程度の勝率しか見込めないようだ。
多少頑張っても25%に引き上げることすら容易ではない。
そう思っている。
(SiriusA+B)