2019年5月26日日曜日

第239夜 データベースの拡張


▼データベースの拡張
2006年から2014年までのブログ記事用のデータベースを2018年まで拡張するのに1年程を要した。

複数のデータ源からの新たな情報取得と、わたしの特殊なデータの持ち方が災いして手間がかかるのである。
有料データを購入しないセコさが貴重な時間を犠牲にした。
単純なデータ増を目指したわけではないこともある。
長期戦であった。
平凡な会社員ではあっても世間水準よりは仕事時間の長いわたしにとって、ある程度まとまった作業をするには計画を立てる必要がある。
そこで、平成から令和に時代が代わる連休期間をピークにするよう作業を進めてきていた。
それでも間に合わず、次の次の次の週末まで時間を要した。
ブログ記事も書けなかった。

ようやく完成したデータベースは膨大な情報量だ。
出走馬(中央競馬平地競走完走馬)の件数は62万件を超える。
旧データベースと接続すると言っても、新たな知見を元に必要と思って加えた情報がある。
市井の情報だけをツギハギしたものではない。
だからたいへんだったのだが、分析にも厚みが出るだろうと思う。
次の夜から新たな知見を加えて記事にしていく。

西暦 競走回数 エントリー延べ頭数(1) うち、出走取消(2) うち、競走除外(3) 出走延べ頭数(1)-(2)-(3) 出走実頭数 レース平均頭数 競走のうち平地競走回数 平地出走エントリー延べ頭数(1) うち、出走取消(2) うち、競走除外(3) 出走延べ頭数(1)-(2)-(3) 平均実出走頭数 障害競走回数
2006年 3,453 49,186 129 75 48,982 10,478 14.19 3,320 47,394 126 75 47,193 14.21 133
2007年 3,453 49,009 134 87 48,788 10,514 14.13 3,321 47,241 132 87 47,022 14.16 132
2008年 3,452 50,450 138 97 50,215 10,998 14.55 3,320 48,684 132 96 48,456 14.60 132
2009年 3,453 50,512 110 85 50,317 10,992 14.57 3,319 48,739 108 83 48,548 14.63 134
2010年 3,454 50,105 121 89 49,895 11,092 14.45 3,320 48,347 119 87 48,141 14.50 134
2011年 3,453 49,135 108 60 48,967 11,083 14.18 3,331 47,554 105 60 47,389 14.23 122
2012年 3,454 49,956 95 82 49,779 11,082 14.41 3,321 48,271 94 80 48,097 14.48 133
2013年 3,454 50,044 79 64 49,901 11,075 14.45 3,324 48,431 77 61 48,293 14.53 130
2014年 3,451 50,302 84 74 50,144 11,040 14.53 3,326 48,714 81 73 48,560 14.60 125
2015年 3,454 49,992 97 73 49,822 11,126 14.42 3,326 48,405 94 71 48,240 14.50 128
2016年 3,454 50,076 79 87 49,910 11,175 14.45 3,326 48,491 75 85 48,331 14.53 128
2017年 3,455 49,299 76 75 49,148 11,265 14.23 3,329 47,733 75 73 47,585 14.29 126
2018年 3,454 48,618 82 103 48,433 11,387 14.02 3,328 47,054 82 103 46,869 14.08 126
合計 44,894 646,684 1,332 1,051 644,301 143,307 14.35 43,211 625,058 1,300 1,034 622,724 14.41 1,683
▼適正なデータ量とは
このデータベースを眺めていて、いろいろ考えることがあった。
先ず、データ量が豊富なようでそうでもない、ということである。
60万件とはいえ、1頭あたりのデータ量は多い馬でも100件程度しかない。

それも稀だ。
デビュー早々に見切られてしまう馬も含むが、全馬単純平均で僅か5走くらいなのである。
馬個別の分析が「誤差レベル」であると痛感する。
次に感じたのが、着順など「相対的」データばかりであることだ。
走破タイムもコンディションに左右され、人間で言えば100メートル走決勝のような均質性はなく、マラソンのタイムのように同じタイムでもレース毎に評価が異なる。
順位を競うゲームであるからだ。

それでもタイム理論を信奉する人にも「やや朗報」はある。
以前に速度を用いて偏差値化したブログ記事を書いたが、データ期間が伸びても、前走で最も高い偏差値を出した馬の勝率はやはり約21%弱を維持した。
前走の偏差値そのまま(馬場やレベル等の「指数調整」なし。ただし、勝利馬より時速2km/hを超えるマイナスは一律に2km/h差としている)の単純比較なので、有効性は確認できた。
同様に、いくつか記事にしたことを検証してみたが、全般的に傾向は同じだった。
データ量が増えても結果が同じということは、サンプル数が充分である証左であると同時に、前段で触れた「1頭あたりのデータ量が少ない」ことも原因であると考えられる。
多くの馬でデビューから引退まで把握できればデータの長さは充分なのだろうと思ったりした。
そう考えると、ほぼ10年分あれば充分だろう。
8年は欲しい、5年では短いと思う。


▼長期データを扱うなら変動に対応を
データベースが長期間化すると、「固定的」としていた要素が永遠でないことを感じるようになる。
騎手も調教師も顔ぶれが変わるだけでなく、加齢により能力も変化する。
これは競走馬だけの話ではないということだ。
競馬番組のパターンや競馬場のコース、競馬の環境、制度やルールでさえ変わっていく。
長期のデータから学ぶことは、すべての要素で変化を前提にしておくことである。
加えて、「固定的な必勝法」は短命に終わるだろうという感覚である。

では、固定的でない必勝法とはどんなものか、思い巡らせてほしい。
競馬予想は「複雑系」であると思っている。
幹というか背骨になるような要素が無いまたは極めて弱い。
したがってできるだけ影響度の大きい複数の要素を組み合わせて考えることになるのだが、これを固定的に扱うと早々に「使えなく」なるのである。
例えば、
要素A60%+要素B25%+要素C15%+要素D0%
という予想公式を考えたとしよう。
出来上がってしばらくは通用するが、要素Aの影響度合いが低下してきたり、不要と思っていた要素Dが影響度を増したりするかもしれないということだ。
予想公式の変動の影響は大きいのである。
わたしの長い競馬経験でも、「騎手の時代」「調教師の時代」「生産者の時代」「外国産馬が席巻した時代」といった影響力の変化はあったように感じている。
主催者の控除率は25%程度あるので、収支をプラスにすることは非常に難しい。
必勝法は絶えず微妙なチューニングが必要なのではないかと思う。

最後にひと言加えさせていただくと、前走による予想は、例えばスピード指数でも上がり3ハロンでも賞金でも順位でも、20%を少し上回る程度の勝率しか見込めないようだ。
多少頑張っても25%に引き上げることすら容易ではない。
そう思っている。
(SiriusA+B)

ブログ アーカイブ