競馬予想で夜更かし: 第239夜データベースの拡張

2019年5月26日日曜日

第239夜データベースの拡張

▼データベースの拡張
2006年から2014年までのブログ記事用のデータベースを2018年まで拡張するのに1年程を要した。
複数のデータ源からの新たな情報取得と、わたしの特殊なデータの持ち方が災いして手間がかかるのである。
有料データを購入しないセコさが貴重な時間を犠牲にした。
単純なデータ増を目指したわけではないこともある。
長期戦であった。
平凡な会社員ではあっても世間水準よりは仕事時間の長いわたしにとって、ある程度まとまった作業をするには計画を立てる必要がある。
そこで、平成から令和に時代が代わる連休期間をピークにするよう作業を進めてきていた。
それでも間に合わず、次の次の次の週末まで時間を要した。
ブログ記事も書けなかった。

ようやく完成したデータベースは膨大な情報量だ。
出走馬(中央競馬平地競走完走馬)の件数は62万件を超える。
旧データベースと接続すると言っても、新たな知見を元に必要と思って加えた情報がある。
市井の情報だけをツギハギしたものではない。
だからたいへんだったのだが、分析にも厚みが出るだろうと思う。
次の夜から新たな知見を加えて記事にしていく。

西暦	競走回数	エントリー延べ頭数(1)	うち、出走取消(2)	うち、競走除外(3)	出走延べ頭数(1)-(2)-(3)	出走実頭数	レース平均頭数	競走のうち平地競走回数	平地出走エントリー延べ頭数(1)	うち、出走取消(2)	うち、競走除外(3)	出走延べ頭数(1)-(2)-(3)	平均実出走頭数	障害競走回数
2006年	3,453	49,186	129	75	48,982	10,478	14.19	3,320	47,394	126	75	47,193	14.21	133
2007年	3,453	49,009	134	87	48,788	10,514	14.13	3,321	47,241	132	87	47,022	14.16	132
2008年	3,452	50,450	138	97	50,215	10,998	14.55	3,320	48,684	132	96	48,456	14.60	132
2009年	3,453	50,512	110	85	50,317	10,992	14.57	3,319	48,739	108	83	48,548	14.63	134
2010年	3,454	50,105	121	89	49,895	11,092	14.45	3,320	48,347	119	87	48,141	14.50	134
2011年	3,453	49,135	108	60	48,967	11,083	14.18	3,331	47,554	105	60	47,389	14.23	122
2012年	3,454	49,956	95	82	49,779	11,082	14.41	3,321	48,271	94	80	48,097	14.48	133
2013年	3,454	50,044	79	64	49,901	11,075	14.45	3,324	48,431	77	61	48,293	14.53	130
2014年	3,451	50,302	84	74	50,144	11,040	14.53	3,326	48,714	81	73	48,560	14.60	125
2015年	3,454	49,992	97	73	49,822	11,126	14.42	3,326	48,405	94	71	48,240	14.50	128
2016年	3,454	50,076	79	87	49,910	11,175	14.45	3,326	48,491	75	85	48,331	14.53	128
2017年	3,455	49,299	76	75	49,148	11,265	14.23	3,329	47,733	75	73	47,585	14.29	126
2018年	3,454	48,618	82	103	48,433	11,387	14.02	3,328	47,054	82	103	46,869	14.08	126
合計	44,894	646,684	1,332	1,051	644,301	143,307	14.35	43,211	625,058	1,300	1,034	622,724	14.41	1,683

▼適正なデータ量とは
このデータベースを眺めていて、いろいろ考えることがあった。
先ず、データ量が豊富なようでそうでもない、ということである。
60万件とはいえ、1頭あたりのデータ量は多い馬でも100件程度しかない。
それも稀だ。
デビュー早々に見切られてしまう馬も含むが、全馬単純平均で僅か5走くらいなのである。
馬個別の分析が「誤差レベル」であると痛感する。
次に感じたのが、着順など「相対的」データばかりであることだ。
走破タイムもコンディションに左右され、人間で言えば100メートル走決勝のような均質性はなく、マラソンのタイムのように同じタイムでもレース毎に評価が異なる。
順位を競うゲームであるからだ。

それでもタイム理論を信奉する人にも「やや朗報」はある。
以前に速度を用いて偏差値化したブログ記事を書いたが、データ期間が伸びても、前走で最も高い偏差値を出した馬の勝率はやはり約21%弱を維持した。
前走の偏差値そのまま(馬場やレベル等の「指数調整」なし。ただし、勝利馬より時速2km/hを超えるマイナスは一律に2km/h差としている)の単純比較なので、有効性は確認できた。
同様に、いくつか記事にしたことを検証してみたが、全般的に傾向は同じだった。
データ量が増えても結果が同じということは、サンプル数が充分である証左であると同時に、前段で触れた「1頭あたりのデータ量が少ない」ことも原因であると考えられる。
多くの馬でデビューから引退まで把握できればデータの長さは充分なのだろうと思ったりした。
そう考えると、ほぼ10年分あれば充分だろう。
8年は欲しい、5年では短いと思う。

▼長期データを扱うなら変動に対応を
データベースが長期間化すると、「固定的」としていた要素が永遠でないことを感じるようになる。
騎手も調教師も顔ぶれが変わるだけでなく、加齢により能力も変化する。
これは競走馬だけの話ではないということだ。
競馬番組のパターンや競馬場のコース、競馬の環境、制度やルールでさえ変わっていく。
長期のデータから学ぶことは、すべての要素で変化を前提にしておくことである。
加えて、「固定的な必勝法」は短命に終わるだろうという感覚である。

では、固定的でない必勝法とはどんなものか、思い巡らせてほしい。
競馬予想は「複雑系」であると思っている。
幹というか背骨になるような要素が無いまたは極めて弱い。
したがってできるだけ影響度の大きい複数の要素を組み合わせて考えることになるのだが、これを固定的に扱うと早々に「使えなく」なるのである。
例えば、
要素A60%+要素B25%+要素C15%+要素D0%
という予想公式を考えたとしよう。
出来上がってしばらくは通用するが、要素Aの影響度合いが低下してきたり、不要と思っていた要素Dが影響度を増したりするかもしれないということだ。
予想公式の変動の影響は大きいのである。
わたしの長い競馬経験でも、「騎手の時代」「調教師の時代」「生産者の時代」「外国産馬が席巻した時代」といった影響力の変化はあったように感じている。
主催者の控除率は25%程度あるので、収支をプラスにすることは非常に難しい。
必勝法は絶えず微妙なチューニングが必要なのではないかと思う。

最後にひと言加えさせていただくと、前走による予想は、例えばスピード指数でも上がり3ハロンでも賞金でも順位でも、20%を少し上回る程度の勝率しか見込めないようだ。
多少頑張っても25%に引き上げることすら容易ではない。
そう思っている。
(SiriusA+B)

2019年5月26日日曜日

第239夜 データベースの拡張

ブログ アーカイブ

第239夜データベースの拡張

ブログアーカイブ