2018年9月30日日曜日

第213夜 基準速度加減予想法の最後の話

▼データを代入
前夜まで、基準速度のほか、天候・馬場差、コース差、騎手差、騎手年齢差、厩舎差の加減要素を例示した。
冒頭に、前夜に示していなかった騎手年齢別増減を示す。
年齢はバリエーションが多いので対数にして5段階にしている(指数43は存在するが42に統合した)
表計算ソフトでは、日齢をLOG10という関数で区分する。
年齢が高いほど引退してサンプルが少なくなるからちょうど良い調整になる。
騎手年齢対数 差異
38 -0.16
39 -0.01
40 -0.02
41 +0.07
42 +0.19

加減要素は各自が最も有効と思うものを選べばよい。
計算式にすれば、今回の要素では、
指数=基準速度+天候・馬場差+コース差+騎手差+騎手年齢差+厩舎差
となる。
これを代入すればいいのだ。
新馬戦でも同様に代入すれば一応予想ができるだろう。
ちなみに騎手年齢を対数にすると、年齢が高くなるほど速度を上げていくことがわかる。
名手ほど引退時期が遅くなることを反映していると思われる。
グラフにすれば「V」の字になるのはそういうことではないだろうか。

▼疑問点、脆弱な点
以上のように基準速度加減予想法では前走の実績をもとに予想するものではないことをご理解いただけたと思う。
では、この予想法が完璧なものであるかというとそんなことはない。
データの精度を上げても、的中率は上がらないと思っている。これには2つの理由があって、やはり速度理論というのは限界があることと、もう一つは個体の差というものが反映しにくい点にある。
ただ、個体の差については多少なりとも解決策があり、解決策というよりもこの指数の心臓部、個体差を盛り込めば相当程度の改善が見込まれる。
これには過去のレースでその馬が出すべき指数と実際の差異を用いるが、ここでは記さずにおく。
表計算ソフトをここまで使いこなせれば、おそらく簡単に独自開発できるであろうからである。
今夜は短くて申し訳ない。
前回書ききれなかったからである。
(SiriusA+B)

2018年9月23日日曜日

第212夜 基準速度加減予想法のつづきの話のつづき

▼騎手、厩舎
分析には細かいデータに分解するより、大きく括る方が良いように思う。
意外に思われる人もいるだろうが、サンプル数が多くなるほど数値が安定してくる。
40
万頭のデータを何百種類にも分けて、僅か50件しかない種類のデータにどのくらい信用が置けるか考えてみよう。
比率にして0.0125%である。
世間では粗っぽい分析でも誤差は2ないし3%、精密な分析なら0.1%以下だ。
誤差より小さな数字は、まさに「誤差」ではないか。
だから、種類は50種類か、できればもっと少ない方がいいと思うのである。

騎手や厩舎もまさにこのようなデータ群だ。
数が多い上、期間を長くとっても数十走しかデータのないものが少なくない。
あとは皆さんのノウハウ、アイディアが予測力の差を生むのだけれど、単純に騎手別、調教師別以外の工夫を考えたい。
「そんな分類でいいのか」という声も聞こえてきそうだが、「案外良いし、本質が見えてくる」という回答ができるだろう。

例えば、年齢、経験年数、出走回数、勝利数、勝率、連対率、性別(実際には女性のサンプルが少な過ぎて不可能)、過去の成績(着順、賞金)、東西地方外国などで分類することはすぐに頭に浮かぶだろう。
もっと斬新な切り口があればいいのだが、それはまた別の機会にと思う。

或いはやはり騎手個人別にしたいという人なら、上位30人から40人くらいを個人名にし、残りは何某かの分け方で23種類に分け(例えば東西所属など)「その他1」「その他2」などとするのもいい。
ここでは10年近いデータなので、騎手なら100人くらいでまとめた。
期間中に騎乗したのは467人、そのうち1,000騎乗回は95人である(ただし、2004年生まれ以降の馬しかサンプルにしないので該当騎手は429)
だいたい1,000走以上騎乗している。
残りは「その他」とした。
乱暴なようだが、以前申し上げた「80-20」の法則(まあ経験則だが)により、おそらく上位2割を確実に押さえれば、データはだいたい役に立つだろうと思うのである。
なお、下表では騎手名ではなく、わたし独自の番号とさせていただいた。

騎手番号 差異
958 +0.23
1003 +0.20
892 +0.21
1086 +0.03
722 +0.19
977 +0.41
1271 +0.38
936 -0.01
1192 +0.06
1179 +0.01
775 -0.02
1287 -0.07
757 +0.15
664 +0.26
1215 +0.35
1036 +0.01
1182 +0.08
625 +0.20
677 +0.21
1052 +0.21
720 +0.53
1187 +0.02
1239 +0.19
1235 -0.02
818 -0.28
1226 +0.08
1024 -0.29
596 +0.28
894 -0.03
821 +0.16
1230 +0.03
1060 +0.21
1050 +0.11
1022 -0.35
1311 +0.01
1296 +0.26
1270 +0.29
1305 -0.07
1221 -0.16
594 -0.06
1321 +0.18
1216 -0.15
1312 -0.04
1318 +0.12
1075 +0.23
851 +0.30
1010 -0.02
1001 -0.06
1047 -0.12
1039 +0.02
915 0.00
1242 +0.20
1277 -0.05
1218 -0.39
1084 +0.11
1145 0.00
1294 -0.13
1045 -0.01
673 -0.29
760 +0.44
934 +0.06
1252 -0.20
1217 -0.18
878 +0.17
1260 -0.16
456 +0.42
1328 +0.03
901 -0.65
1141 -0.69
1173 -0.32
1341 +0.16
1258 -0.14
1339 -0.28
1329 -0.14
742 +0.02
862 -0.59
1335 -0.12
1118 -0.15
1337 -0.17
1299 -0.08
1240 -0.31
1048 +0.10
1065 -0.57
1106 0.00
635 -0.25
967 -0.01
1056 +0.17
764 +0.05
412 -0.29
695 -0.09
919 +0.37
1292 -0.52
758 -0.28
1298 -0.52
1316 -0.36
9999 -0.36

厩舎(調教師)も同様に分類する。
調教師名も騎手と同様番号化させてもらった。
調師番号 差異
15 0.27
42 0.77
24 0.27
2 0.67
39 0.87
3 -0.03
77 -0.23
7 0.97
46 -0.33
45 0.37
56 -0.03
192 -0.13
4 0.37
67 -0.73
88 -0.63
33 0.17
52 0.17
61 0.47
29 0.27
6 0.47
12 -0.13
221 0.27
19 -0.13
20 0.07
1 0.17
49 0.17
60 0.57
63 0.37
31 0.17
23 0.67
100 0.17
55 0.17
79 -0.03
222 0.27
44 0.27
40 0.77
190 -0.03
58 -0.03
43 -0.43
8 0.07
133 0.47
108 0.17
53 0.37
98 0.67
65 -0.13
91 0.17
119 -0.03
16 0.17
37 0.17
73 -0.33
93 -0.33
163 -0.03
352 0.47
13 0.37
34 0.57
136 0.07
22 -0.13
9 0.07
80 0.17
66 -0.33
104 -0.43
18 0.47
51 -0.03
17 -0.03
41 0.57
28 0.07
109 0.07
97 0.27
143 -0.03
145 -0.53
116 -0.63
399 -0.13
207 0.17
5 -0.03
115 -0.33
122 -0.53
144 -0.13
57 0.77
32 0.07
86 -0.23
102 0.67
131 -0.03
11 0.47
198 0.07
196 -0.43
132 -0.43
82 0.07
85 -0.23
72 -0.33
159 -0.13
151 -0.23
138 -0.43
14 0.37
103 0.47
47 0.27
75 0.37
175 -0.73
107 -0.23
414 -0.23
389 0.07
120 -0.13
26 -0.23
118 -0.33
105 -0.43
59 0.27
150 -0.33
176 0.17
181 0.27
426 -0.13
419 0.47
54 -0.03
137 -0.33
160 0.07
78 -0.33
74 -0.03
36 -0.13
9999 -0.13

▼恒常的なものはない
ただ、特に、個人別のデータを使用し、サンプルデータ量確保のために長期間のデータを用いるとき、注意すべき点がある。
馬でもそうだが、騎手や調教師も「一定」ではないことだ。
人間にとって、5年、10年といった長さは、特に若い人には俄かに信じ難いだろうが、非常に大きく変化するものである。
若い人には経験がほとんどないからであり、おかしなことではない。
実感できない場合には、10年前の競走成績を見てみるとよい。
騎手、調教師ばかりか馬主や生産者もすべて、顔触れは違うし、同じ人でも実力が違うことを理解できるだろう。
半面、年配の予想者は、以前の活躍を知っており、ベテランの騎手や調教師を今の実力以上に見てしまう傾向がある。
この補正もした方がいいだろうと思う。
わたしなら年齢や経験年数を加味する。
次の夜に示すデータ群では騎手年齢を使う。
(SiriusA+B)

2018年9月16日日曜日

第211夜 基準速度加減予想法のつづきの話

▼加減データの作成
前夜より続く。
基準速度は、中央競馬平地競走完走馬全馬の平均速度で、集計期間によるがだいたい58km/hくらいだと述べた(このブログ用データの場合58.53km/h)

これに、いくつかの要素で速度の増減をしていく。
その要素にはセンスも問われるが、いくつか基礎的なものを挙げてみる。

▼天候・馬場
2
つのコース、4つの馬場状態、6つの天気で48種類に区分される。
ちょっと多いが、実質は32種類で分析できる。
コースは芝・ダートである。
馬場状態は水分含有率により良・稍重・重・不良に区分される。
天候は晴、曇、小雨、雨がほとんどだが、小雪、雪がある。

芝コースでは水分含有率が高くなるほど速度は低下し、ダートでは速度が高くなる。
多くの競馬投票者はご存知のとおりであるが、このブログをご覧の方には、芝の場合「晴・良」が最速とは限らず「曇・良」が最速ということもあること、ダートは「不良」ではなく「重」が最速であることもご記憶されているかもしれない。
実際に集計すればすぐにわかる。
わたしのブログ用の古いデータベースでは次のとおりだった。



天候馬場 天候・馬場差
芝 晴・良 1.34
芝 晴・稍 0.78
芝 晴・重 0.12
芝 晴・不 -0.13
芝 曇・良 1.33
芝 曇・稍 0.89
芝 曇・重 0.23
芝 曇・不 -0.69
芝 小雨・良 1.12
芝 小雨・稍 0.38
芝 小雨・重 -0.10
芝 小雨・不 -1.32
芝 雨・良 1.09
芝 雨・稍 0.46
芝 雨・重 0.11
芝 雨・不 -1.06
芝 小雪・良 1.36
芝 小雪・稍 0.82
芝 小雪・重 0.00
芝 小雪・不 -
芝 雪・良 0.06
芝 雪・稍 0.70
芝 雪・重 -
芝 雪・不 -
天候馬場 天候・馬場差
ダ 晴・良 -1.34
ダ 晴・稍 -1.22
ダ 晴・重 -0.91
ダ 晴・不 -0.87
ダ 曇・良 -1.33
ダ 曇・稍 -1.13
ダ 曇・重 -0.49
ダ 曇・不 -0.41
ダ 小雨・良 -1.30
ダ 小雨・稍 -0.96
ダ 小雨・重 -0.78
ダ 小雨・不 -0.60
ダ 雨・良 -1.43
ダ 雨・稍 -0.79
ダ 雨・重 -0.42
ダ 雨・不 -0.65
ダ 小雪・良 -2.17
ダ 小雪・稍 -2.17
ダ 小雪・重 1.06
ダ 小雪・不 -
ダ 雪・良 -0.92
ダ 雪・稍 -2.91
ダ 雪・重 -3.15
ダ 雪・不 -

天候別に完走頭数、時速合計を集計し、それぞれ平均速度を計算する。
全体の平均は、まさに基準速度なのだが、平均との差をそれぞれ求める。
この求めた差を、今後予測する際に利用するのだ。
仮称して「天候・馬場差」としよう。

▼コース
前項のようにさまざまな要素で差を求めていく。
コースについては、「芝・芝外・ダート」と「競馬場」「競走距離」の別がある。
ここでは一括りにする。
実は競走距離が問題で、1,600m2,000mはよくあるが、1,300m1,150m3,200mはひとつしかない。
ひとつであれば、競馬場の特性とうまく分離ができない。
それで競馬場と競走距離をセットにした分析が良かろうと考えたのである。
もし競馬場を分けて考えたいという人がいるようなら、競馬場を芝とダートに分けるのではなく、芝内、芝外、ダートと3つにするのもご検討いただきたい。
コース形状は走破タイムに大きな影響を及ぼすからである。
このことは第110夜で少し触れた。

競走条件 コース差
札幌1200芝 2.32
札幌1700ダ -1.97
函館1200芝 2.01
函館1700ダ -1.97
福島1150ダ 0.32
福島1200芝 2.58
福島1700ダ -2.20
福島1800芝 0.22
新潟1000芝 5.05
新潟1200ダ 0.23
新潟1400芝 1.86
新潟1600芝外 1.34
新潟1800芝外 0.82
新潟1800ダ -2.52
東京1300ダ -0.65
東京1400芝 1.71
東京1400ダ -0.75
東京1600芝 1.35
東京1600ダ -0.93
東京1800芝 0.50
東京2000芝 0.06
中山1200芝外 3.17
中山1200ダ 0.04
中山1600芝外 1.05
中山1800芝 -0.23
中山1800ダ -3.34
中山2000芝 -0.47
中京1200芝 2.72
中京1700ダ -2.16
中京2000芝 -0.44
京都1200芝 3.33
京都1200ダ 0.00
京都1400ダ -0.33
京都1600芝 0.94
京都1800芝外 0.61
京都1800ダ -2.22
京都2000芝 0.01
阪神1200ダ -0.12
阪神1400芝 2.08
阪神1400ダ -0.28
阪神1600芝外 1.20
阪神1800芝外 0.87
阪神1800ダ -2.53
小倉1000ダ 1.30
小倉1200芝 3.19
小倉1700ダ -1.69
小倉1800芝 0.60
小倉2000芝 0.36

ちょっと書き記す量が多そうだ。
次の夜にも続けることにしたい。
(SiriusA+B)

ブログ アーカイブ