2018年9月23日日曜日

第212夜 基準速度加減予想法のつづきの話のつづき

▼騎手、厩舎
分析には細かいデータに分解するより、大きく括る方が良いように思う。
意外に思われる人もいるだろうが、サンプル数が多くなるほど数値が安定してくる。
40
万頭のデータを何百種類にも分けて、僅か50件しかない種類のデータにどのくらい信用が置けるか考えてみよう。
比率にして0.0125%である。
世間では粗っぽい分析でも誤差は2ないし3%、精密な分析なら0.1%以下だ。
誤差より小さな数字は、まさに「誤差」ではないか。
だから、種類は50種類か、できればもっと少ない方がいいと思うのである。

騎手や厩舎もまさにこのようなデータ群だ。
数が多い上、期間を長くとっても数十走しかデータのないものが少なくない。
あとは皆さんのノウハウ、アイディアが予測力の差を生むのだけれど、単純に騎手別、調教師別以外の工夫を考えたい。
「そんな分類でいいのか」という声も聞こえてきそうだが、「案外良いし、本質が見えてくる」という回答ができるだろう。

例えば、年齢、経験年数、出走回数、勝利数、勝率、連対率、性別(実際には女性のサンプルが少な過ぎて不可能)、過去の成績(着順、賞金)、東西地方外国などで分類することはすぐに頭に浮かぶだろう。
もっと斬新な切り口があればいいのだが、それはまた別の機会にと思う。

或いはやはり騎手個人別にしたいという人なら、上位30人から40人くらいを個人名にし、残りは何某かの分け方で23種類に分け(例えば東西所属など)「その他1」「その他2」などとするのもいい。
ここでは10年近いデータなので、騎手なら100人くらいでまとめた。
期間中に騎乗したのは467人、そのうち1,000騎乗回は95人である(ただし、2004年生まれ以降の馬しかサンプルにしないので該当騎手は429)
だいたい1,000走以上騎乗している。
残りは「その他」とした。
乱暴なようだが、以前申し上げた「80-20」の法則(まあ経験則だが)により、おそらく上位2割を確実に押さえれば、データはだいたい役に立つだろうと思うのである。
なお、下表では騎手名ではなく、わたし独自の番号とさせていただいた。

騎手番号 差異
958 +0.23
1003 +0.20
892 +0.21
1086 +0.03
722 +0.19
977 +0.41
1271 +0.38
936 -0.01
1192 +0.06
1179 +0.01
775 -0.02
1287 -0.07
757 +0.15
664 +0.26
1215 +0.35
1036 +0.01
1182 +0.08
625 +0.20
677 +0.21
1052 +0.21
720 +0.53
1187 +0.02
1239 +0.19
1235 -0.02
818 -0.28
1226 +0.08
1024 -0.29
596 +0.28
894 -0.03
821 +0.16
1230 +0.03
1060 +0.21
1050 +0.11
1022 -0.35
1311 +0.01
1296 +0.26
1270 +0.29
1305 -0.07
1221 -0.16
594 -0.06
1321 +0.18
1216 -0.15
1312 -0.04
1318 +0.12
1075 +0.23
851 +0.30
1010 -0.02
1001 -0.06
1047 -0.12
1039 +0.02
915 0.00
1242 +0.20
1277 -0.05
1218 -0.39
1084 +0.11
1145 0.00
1294 -0.13
1045 -0.01
673 -0.29
760 +0.44
934 +0.06
1252 -0.20
1217 -0.18
878 +0.17
1260 -0.16
456 +0.42
1328 +0.03
901 -0.65
1141 -0.69
1173 -0.32
1341 +0.16
1258 -0.14
1339 -0.28
1329 -0.14
742 +0.02
862 -0.59
1335 -0.12
1118 -0.15
1337 -0.17
1299 -0.08
1240 -0.31
1048 +0.10
1065 -0.57
1106 0.00
635 -0.25
967 -0.01
1056 +0.17
764 +0.05
412 -0.29
695 -0.09
919 +0.37
1292 -0.52
758 -0.28
1298 -0.52
1316 -0.36
9999 -0.36

厩舎(調教師)も同様に分類する。
調教師名も騎手と同様番号化させてもらった。
調師番号 差異
15 0.27
42 0.77
24 0.27
2 0.67
39 0.87
3 -0.03
77 -0.23
7 0.97
46 -0.33
45 0.37
56 -0.03
192 -0.13
4 0.37
67 -0.73
88 -0.63
33 0.17
52 0.17
61 0.47
29 0.27
6 0.47
12 -0.13
221 0.27
19 -0.13
20 0.07
1 0.17
49 0.17
60 0.57
63 0.37
31 0.17
23 0.67
100 0.17
55 0.17
79 -0.03
222 0.27
44 0.27
40 0.77
190 -0.03
58 -0.03
43 -0.43
8 0.07
133 0.47
108 0.17
53 0.37
98 0.67
65 -0.13
91 0.17
119 -0.03
16 0.17
37 0.17
73 -0.33
93 -0.33
163 -0.03
352 0.47
13 0.37
34 0.57
136 0.07
22 -0.13
9 0.07
80 0.17
66 -0.33
104 -0.43
18 0.47
51 -0.03
17 -0.03
41 0.57
28 0.07
109 0.07
97 0.27
143 -0.03
145 -0.53
116 -0.63
399 -0.13
207 0.17
5 -0.03
115 -0.33
122 -0.53
144 -0.13
57 0.77
32 0.07
86 -0.23
102 0.67
131 -0.03
11 0.47
198 0.07
196 -0.43
132 -0.43
82 0.07
85 -0.23
72 -0.33
159 -0.13
151 -0.23
138 -0.43
14 0.37
103 0.47
47 0.27
75 0.37
175 -0.73
107 -0.23
414 -0.23
389 0.07
120 -0.13
26 -0.23
118 -0.33
105 -0.43
59 0.27
150 -0.33
176 0.17
181 0.27
426 -0.13
419 0.47
54 -0.03
137 -0.33
160 0.07
78 -0.33
74 -0.03
36 -0.13
9999 -0.13

▼恒常的なものはない
ただ、特に、個人別のデータを使用し、サンプルデータ量確保のために長期間のデータを用いるとき、注意すべき点がある。
馬でもそうだが、騎手や調教師も「一定」ではないことだ。
人間にとって、5年、10年といった長さは、特に若い人には俄かに信じ難いだろうが、非常に大きく変化するものである。
若い人には経験がほとんどないからであり、おかしなことではない。
実感できない場合には、10年前の競走成績を見てみるとよい。
騎手、調教師ばかりか馬主や生産者もすべて、顔触れは違うし、同じ人でも実力が違うことを理解できるだろう。
半面、年配の予想者は、以前の活躍を知っており、ベテランの騎手や調教師を今の実力以上に見てしまう傾向がある。
この補正もした方がいいだろうと思う。
わたしなら年齢や経験年数を加味する。
次の夜に示すデータ群では騎手年齢を使う。
(SiriusA+B)

ブログ アーカイブ