分析には細かいデータに分解するより、大きく括る方が良いように思う。
意外に思われる人もいるだろうが、サンプル数が多くなるほど数値が安定してくる。
40万頭のデータを何百種類にも分けて、僅か50件しかない種類のデータにどのくらい信用が置けるか考えてみよう。
比率にして0.0125%である。
世間では粗っぽい分析でも誤差は2ないし3%、精密な分析なら0.1%以下だ。
誤差より小さな数字は、まさに「誤差」ではないか。
だから、種類は50種類か、できればもっと少ない方がいいと思うのである。
騎手や厩舎もまさにこのようなデータ群だ。
数が多い上、期間を長くとっても数十走しかデータのないものが少なくない。
あとは皆さんのノウハウ、アイディアが予測力の差を生むのだけれど、単純に騎手別、調教師別以外の工夫を考えたい。
「そんな分類でいいのか」という声も聞こえてきそうだが、「案外良いし、本質が見えてくる」という回答ができるだろう。
例えば、年齢、経験年数、出走回数、勝利数、勝率、連対率、性別(実際には女性のサンプルが少な過ぎて不可能)、過去の成績(着順、賞金)、東西地方外国などで分類することはすぐに頭に浮かぶだろう。
もっと斬新な切り口があればいいのだが、それはまた別の機会にと思う。
或いはやはり騎手個人別にしたいという人なら、上位30人から40人くらいを個人名にし、残りは何某かの分け方で2、3種類に分け(例えば東西所属など)「その他1」「その他2」などとするのもいい。
ここでは10年近いデータなので、騎手なら100人くらいでまとめた。
期間中に騎乗したのは467人、そのうち1,000騎乗回は95人である(ただし、2004年生まれ以降の馬しかサンプルにしないので該当騎手は429人)。
だいたい1,000走以上騎乗している。
残りは「その他」とした。
乱暴なようだが、以前申し上げた「80-20」の法則(まあ経験則だが)により、おそらく上位2割を確実に押さえれば、データはだいたい役に立つだろうと思うのである。
なお、下表では騎手名ではなく、わたし独自の番号とさせていただいた。
騎手番号 | 差異 |
958 | +0.23 |
1003 | +0.20 |
892 | +0.21 |
1086 | +0.03 |
722 | +0.19 |
977 | +0.41 |
1271 | +0.38 |
936 | -0.01 |
1192 | +0.06 |
1179 | +0.01 |
775 | -0.02 |
1287 | -0.07 |
757 | +0.15 |
664 | +0.26 |
1215 | +0.35 |
1036 | +0.01 |
1182 | +0.08 |
625 | +0.20 |
677 | +0.21 |
1052 | +0.21 |
720 | +0.53 |
1187 | +0.02 |
1239 | +0.19 |
1235 | -0.02 |
818 | -0.28 |
1226 | +0.08 |
1024 | -0.29 |
596 | +0.28 |
894 | -0.03 |
821 | +0.16 |
1230 | +0.03 |
1060 | +0.21 |
1050 | +0.11 |
1022 | -0.35 |
1311 | +0.01 |
1296 | +0.26 |
1270 | +0.29 |
1305 | -0.07 |
1221 | -0.16 |
594 | -0.06 |
1321 | +0.18 |
1216 | -0.15 |
1312 | -0.04 |
1318 | +0.12 |
1075 | +0.23 |
851 | +0.30 |
1010 | -0.02 |
1001 | -0.06 |
1047 | -0.12 |
1039 | +0.02 |
915 | 0.00 |
1242 | +0.20 |
1277 | -0.05 |
1218 | -0.39 |
1084 | +0.11 |
1145 | 0.00 |
1294 | -0.13 |
1045 | -0.01 |
673 | -0.29 |
760 | +0.44 |
934 | +0.06 |
1252 | -0.20 |
1217 | -0.18 |
878 | +0.17 |
1260 | -0.16 |
456 | +0.42 |
1328 | +0.03 |
901 | -0.65 |
1141 | -0.69 |
1173 | -0.32 |
1341 | +0.16 |
1258 | -0.14 |
1339 | -0.28 |
1329 | -0.14 |
742 | +0.02 |
862 | -0.59 |
1335 | -0.12 |
1118 | -0.15 |
1337 | -0.17 |
1299 | -0.08 |
1240 | -0.31 |
1048 | +0.10 |
1065 | -0.57 |
1106 | 0.00 |
635 | -0.25 |
967 | -0.01 |
1056 | +0.17 |
764 | +0.05 |
412 | -0.29 |
695 | -0.09 |
919 | +0.37 |
1292 | -0.52 |
758 | -0.28 |
1298 | -0.52 |
1316 | -0.36 |
9999 | -0.36 |
厩舎(調教師)も同様に分類する。
調教師名も騎手と同様番号化させてもらった。
調師番号 | 差異 |
15 | 0.27 |
42 | 0.77 |
24 | 0.27 |
2 | 0.67 |
39 | 0.87 |
3 | -0.03 |
77 | -0.23 |
7 | 0.97 |
46 | -0.33 |
45 | 0.37 |
56 | -0.03 |
192 | -0.13 |
4 | 0.37 |
67 | -0.73 |
88 | -0.63 |
33 | 0.17 |
52 | 0.17 |
61 | 0.47 |
29 | 0.27 |
6 | 0.47 |
12 | -0.13 |
221 | 0.27 |
19 | -0.13 |
20 | 0.07 |
1 | 0.17 |
49 | 0.17 |
60 | 0.57 |
63 | 0.37 |
31 | 0.17 |
23 | 0.67 |
100 | 0.17 |
55 | 0.17 |
79 | -0.03 |
222 | 0.27 |
44 | 0.27 |
40 | 0.77 |
190 | -0.03 |
58 | -0.03 |
43 | -0.43 |
8 | 0.07 |
133 | 0.47 |
108 | 0.17 |
53 | 0.37 |
98 | 0.67 |
65 | -0.13 |
91 | 0.17 |
119 | -0.03 |
16 | 0.17 |
37 | 0.17 |
73 | -0.33 |
93 | -0.33 |
163 | -0.03 |
352 | 0.47 |
13 | 0.37 |
34 | 0.57 |
136 | 0.07 |
22 | -0.13 |
9 | 0.07 |
80 | 0.17 |
66 | -0.33 |
104 | -0.43 |
18 | 0.47 |
51 | -0.03 |
17 | -0.03 |
41 | 0.57 |
28 | 0.07 |
109 | 0.07 |
97 | 0.27 |
143 | -0.03 |
145 | -0.53 |
116 | -0.63 |
399 | -0.13 |
207 | 0.17 |
5 | -0.03 |
115 | -0.33 |
122 | -0.53 |
144 | -0.13 |
57 | 0.77 |
32 | 0.07 |
86 | -0.23 |
102 | 0.67 |
131 | -0.03 |
11 | 0.47 |
198 | 0.07 |
196 | -0.43 |
132 | -0.43 |
82 | 0.07 |
85 | -0.23 |
72 | -0.33 |
159 | -0.13 |
151 | -0.23 |
138 | -0.43 |
14 | 0.37 |
103 | 0.47 |
47 | 0.27 |
75 | 0.37 |
175 | -0.73 |
107 | -0.23 |
414 | -0.23 |
389 | 0.07 |
120 | -0.13 |
26 | -0.23 |
118 | -0.33 |
105 | -0.43 |
59 | 0.27 |
150 | -0.33 |
176 | 0.17 |
181 | 0.27 |
426 | -0.13 |
419 | 0.47 |
54 | -0.03 |
137 | -0.33 |
160 | 0.07 |
78 | -0.33 |
74 | -0.03 |
36 | -0.13 |
9999 | -0.13 |
▼恒常的なものはない
ただ、特に、個人別のデータを使用し、サンプルデータ量確保のために長期間のデータを用いるとき、注意すべき点がある。
馬でもそうだが、騎手や調教師も「一定」ではないことだ。
人間にとって、5年、10年といった長さは、特に若い人には俄かに信じ難いだろうが、非常に大きく変化するものである。
若い人には経験がほとんどないからであり、おかしなことではない。
実感できない場合には、10年前の競走成績を見てみるとよい。
騎手、調教師ばかりか馬主や生産者もすべて、顔触れは違うし、同じ人でも実力が違うことを理解できるだろう。
半面、年配の予想者は、以前の活躍を知っており、ベテランの騎手や調教師を今の実力以上に見てしまう傾向がある。
この補正もした方がいいだろうと思う。
わたしなら年齢や経験年数を加味する。
次の夜に示すデータ群では騎手年齢を使う。
(SiriusA+B)