2019年4月1日月曜日

第235夜 データの取り扱い講義――騎手を要素に分解する(3)


▼騎乗回数
実戦こそ最高の練習であるとすれば、騎乗回数の多さは騎手の能力に影響を与える。
問題は、集計するのに通算騎乗回数を使うか、一定期間の騎乗回数を使うか、どちらが良いかということだ。
良し悪しというのは自分の組み立てるデータ群の中での予想的中率に対する貢献度合いの高さである。
したがって絶対的な基準ではないので、考え方により正解は変わってくるのだが、わたしの場合は一定期間の騎乗回数を使うほうを選ぶ。
理由としてふたつある。
まず、長期間のデータでは騎乗環境が変わることである。
参加する騎手の数、海外地方騎手参戦状況、所属厩舎徒弟制度など騎乗回数に影響を及ぼす要素がある。
次に、通算騎乗回数には時間性を持たせられないことである。
基本的に、騎乗回数が増加するほど成績は向上するものと予測はできる。
当然に、騎手の年齢が高くなるにつれて、通算騎乗回数は増えていく。
ところが、騎手により騎乗回数を積み上げるペースは大きく異なる。
112騎乗なら一流騎手の1年分の騎乗回数に数年かかる計算だ。

通算騎乗回数で成績をみると、1万回騎乗したとしても、10年で到達したのか、25年かかって到達したのかで、かなり意味合いが違う。
騎手がピークを過ぎれば勝率は伸びないか下がってくる。
8,000回の段階でピーク迎えるか、40,000回の段階であるかしれない。

これが、通算だと上手く反映しないのである。

わたしは、期間を区切り、過去1年間の騎乗回数を利用するのが良いと考えている。
騎手を取り巻く環境は1年でも大きく変わるし、長期間過ぎると新人の成長や騎手の衰えを反映しにくくなる。
個別に調べると凹凸はあるけれど、マクロ的にみれば、騎乗回数の多い騎手はやはり上手いのだろう、ある程度騎手の上手さと直近の騎乗回数に相関性はある(騎乗依頼者との関係といった要素は無視できない大きさにせよ)
この相関性こそ求めようとしているものなのだ。
騎乗停止や怪我による戦線離脱は、1年間のデータでは影響が強く出過ぎるとも思うが、この辺りはもう少し研究していく必要があろう。


直近1年間出走回数 件数 勝利数 勝率
200回未満 51,095 2,198 4.3
300回未満 24,667 1,065 4.3
400回未満 30,157 1,428 4.7
500回未満 42,083 2,355 5.6
600回未満 45,038 3,028 6.7
700回未満 58,538 4,251 7.3
800回未満 63,409 5,588 8.8
800回超 68,242 6,697 9.8

ところで、表計算ソフトで期間中のデータを抽出することができない人は少なくないと聞く。
最近は、Excelでも強力な関数が実装されており、使いこなせば簡単に計算できるようになっている。
表現しにくいが、以下の例はどうだろう。
簡単な、それでいて充分な方法である。

行列|A列|B列|C列|
1行|行先|日付|客数|
2行|青森|11|35|
3行|沖縄|11|48|
4行|沖縄|14|40|
5行|沖縄|17|33|
6行|青森|18|45|
7行|沖縄|18|30|
8行|沖縄|21|33|
9行|沖縄|24|36|

以上の表で「中旬に沖縄便の客数」は、次の計算式で求められる。
=sumifs(C:C,A:A,”沖縄“,B:B,>10,B:B,<21)
B列すなわち日付を「10日超」「21日未満」と2回条件を付けたところがミソである。

技術というより工夫である。
「あ!」と膝を叩いた人がいたら嬉しい話だ。
案外こういう計算式が浮かんでこないものだ。
この例では、3457行目のC列のセルを計算するはずで、48+40+33+30=151と答えが出るだろう。

同様に、「中旬に沖縄便」の回数は次の計算式で求められる。
=countifs(A:A,”沖縄“,B:B,>10,B:B,<21)
答えは4である。
ということで「中旬に沖縄便の平均客数」は151/4で、37.75である。
(SiriusA+B)

ブログ アーカイブ