2019年3月21日木曜日

第234夜 データの取り扱い講義――騎手を要素に分解する(2)



▼騎手のデータベース
では、具体的に、騎手をいくつかの要素に分解してみたい。

要素といっても、手綱捌きとか、コース取りとかいった技量を測る術はない。
そこで、様々な角度で計測可能な要素を拾っていく。
わたしの思いつくままに記すと、以下のような要素があるだろう。
1、騎手年齢

2、騎乗回数

3、勝利回数

4、所属

5、平均獲得賞金

6、騎乗レースの平均優勝賞金

7、コンビ経験

8、乗り替わり


これらを分析していくわけだが、その前に騎手のデータベースを作る必要がある。
競走成績にこのデータを移植するのだ。

具体的に言うと、表計算ソフトであれば、騎手データベースという表を作る。
|騎手番号|騎手名|性別|生年月日|所属|初騎乗日|初勝利日|
騎手番号が競走成績データの騎手番号と一致していれば、参照関数(Excelならvlookupなど)で競走成績データに騎手データを追加できるだろう。
なお、性別や初騎乗日、初勝利日は今回使わないが、予め準備しておき将来に備えておくことをお勧めする。
余談ついでに言えば、ここでキチンと作らない人は「場当たり的」といわれる対応をよくやっているのではないだろうかと思ってしまう。
「必要なことだけやればいいんだ」という発想は応用が利かない。
先日もちょっとした表を上司に提出したら「この部分を分解してもう少し詳しいデータに差し替えて」と指示されて頭を抱えている男がいた。
集計結果しか手元にないから、一から作り直ししなければならなかったのである。
ひとに集計させて答えだけもらうからこうなるんだよ、と思ってしまった。

▼勝率
閑話休題。
前項に示した8種類の要素を調べていきたいが、共通の物差しが要る。
ここでは勝率を使う。
能力を勝率で表わすのである。
ちなみに勝率は「だいたい7%」を平均値としていつも頭に入れておくと非常に便利だ。
今回は最も分かりやすい勝率を使うが、勝率でなくても「時計、速度、スピード指数」「連対率、複勝率」「賞金」などでもよい。
ただ、連対率や複勝率を用いると、勝ち負けの判定精度は下がるようだ。
データは正直で、複勝率を用いれば「3着にさえ入ってればいいのでしょ」という答え(集計結果)が返ってくる。

▼騎手年齢
騎手は、だいたい最初の就業となるのでほぼ年齢が揃っている。
年齢により、身体的能力や経験値の蓄積量に変化があることは直感的に想像できるだろう。
年齢別に勝率をプロットしたとき、果たしてどのようなカーブを描くだろうか。
カーブの形は緩やかな山形となるのか、右肩上がりとなるのか、長く謎であった(調べればすぐ分かるのに意外に面倒臭いのである)
結果は下表のとおりである。
ほぼ一直線の、最後の最後に下り坂になる山形であった。
大方の人は半ば当然と思うだろうが、高年齢のゾーンでは意外に勝率が高い。
これを、「年齢が高くなるにつれ、円熟味が増しているのだ」と思い込むのは短絡的だ。
トップジョッキーがこの年齢に集中しているから、というのももう少し深い洞察を求めたいところだ。
調べれば分かるが、どの時代でも高年齢者層は常にほとんどトップジョッキーのみである。
怪我や病気、家業相続など事情は一律ではないが、トップジョッキーでもなければ比較的若いときから騎手業に見切りをつけて調教師や調教助手に転身していく。
年齢の上昇とともに成績の上がらない騎手の引退が増え、40歳後半にもなるとトップクラスしか残らない。
だから、加齢による衰え方は緩やかに見えるのだ。
この勝率の集計ではそのことも頭に入れておかなければならないのだが、それは別に要素で補うことにしよう。

さて、年齢をどうグループ分けするか、である。
最初に制約を申し上げておく。
グループ分け、すなわちカテゴリーは、多過ぎず、少な過ぎず、とすることが肝心である。
精密にしたい気持ちは分かるが、細かくすると、データの背景が色濃く出てしまう。
年齢層の薄い、数人しか対象騎手がいないところでは、彼らの能力を表わしてしまい、年齢別の能力の意味が薄れるということだ。
だいたい、10前後、多くても20項目程度にしておきたい。
そう考えると、3年から4年程度ずつで区切るのが良さそうである。
或いは、データ量がある程度均等になるようにすることもある。
何を正しいとするかは主観的な判断だが(それ故に統計学は数学と違うのだが)、綺麗なグラフを描けるかどうかを試行錯誤することで自分の納得いく解を見つけることができるだろう。
わたしのこの例の場合、4年毎に区切り、サンプル量の少ない両端を隣のグループに入れた。
4年区切りなので、仮に「五輪齢」ということにする(かえって分かりにくいか)

【表 五輪齢別勝率表】
五輪齢 出走回数 勝利数 勝率%
4五輪歳 23,512 1,182 5.0
5五輪歳 74,626 4,083 5.5
6五輪歳 54,135 3,447 6.4
7五輪歳 53,654 3,356 6.3
8五輪歳 66,824 4,807 7.2
9五輪歳 51,896 4,339 8.4
10五輪歳 36,501 3,341 9.2
11五輪歳 17,328 1,622 9.4
12五輪歳 4,425 422 9.5
12五輪歳超 328 11 3.4

お分かりと思うが、すでにこの時点で騎手個人別のデータではない。
このような処理によって、騎乗回数がそれほど多くない過半数の騎手も、データ量が少ないことによる異常値を防ぐことができる。

話が逸れるが、量の多い少ないは何をもって決めるか、わたしの考え方に触れておきたい。
わたしは「綺麗なグラフを描けるかどうか」で決めている。
ただ、できれば、「ある区切りのサンプル量/全体量」ができるだけ3%以上となるようにしたいとは思う。
誤差の範囲と同じとかそれ以下であると、信頼性が低いからである。
実際には試行錯誤しながら決めていく。
いつまでも凸凹が修正できないときがあるけれど、その場合は何か間違えていることが多い。
(SiriusA+B)

ブログ アーカイブ