▼動機?
何回に亘るか分からないまま、データの取り扱いについて、わたしなりの考えを記事にしようとする。
少し難しい話になるし解説も下手なので避けてきたが、「証拠(何の^^;)を見せてみろよ」というくだらない男の口車に乗ることにした。
得てしてこういう人は証拠が見たいのではなく、その考えやノウハウ、或いは答えそのものを聞き出そうとしているだけである。
上手く挑発したつもりでも尻尾は見えている。
誘導されたと思われるのは癪だけれど、まあ真似する人は少ないだろうし、公開しても問題はないので。
できれば手っ取り早く答えが欲しいのだろうが、わたしが示すのは着想でありノウハウであって、答えは自分で計算しないと出てこない。
今、貴方の欲しい答えは出さないから。
と、冷静になってきたところで始めていく。
なお、前提として申し上げておくと、これから提示するものは、数学的(というか統計学的)には正しいやり方ではない。
正しくはないけれど、それなりに悪いやり方ではない、と思っている。
考え方が「正しい」かどうかは皆さんの判断に委ねるが、このような着想をしてみたら皆さんの参考になるのではないか、という思いで綴る。
論文ではないので、わたしの思考回路を時系列に追いながらお話ししていく。
勢いに任せて綴るので、話が飛んだり繰り返したり、いつも以上に乱暴な記事になることは何卒ご容赦いただきたい。
▼「騎手」というデータ分析の限界
ここでは騎手のデータを作成する過程を例にする。
何故騎手データを選んだかというと、「騎手」は簡単なようで非常に難しいデータだからだ。
データによる競馬予想をする上で、騎手Aは40点、騎手Bは38点などと指数・点数にすることすら実は難しい。
まず、馬の影響が大きく、馬の力と騎手の技量を見極めにくい。
明らかに、騎手の技量順で着順が決まらないのである。
能力をどの指標で測るかによるが、レースで最も能力の高い騎手を選んでも、勝率は15%に満たない。
「騎手の腕で勝った」というレースは少なくないかもしれないように思えることはある。
だが、多くの場合、馬そのものやその他の要素が決定的な勝因になっているのだ。
次に、騎手の能力も長期的に変化するため、「能力値」を求めにくい。
長期間のデータを参考にすると現在の力量とズレるし、短い期間のデータではサンプル不足でブレが大きく使い物にならないのである。
サンプル量としては10年近い期間が欲しいのだが、その期間中に、騎手は成長し、円熟期を迎え、そして衰えを見せてくる。
1年間だと1,000回を超える数の騎乗ができる騎手は極一握りで、僅か100走程度で判定せざるを得ない騎手が続出する、ということだ。
そもそも多くの分析者は騎手個人のデータをそのまま利用しており、これではいつもサンプル不足に陥ってしまう。
このような状態だから「騎手」という要素を使うのは難しいのである。
▼騎手を個別に分析するのをやめる
この難題を解決するために必要なことは、グループ分けしてサンプル数を確保すること、とわたしは思っている。
発想の大転換である、とは思う。
例えば「武豊騎手」を「武豊騎手」としてデータを集めても、1,000回/年で、年間出走馬数に占める比率は1,000/35,000、すなわち3%あるかどうかというところだ。
データ量が少ない場合には、ほとんど誤差と同じレベルである。
これに対し、「武豊騎手」ではなく「年間騎乗回数が1,000回以上の騎手」+「平均獲得賞金がこれくらいの騎手」+「栗東所属」などとすれば、サンプルデータも豊富になり、より信頼度の高い結果を得られるのではないだろうか。
具体的に年間騎乗回数で言えば、200回未満、400回未満、600回未満、800回未満、1,000回未満、1,000回以上の6つにでもグループ分けするということだ。
それでは武豊騎手の個性が埋没してしまうという意見も出よう。
だからいくつかの要素に分解するのである。
仮に6つのグループ分けを3種類用意すれば、理論的には6×6×6で108通りになる。
4種類6通りも用意すれば、騎手の人数を上回るだろう。
実際にはすべての組み合わせに満遍なく分布しないけれど、武豊騎手と同じような組み合わせの騎手はそうそういなくなるのだ。
副次的なメリットもある。
それは、騎手自身の変化にも対応できる点である。
騎手を騎乗回数や平均獲得賞金などで表現することにより、「2年前の武豊騎手」「今の武豊騎手」と同じ騎手でも数値を変化させられるのである。
さらに初騎乗や乗り替わりも対応可能になる。
同じ騎手でも初めてコンビを組む馬は、乗り慣れた馬ほど乗りこなせないように思う。
「お手馬」ということばがあるとおり、騎手は乗り慣れた馬とそうでない馬では発揮するパフォーマンスは違う。
手慣れた馬なら癖や得手不得手もよく知っており、より能力を引き出せるのだろう。
このような騎乗能力の差にも対応できるのである。
馬でも騎手でも、時間とともに変化していく。
その時間の流れは緩やかに見えても、想像以上に速い。
だから、固定的に捉えることは避けた方がいいと思うのである。
ずいぶんと書き込んでしまった。
まだ言い足りないというか書き足りないので次の夜につづく!
(SiriusA+B)