前夜に掲出した表について述べていきたい。
前夜の表は、
(1)前走着順に前走出走頭数を考慮した上で算出した勝率
(2)前走人気(単勝オッズ)を逆数にした支持率から算出した想定勝率の平均との差異
である。
野球の打率のようなものと言えば分かりやすいかもしれない。
小数点第3位未満を四捨五入しているので、打率のように「2割3分4厘」と言ってもいい。
原点予想では、目的変数を勝率とした。
何を目的変数にするかで予想精度は変わってくる。
速度・スピード指数や獲得賞金などを使うこともできる。
だが、馬の能力を示すのに適しているのはこの3つの中では勝率だと思っている。
競馬は着順がすべてであって、走破タイムは問われない。
結果的に速い/遅いということはあるが、「何秒で走るか」を考えている騎手、調教師、馬主はいない。
賞金はレースの軽重をある程度反映するし、関係者には経済的に重要視される半面、賞金を獲得できなかった馬のデータ上の取り扱いが少し難しく、賞金とレベルが乖離している場合もあり、ストレートに馬の能力を反映していない。
勝率は、これらに比べて馬の能力を比較的素直に反映していると思われるのだ。
そして予想勝率がそのまま馬の強さを表わす。
1より小さい数字が苦手なら、100倍か1,000倍していただければと思う。
▼算式
ファクターはふたつだから、算式は簡単なものだ。
勝率インデックス
=(1)前走着順別勝率+(2)前走単勝支持率別勝率
ちなみに掛け算ほか試してみたが、単純に足し算する方が良いようだ。
ファクターの数値はこれを念頭に作成している。
重回帰分析の手法に似ている。
足し算になっているので、ファクターの追加も容易であるし、データの無いゼロの取り扱いも苦労しないだろう。
▼(1)前走着順別勝率の算出
前走がある馬を対象に、前走の着順ごとのグループ別勝率を算出する。
前夜の表は、いつものデータベース、2006-2018年の中央競馬平地競走完走馬から導き出している。
延べ約72万件のデータのうち、前走のあるデータは約55万件であった。
これを前走1着馬、2着馬……18着馬と分けて、勝率(1着数/完走数)を求めるのである。
充分なデータ量があれば、だいたい同じような値が求められるだろう。
今回はこれを拡張して「前走出走頭数別前走着順別」とした。
55万件のデータがあるので、もう少し細分化できると踏んだ。
8頭立て以下は、ひと括りにしている。
さらに、同歳戦(2、3歳限定競走)と古馬戦は前走の影響が異なるため分割している。
なお、サンプルの少ないところがあるので全体的に曲線を滑らかにする加工を施していて、前走2着は前走出走頭数に関わらず同じ値とした。
少々解説する。
前々夜に、上位馬については着順の価値がだいたい同じと述べた。
レースレベルに関わらず、上位の馬は上位なのだ。
問題は中位以下の取り扱いである。
こちらは出走頭数による影響を上位馬に比べて受ける。
同じ7着でも8頭立てと16頭立てではまるで中身が違う。
ご自身で集計してもらうとよく分かると思うが、勝率に与える影響は小さくないと判断した。
集計は労力の要る作業だが、集計自体は簡単な仕組みである。
これだけで予想しても勝率は約20%ある。
▼(2)前走単勝支持率別勝率
これも集計方法はほぼ同じである。
オッズを逆数にする単勝支持率では、何頭立てでも全出走馬の合計はほぼ1(いろいろ例外はあるが)なので、これを用いる。
このブログでは繰り返しになるが、単勝支持率の簡便な算出方法は、
1/オッズ×4/5
である。
倍率の高い人気薄も扱うのでオッズそのものよりも支持率のほうが使い勝手は良いと思う。
なお、これも同歳戦と古馬戦で分けた。
どうしても凸凹するので、こちらも曲線を滑らかにする加工を施してある。
このファクターだけでも(1)と同様に約20%の勝率を得られるけれど、(1)と接続するため、もうひとつステップを踏む。
すなわち(2)の値を対象全件の平均勝率(約0.070)との差にする。
0.234なら、0.234-0.070で+0.164。
0.015なら、0.015-0.070で-0.055。
前夜の表を改めてご覧願う。
以上、完成した(1)(2)の表のデータをそれぞれ足せば、だいたい24%近辺の勝率を得られるはずである。
なお、算出に使用したのは2006-2018年のデータだが、極端な変動はないと思われるので、これをご利用いただいても勝率24%程度の成績になるだろう。
(SiriusA+B)