2017年9月30日土曜日

第184夜 コースと距離と馬場とレースレベルを調整する必要がない速度偏差値のつづきの話


▼さらに精度を上げると考える前に
前夜に示した速度偏差値の話題を続ける。
速度偏差値は、各レースで出走馬全頭の速度(km/h時速)を算出、平均速度と標準偏差を計算して算出する。
各馬の速度=距離(m)/走破タイム(10分の1秒単位)×36
各馬の偏差値=(当該馬の速度ー平均速度)/標準偏差×1050
なお、勝ち馬から3秒以上離された大敗馬は、3秒遅れたものとして計算したほうが精度が高いようだと付け加えた。
それでは全馬の正確な指数が出ないじゃないかと言う人がいるけれど、下位の馬のデータって必要だろうか。
遅い馬に引きずられて上位の馬の数値が高く出過ぎては本末転倒ではないだろうか。

この数値(速度偏差値)が表しているものは、各競走での平均速度からみて、速度がどのくらいの成績(優秀)だったか、である。
9
年分の平地競走を使って検証すると、前走の速度偏差値を並べて1番良績だった馬の勝率は21%ある。
誰でも再現可能で、長期間、2万件を超える競走でこの勝率を維持できるツールは、巷間の必勝法と比べても遜色ないと思う。

それでも、前走の競走成績のみを参考にしているため、これでは物足りないという人もいよう。
わたしとしてはこれを起点に馬券を検討してもらいたいのだが、速度偏差値をゴールにしたい、数値順に買いたい、などの人たちである。
本来は、前走成績を示した速度偏差値が今回のレースでどう変化するかを加味するべきだが「前走までの成績を総合して精度を上げ、そも総合成績(能力)が今回のレースまでほぼ変化しないと想定する」というものだ。
言い換えると、絶対能力を表してほしいという考え方である。

参考となるお話を申し上げる前にひと言言っておきたいのだが、
そんなデータはあるわけないだろう!

と言うと思うかもしれないが、わたしの答えは少し違う。
前走のみの速度偏差値でもほかの数値でも、実はだいたい絶対能力を表していると思うのだ。
ただ、わたしたちの考え以上に各馬の実力は拮抗しており、調子、コース、展開、騎手の判断、首の上げ下げなどで着順は変わる。
だいたいだが、予想はできているのだ。
競馬がギャンブルとして成立するのは、こうした不確定要素があるためだ。
それでも絶対能力の推定精度を上げるなら以下の方法を試してもらいたい。

▼平均、加重平均、最大値、中央値。或いは別の要素
ちなみに、速度偏差値を加減乗除し始めれば偏差値としての意味はなくなるのでご留意いただきたい。
小見出しにある通り、各馬の戦歴から算出した速度偏差値を平均したり、近走に重きを置いて加重平均したりする方法がある。
サンプル数が多くなるので精度が上がると期待できる。
また、良績のみに注目して各馬の最大値で比較することもできよう。
ただしこの手法は速度偏差値の特性からあまり推奨しない。
中央値も最大値と最低値から算出できるが、これも同様の理由で精度は高くないだろう。

レースレベルを丹念に調整すると、勝率は23.5%近くに改善する。
2%
強の改善だが、25,000以上のレースで検証している。
500
レース分も的中が増えるので、決して小さい数字ではない。
しかし、新馬戦からすべて、出走馬のレベルを加味していく作業だから、膨大なデータベースを構築し、レースレベルを加減するのは並大抵ではない。
努力を要するし、例えば表計算ソフト利用者ならかなりの使い手でなければ計算だけで夜更かしすることになり、そこまで辿り着かぬ者も続出するだろう。
辿り着かない場合でも、別の要素との組み合わせで勝負する手はある。
適性や騎手の能力などである。
もしそういう方法を考えるなら、この速度偏差値を起点に、どれだけ変動するかを予想することになる。
(SiriusA+B)

2017年9月23日土曜日

第183夜 コースと距離と馬場とレースレベルを調整する必要がない速度偏差値

着順 馬番 馬名 性別 年齢 斤量 時計(秒) 単勝人気 速度 速度偏差値
1 4 ジェンティルドンナ 2 5 55 155.3 4 57.95 62.8
2 6 トゥザワールド 1 3 55 155.4 9 57.92 60.4
3 14 ゴールドシップ 1 5 57 155.4 1 57.92 60.4
4 15 ジャスタウェイ 1 5 57 155.5 3 57.88 57.2
5 13 エピファネイア 1 4 57 155.5 2 57.88 57.2
6 5 ラキシス 2 4 55 155.5 11 57.88 57.2
7 7 ラストインパクト 1 4 57 155.5 7 57.88 57.2
8 1 トーセンラー 1 6 57 155.7 8 57.80 50.8
9 12 デニムアンドルビー 2 4 55 155.7 16 57.80 50.8
10 10 フェノーメノ 1 5 57 155.7 6 57.80 50.8
11 11 サトノノブレス 1 4 57 155.9 13 57.73 45.2
12 9 ウインバリアシオン 1 6 57 155.9 10 57.73 45.2
13 3 ワンアンドオンリー 1 3 55 156.0 5 57.69 42.0
14 2 ヴィルシーナ 2 5 55 156.1 12 57.66 39.6
15 8 メイショウマンボ 2 4 55 156.4 14 57.54 30.0
16 16 オーシャンブルー 1 6 57 156.4 15 57.54 30.0

▼スピード指数で悩むこと
偏差値の概念を用いるこのブログでは、スピード指数を速度基準で作ったほうが良いこと、あるいは偏差値という集計方法があることを記事にしてきた。
スピード指数を使って予想を組み立てる人にはおススメなのだが、体系的にお話をしていなかったので、今夜はちょっとだけ補足してみたいと思う。
最初に結論から申し上げておくと、
(1)
走破タイムを機械的に調整したうえで
(2)
走破タイムを速度に変換し
(3)
レースごとに平均速度と標準偏差を計算し
(4)
出走馬ごとの偏差値を算出する
以上で、計算としてはそれほど難しいことではない。
このブログでは、算出した偏差値を、「速度偏差値」とでも呼称することにしよう。

ところで、スピード指数を自ら作成する際に突き当たる壁というものがあり、なかなか乗り越えられずに挫折してしまう人は少なからずいるだろうと思う。
例えばこんな「壁」である。
500万下や1000万下クラスの平均タイムなどから基準タイムを算出するが、サンプルが少なくて、本当に「基準」になっているのか。
・基準タイムを上位3頭で算出するが、1頭あるいは2頭が飛び抜けて速く、ハイレベルレースに見えてしまうのは妥当なのか。
・ダートのタイム差は芝よりも大きく、指数の比較が難しい。
・短距離はともかく、中距離以上だとスローペースになったタイムをどう扱えばいいのか。
・極端に遅れてゴールした馬のスピード指数が異常値で、どう取り扱うべきか。
・馬場指数の算出が難しい、あるいは馬場の影響なのか、レースレベルが高い/低いのか、その判別が難しい。
などなど。
2014年の有馬記念競走の勝馬ジェンティルドンナ号の走破タイム2354は、同日第7競走で行なわれた芝2500mの勝馬レイズアスピリット号の2338に比べて劣っているが、16もの差をどう評価すべきか」
こんな質問がきた時に、有馬記念出走馬のレベルが第7競走より低かったと返答する人はいないだろう。
しかし、相手を納得させるほどの自前のスピード指数も持ち合わせていない。

わたしはスピード指数を長い間研究してきたので、こうした壁にぶち当たってきた。
その都度、乗り越える手段を模索してきた歴史がある。
ご多分に漏れず、最初のうちは精度が低いのではないかと思いより精緻な数字を求めたり、スローペースに対応した補正を掛けたりしてきたが、どんどん複雑になっていき、スピード指数の森を彷徨うばかりだった。
だが、速度偏差値を作成すると、多くの問題を解決できるのである。

▼レースごとに偏差値を算出することが意味すること
まず、走破タイムを速度に変換することで、データの歪みを解消する。
速度とは、ここでは時速である。
これによって、「1秒の価値問題」を解消している。

これを各コースで集計すると「基準タイム」になるのだが、冒頭に示した「速度偏差値」では、レースごとに集計する。
2014
年の有馬記念を例にとると、出走馬の平均時速は57.79km/hとなった。
16
頭の標準偏差は0.12527で、各馬の偏差値を算出すると表のとおりになる。
勝馬はこの競走の偏差値が62.8となったということである。

そもそもスピード指数は、基準タイムよりどれだけ速いか遅いかを見比べるツールである。
だが、ここで算出した速度偏差値は、そういうことを示していない。
この競走の母集団のなかで、どのような位置付けになったかを表している。
タイム差や速度をそのまま使った場合には速いか遅いかを示すに過ぎないが、偏差値化することで全馬の「分布」的な位置付けになるのだ。
速さではなく、出走馬母集団の中での位置付けを表すので、基準タイムの設定も必要がない。各競走ごとに平均速度を出すのだが、これが一種の基準タイム(基準速度)となるので、芝・ダートの違い、距離の違い、馬場も考慮する必要がなくなる。
スローペースであろうがなかろうが、これも関係なくなる。

なお、極端に遅れてゴールした馬について、どう取り扱うべきか、わたしの解決方法を申し上げる。
あくまでもわたしの考えだが、大差でゴールインした馬には何らかの事情がある。
前半に飛ばし過ぎてばてたとか、鞍上と合わずにレースから逃避しようとしたとか、大きな不利を受けたとか、そもそも調子が悪かったなど理由はさまざまである。
そうした馬のタイムが勝馬より4秒遅れたとか、7秒遅れたといっても意味はないだろう。
ということで、わたしは3秒以上離された馬のタイムを勝馬から3.0秒差でゴールしたことにして速度を計算している。
実際上から言うと、そのままの速度で計算するより精度は良い。

あとは、前走の速度偏差値をもとに、今回の競走条件の変更、例えば馬の成長、コースや距離の変動、出走馬の顔ぶれなどから、どのような速度偏差値になりそうかを検討すればよい。
スピード指数を使うにせよ、ここからが検討の本番なのだが、ここまでで力尽き、予想作業を終わってしまう人も多いようだ。
それじゃダメじゃん、と言いたいところだが、ちなみに、この速度偏差値を前走成績として、出走馬の速度偏差値を並べていちばん高かった1頭は、勝率21.2%(2006年から2014年の平地競走で調査したもの。新馬戦などを算出できない競走を除く)である。
そのまま使っても黒字にはならないが、まあまあ使い方次第である。
1
番人気と被ることも多い一方で、なかなか面白い穴馬を見つけることもある。

この20%を超える勝率は、9年分の検証からも嘘偽りはなく、もったいぶった有料予想や複雑怪奇な指数たちよりは成績が良い。
しかも、この記事のレシピのとおり計算すれば、だれでも同じ指数を算出できる再現性を持っている。
出走馬すべての前走を偏差値化すればいいので、大掛かりなシステムも、膨大な過去の情報も、コースの分類も馬場補正も要らない(すぐに取り出せるようにデータベース化しておかないと夜更かしすることになるけれど)
(SiriusA+B)


2017年9月15日金曜日

第182夜 ルーツを探る血統理論は砂上の楼閣か

▼遺伝子検査による鑑定の歴史は十数年
ファミリーラインすなわち母系を辿る重要性はこのブログで何度か取り上げてきた。
祖先馬というオリジナルの考えもご紹介したことがある。
しかし、わたし自身、血統を馬券検討の要素にするのは躊躇ってきた。
やっぱり信用できないのである。

長く行なわれてきた血液型によるサラブレッドの親子判定は判定効率が97%程度だったとされる。
アラブ馬では血量を偽るテンプラという行為もみられた時代があった。
故意でなくてもトラブルはある。
受胎が確認できず、すぐに別の種牡馬を付ける場合には、前の種牡馬の仔かもしれない。
2頭の種牡馬の血液型が同じということはあるのだ。
こうした誤りを見逃してきた可能性は高いのである。

限りなく100%に近い遺伝子検査による鑑定は2002年から始まった(日本の場合)。
それほど昔のことではないのである。
系図にも誤りが多数見つかっている。
大きなところでは、ファミリーナンバー2号族と8号族のミトコンドリアDNAは同じだ。
ミトコンドリアDNAは母性遺伝なので、このふたつのファミリーは祖先が同じではないか。

これらの事実からも、ルーツを辿るタイプの血統理論は脆弱な基礎の上に成り立っていることがわかるだろう。

▼兄弟姉妹
遺伝子レベルの情報公開がどこまで広がるかはわからないが、2000年代より前の血統の信用性が低いなら最近のデータのみでできることを考えたほうが良い。
消化不良だったが、第124話から続くシリーズでは、1990年生まれの牝馬の仔たちがどのような競走成績だったか分析した。
兄弟姉妹の情報は、父馬や出生順などの考慮が必要だが、かなり有用である。
外国からの持ち込み馬が少ない現在、情報を集めることは、相当な手間であってもそれほど難しくない。
牝馬の出産年齢にもよるが、産駒の成績には一定の期待(予測)が見込まれる。
この点を加味した上で、予想することは血統理論に資するだろう。
(SiriusA+B)

2017年9月7日木曜日

第181夜 日付データはもう少し活用されてもいいと思う

▼誕生日は年齢以外にも利用できる
勿体無い話だが、各馬の誕生日データを有効に利用している人は少ないのではないかと思っている。
そんなことを言うと、
「予想紙には3歳とか4歳と書いているのに、要る?」
と反問されるのがオチである。
年齢は表示されてわかっているのに、これ以上何の意味があるの、と言われているのだ。
確かに年齢は予想紙に記載されているが、しかし、考えてほしい、現役期間がたかだか数年のサラブレッドたちを「年」単位で分析など大雑把でないだろうか。

わたしは「日齢」と呼んでいるが、出走日マイナス誕生日で日齢を算出し、日齢そのものだけでなく、様々なデータと組み合わせて利用している。
例えば、1日当たりの獲得賞金を出したり、馬体重の増加の成長分を予測(仮定)したりする。
ちなみに、1番細かい単位である日齢データを作っておくと、月齢その他に変換することは簡単だ。

時間による変化を捉えると、成長といったものが具体的に掴めてくるのである。
馬だけではないが、一定の数値のまま変化がない、というものはまず存在しない。
成長したり劣化したりと常に変化が起きているのがふつうである。

▼誕生日以外の日付データ
日付データには、誕生日以外にも集めておくと便利なものがある。

ひとつには、前走の出走日があげられる。
出走するレースの日付から前走の日付を引けば、出走間隔となる。
出走間隔を使って、1日あたりの馬体重増減を調べたり、予想成長率を弾き出すことも可能だ。

また、初出走日も価値がある。
わたしは、獲得した賞金を出走回数で除したり、誕生日からの日齢で除すこともする。
これに加え、デビュー日からの日数で除すと、結構興味深いデータが得られる。
(SiriusA+B)

ブログ アーカイブ