2021年9月26日日曜日

第348夜 着想が先行しても、エビデンスを求めたい

 348夜 着想が先行しても、エビデンスを求めたい

検証
金融市場モデルとして競馬(馬券での話)を取り扱うことがある。
競馬について、金融市場を参考に考えることもまた可能ではないかと思う。
投資ファンドではSDGsESGといったものが流行しているのだが(用語の説明はご自身で調べてほしい)、ファンドに関わる人から話を聞くたびに馬券予想法とさして変わらないロジックの欠陥を感じることがある。
関連するすべての投資ファンドに当てはまるわけではないだろうが、SDGsESGは財務諸表外、簿外の情報をもとに、その企業がいかに「正しい」振る舞いをしているか、スコア化して投資先とするかどうかを判断する、というのが主流である。
例えば、女性の管理職比率や多様な人材の受け入れ、環境への配慮具合をスコア化したり、兵器やたばこを作る・売る企業を除外したりする。
投資ファンドについては善悪・良し悪しという強い先入観のもとに、債券・株式の投資先を判定することに疑問はあるのだけれど、馬券予想法との共通点として取り上げたいのは「スコア化」という作業である。
アナログ的だが、「敗けたものの、末脚は見所があった」とか、「道中の不利がなければ勝ち負けだった」といった評価をすることは、客観性を担保できれば良い武器になると思っている。
さらにそれを1点とか2点とか、点数化して次の予想に組み入れることができれば素晴らしいと思う。
これをスコア化という(この記事において)
問題は、スコア化したものが、いかに結果に直結しているかを検証していない場合があるということである。
実は、SDGsESGのファンドでも、債券ならどれほどデフォルト率を抑えるか、株式ならどれだけ株価を引き上げるか、といった検証をしていないものがある。
質問すると、怪しげな、関連のないデータを持ち出して信用させようとする者もいれば、「そうおっしゃっても、事実なのです」というエビデンス(証拠)も何もない返答を受けたこともある。
もちろん、株価は財務諸表やその他の信用情報と相まって決まるものだし、馬券だって能力評価が基礎になっているので、結果は複合要因である。
検証はことばでいうほど簡単ではないと思われるかもしれない。
わたしは、絶対とか正確とか言わないが、それでも簡単な検証をする。
今夜は実際に検証例を挙げてみたい。
読み進めるうち、わたしがいつもやっていることと思う方がおられれば、この拙く舌足らずなブログ記事をよく読んでおられるものと思う。

4コーナー通過順位
貴方がレースのリプレイを丹念に見て、「これは次走に期待できる」という馬を探しているものとする。
あるとき、自分自身の「規則性」を発見したとしよう。
どうも自分は最終コーナーの位置取りを起点に馬を見ているようだ、と。
そこで、最終コーナー通過順位の1位を10点、2位通過を8点、3位通過を6点と点数付けすることにした。
スコア化である。
早速これを実戦投入し、能力値に加えた。
なんとなく馬券成績がソコソコ上がった感じがする。
貴方は友人と馬券談義をしているうち、この話をした。
ところが「どれくらい馬券収支が改善したの」と聞かれて返答に窮した。

と、こういうシチュエーションである。
ここで次のような検証を行なった。
前走の4コーナー順位別に着順を集計するのである。
2006
年から2018年の中央競馬平地競走完走馬のデータを使うと、延べ550,526件の有効なデータがある。
前走で通過順位が1位だった馬は延べ40,389頭おり、このうち4,537頭が1着になっていた。

勝率にして11.2%だった。
ちなみに38,839頭の勝ち馬の中で4,537頭が前走通過順位1位の馬であったので、「占有率」は11.7%にすぎない。

ここまで調べてみると、「思ったほどではないな」と思われる方も多いのではないか。
1
番人気馬の勝率が約33%、一般的な予想法で優秀なものが勝率25%ちょっと、という中で、12%の勝率は低いのである。
実際、有効なファクターだが、それほど大きな影響力を持っていないことが分かるだろう。

これが検証の実際である。
このブログで言えば、実は、いつも通う道を反対から歩いているだけである。
いつもはこういうデータがあるから馬券に活かせるかも、と提示している。
今回は「馬券に活かせるかも」と思ったものをあとから検証しただけなのだ。
だが、これが検証なのである。
「騎手が乗り替わった」とか、「前走は進路妨害の被害馬になった」とか、何かを思いついたらまず検証してみよう。
多くの場合、大した結果を得られず徒労に終わる。
これを繰り返すうち、思いがけないヒットを生み出すことがある。
着想が先か、統計が先かはともかく、エビデンスがなければ早々に破綻する可能性が極めて高い。
(SiriusA+B)


前走4角通過順位 1着 2着 3着 4着以下 合計 1着率 2着率 3着率
1位 4,537 3,899 3,321 28,632 40,389 11.20% 9.70% 8.20%
2位 6,228 5,687 5,034 40,776 57,725 10.80% 9.90% 8.70%
3位 4,654 4,425 4,077 33,215 46,371 10.00% 9.50% 8.80%
4位 3,880 3,848 3,663 30,528 41,919 9.30% 9.20% 8.70%
5位 3,247 3,253 3,355 29,471 39,326 8.30% 8.30% 8.50%
6位以下 16,293 17,728 19,394 271,381 324,796 5.00% 5.50% 6.00%
合計 38,839 38,840 38,844 434,003 550,526 7.10% 7.10% 7.10%

2021年9月19日日曜日

第347夜 馬体重の増減要因のひとつ、季節要因


季節要因
前走比馬体重増減は、大きいものでなければあまり気にしなくてよい、というのが、今の主流の考え方のように見ている。
データの乏しい時代にはプラス2kgやマイナス2kgでもあれこれ評価することが多かった。
人間の体重を60kg、競走馬の馬体重を480kgくらいとすると、その比は8分の1で、その比に従えば人間の1kg増加が競走馬の8kgに相当することから、細かな馬体重の増減を気にしなくてもよいのではないかということに落ち着いたのだろう。
それを踏まえて、である。
調子とトレーニングの多寡による馬体重の増減をどう考えるかはさておき、「ああ、これは成長分ですね」という、よくあるパドック解説のコメントについて今夜は考えてみたいと思う。
実は、以前から「成長分」の曖昧さが気になっていた。
若馬は日ごとに成長し体重を増やしていく。
やがて「大人」になると成長が止まる。
そういう考え方がある。
それはそのとおりだが、ちょっと大雑把にすぎないか。
わたしは季節要因をもう少し考慮してもいいのではないかと思っていた。

いつものデータベース、2006年から2018年の中央競馬平地競走完走馬延べ620,722頭で計測できなかった2件を除く延べ620,720頭の馬体重平均は、470kgちょうどである(470.0378kg)。
性別では、騙馬を含む牡馬の平均は480kg、牝馬は454kgとなる。
ちなみに「同一馬集計」は、「7歳時に中央競馬平地競走完走の経験があり、集計期間内に中央競馬平地競走に10戦以上した競走馬」実頭数2,035頭、延べ70,436頭の集計結果である。
多くの競走馬が短期間で10戦以下という点を考慮し、ほぼ同じ傾向であることを確認するために同じ手法で集計したものである。
★図表347-1 競走馬全体の馬体重集計と10戦以上選抜馬

馬体重合計 件数 平均 選抜馬馬体重合計 件数 平均 実頭数
全体 291,761,834 620,720 470.0378 33,882,040 70,436 481.033 2,035
牡馬 182,279,742 379,790 479.9488 29,459,000 60,879 483.8943 1,773
牝馬 109,482,092 240,930 454.4145 4,423,040 9,557 462.8063 262

以下ではサンプル数の比較的多い牡馬に限って集計していくことにする。
この集計期間内で牡馬の出走時馬齢別に集計してみると、6歳くらいから成長が鈍化していることが分かる。
わたしが気になっているのは「分析がここで終わり」ということなのである。
★図表347-2 全体集計(牡馬)
合計 件数 年間平均
2歳 27,149,472 57,750 470
3歳 72,650,564 152,571 476
4歳 34,409,886 71,073 484
5歳 24,562,688 50,391 487
6歳 13,983,128 28,583 489
7歳 6,511,798 13,279 490
8歳 2,254,314 4,594 491
★図表347-3 同一馬集計(牡馬)

合計 件数 年間平均
2歳 1,710,228 3,625 472
3歳 5,891,514 12,374 476
4歳 5,783,656 11,970 483
5歳 5,645,744 11,613 486
6歳 5,229,418 10,694 489
7歳 3,804,038 7,752 491
8歳 1,113,316 2,274 490

人間と同じ
上表をX軸に馬齢、Y軸に馬体重をとってプロットし、直線でつないでいくと、成長曲線を描くことができる。
しかし、これを月ごとに集計したらどうなるであろうか。
特に5歳以上の古馬の場合はっきりするが、馬体重は1月をピークに9月ごろまで低下し、そこから反転していくのだ。
季節の良い春には一時的に低下傾向に歯止めがかかるので、この月ごとの変動は季節要因ではないかと思っている。
★図表347-4 月ごとの平均体重(牡馬)
全体 年間 01月 02月 03月 04月 05月 06月 07月 08月 09月 10月 11月 12月
2歳 470 461 462 464 467 471 473 475
3歳 476 477 476 475 474 474 475 474 476 477 480 482 484
4歳 484 487 485 484 482 483 483 482 482 482 485 486 488
5歳 487 491 489 488 486 487 486 485 484 485 487 489 490
6歳 489 494 492 490 488 488 488 486 486 486 488 490 491
7歳 490 494 493 492 490 490 489 486 487 485 489 489 493
8歳 491 495 495 491 491 489 488 487 486 485 490 489 492
該当のみ 年間 01月 02月 03月 04月 05月 06月 07月 08月 09月 10月 11月 12月
2歳 472 464 465 467 470 472 474 475
3歳 476 476 476 473 473 474 475 475 476 477 479 480 482
4歳 483 485 484 482 481 482 482 482 480 482 485 486 487
5歳 486 489 488 485 485 486 484 484 484 484 486 487 490
6歳 489 493 492 490 487 487 487 486 485 486 489 490 493
7歳 491 495 492 492 490 490 489 488 488 486 490 489 493
8歳 490 494 495 490 489 487 487 485 485 484 488 489 491

成長期の2歳、3歳は季節要因の低下傾向より成長が勝っているので古馬とは異なる曲線を描く。
4
歳も低下傾向は抑制的で、まだ馬体の成長が続いていることを想像させる。
その証拠に、以下のように馬齢を重ねるほど季節要因の影響を受けるようにみえる。
僅かずつだが、代謝機能の低下が原因ではないかと思う。
5
1491kg9485kg。差は6kg
6
1494kg9486kg。差は8kg
7
1494kg9485kg。差は9kg
8
1495kg9485kg。差は10kg

これが世界的な(少なくとも北半球において)傾向なのかどうかは分からない。

ただ、日本国内においては、実は人間も同様の傾向を示すことが分かっている。
わたしは馬体重の増減を重視しない派だが、重視する派であれば、この季節要因を頭に入れたうえで馬体重の増減を判断できるかどうか、は予想の精度に関わってくるものと思う。
もちろん、個体差は大きい。
調教師によるコントロールの影響も決して小さくない。
ただ、調子やトレーニングの影響と同様に季節要因があるということである。
馬体重の増減以外にも応用できる。
例えば「冬のダートは重い馬が走る」というような格言は、検証してみる価値はある。
単純に、勝ち馬の馬体重平均を根拠としているようならば、出走馬全体の馬体重も重くなっていないか、確認したほうがよい。
(SiriusA+B)

 

2021年9月12日日曜日

第346夜 原点予想拡充版グランドフィナーレ

 

▼補足
原点予想拡充版は、新馬戦を除く中央競馬平地競走を予想対象に考えたものである。
障害競走と新馬戦には使えない。

集計に使ったデータ(教師データ)2006-2018年の13年分である。
新馬戦を含め延べ62万頭、うち、前走のデータがある延べ55万頭が教師データである。
説明は舌足らずも多いが、もしご理解いただければご自身でも同じようなものを作ることができる。
前段の、データを揃える作業が最も時間を要するけれど、それぞれのファクターを計算するのは平易な形にしているつもりだ。
データは古くても傾向は大きく変わらないので、掲載した加減値を今のレースにそのまま使用してもそれなりには使えるだろう。

データをフルに使ったため検証していないが、数値が1位の馬を機械的に本命とした場合、25%から26%を中心とする勝率(単勝的中率)を得られると思う。
複勝率は幅があるけれど55%から58%の間くらいになりそうだ。
ベンチマークの1番人気は単勝が3分の1、複勝は3分の2くらいだから物足りないかもしれない。
だが、予想専門紙や大手スポーツ紙の本命に大きく見劣りすることはないと思う。

ファクターは馬に関するものばかり13種類用意した。
どうしてもというものを除きデータの重複をできるだけ回避したつもりだし、ファクター数も抑えた(13種類あっても笑)
過学習(オーバーフィッティング)は限定的ではないかと思う。

使わないデータはけっこうある。
上がり3ハロンの速さの順位は採り入れたが、走破タイムそのものやレースの走破タイムは使用していない。
このため馬場調整はない。
着差も使用しなかった。
前走オッズは支持率に変換して使うが、当該レースのオッズは使用していない。
クラス(1勝クラス、オープンなど)の別も使用していない。
競走間隔は使わなかった。
これは特に考えがまとまらなかった。
そうそう、芝とダートも区別していない。

これらを上手く調理できるなら加えるのもいいと思う。
わたしも引き続き研究していく。

▼オッズとの乖離
的中率で最も精度が高いのはオッズである。
1
番人気で約33%だ。
これを取り込んで予想するのがいいのではないかという考えがある。
わたしもオッズを取り込む方法は試してきた。
単勝的中率を35%くらいまで高めることもできる。
だが、オッズをベースとする限り、回収率が100%を超える可能性は極めて低い(ほぼ無い)
309夜「優れた予想かどうかはこれで分かる」で検査手法に触れたくだりがある。
自分の買ったオッズを支持率に変換し、実際の的中率がこれを上回っているなら優れた予想である、と。
1
番人気を買い続けても支持率と的中率はほぼ等しい。
上回らないので絶対に勝てないのだ。
いくら高い的中率を目指すと言っても、黒字になる見込みのない買い目ではどうしようもない。
だからオッズを利用しないで予想するのである。

▼馬以外のファクター
馬の実績データを用いた予想法では、勝率25%あたりがひとつの天井であるとわたしは考えている。
馬七人三という古いことばがあるけれど、勝因の7割くらいが馬に起因すると考えることもできそうだ。
1
番人気馬の勝率約33%0.7を乗じて約23%と出るから、馬だけの予想法では2324%あたりだろうなとあたりをつけて考えている。
適当な話とはいえ、残りを埋める人的要素があるかなと思う。
このブログではほとんど取り上げないけれど、騎手、調教師、生産者、馬主は研究する価値がある。
実のところ、わたし自身はプレーヤーの予想理論開発に精を出している。
馬主や調教師が走るわけではない?
そう、騎手以外は直接参加するわけではない。
「競馬とは」で書いたが、彼らこそが馬を「走らせて」いることを忘れてはならない。
「走らせて」いる馬を見ているだけ、レースを見ているだけでは、足りないとわたしは考えている。
種牡馬の選定、母馬の受胎から、成長、馴致、馬主や厩舎の決定、調教、ゲート試験、出走までの仕上げ、厩務員の管理、装蹄師の仕事と、各プレーヤーになったつもりで想像してみるのもいい。
見えない人には申し訳ないが、見える人ならよく調べ想像してほしいと思う。
調教を考えるとしよう。
同じ厩舎の同期でも、仕上がりや馬体、期待度によって順位付けられたりグループ分けをしたりするだろう。
そうすると、厩舎が同じあれば予想値を一律同じにして良いのか、と疑問が湧いてこないだろうか。
小さな厩舎内ではあるが序列付けがあると思う。
そうしたことが分かってくるともっと奥深い予想ができる気がする。

▼グランドフィナーレ
長々と書き連ねてきた。
ブログは趣味でやっている自転車操業だが、思いついたテーマを週1本のペースで好きに書いているだけだから、ふだんは苦にもならなかった。
今回は重い腰を上げた。
他人様(ひとさま)の射幸心に付け込んでカネをせしめようとするいくつかのサイトに怒りを覚えたからだ。
いや、正しくは騙されようとしている人に怒りを覚えたのかもしれない。
実は予想などしておらず、いくつかの専門紙の予想を混ぜ合わせただけのひどいものを売るサイトだってある。
よく見ればおかしなことを書いている。
騙されるのは、考える癖がないこと、知識を持たないことが原因であることが多い。
それを見抜くためにも予想するとはどういうものなのか、このシリーズを参考にしてもらえればと思った。

が、怒りに任せただけで、3か月にわたり同じテーマで書き続けることはたいへんだった。
10
回を越えたあたりで精魂使い果たしたが(オーバーペース?)、とにかくゴールに辿り着かねばとヨロヨロ歩いた。
相変わらず舌足らずのものを根気よく目を通してくれた読者がおられれば感謝申し上げたい。
最後に断っておくが、この予想法は標準的なレベルには少し遠いし、かなり端折って説明する都合上いい加減なところも複数ある。
部分的でも、ほんの一部分でも、発想でも予想法のヒントになれば幸いである。

なお、最終回ではない。
ブログはつづく。
また新しいものを書いていく。
(SiriusA+B)

2021年9月5日日曜日

第345夜 原点予想拡充版(14)勝利数と日齢


[M] 勝利数/日齢加減値
最後にご紹介するファクターは少し変わっている。
組み合わせも不思議で、勝利数と馬の年齢(日齢)を使用する。このファクターは研究途上で迷ったのだが使用することにした。
1日あたりの勝利数ってことだよね。なに、それ」と言われるかもしれない。
わたしは変な組み合わせを試してみるのが好きなのだけれど、これも奇怪な組み合わせである。
当初、仮に使い物になるとしても馬券の成績は改善するだろうが、その影響は微々たるものであるように推測していた。
が、集計してみて意外に反応の良いファクターではないかと考えるようになったのである。
勝利数/日齢で何が分かるかというと、例えば同じ3勝でも勝利から遠ざかっている馬、若く勢いに乗っている馬があぶり出されてくるような気がする。
ホントのところはまだわたし自身理解できていない。
ただ、多くの予想法を見ていると、馬の能力評価に「時間」の要素があまり入っていない印象がある。
ごく短期間の場合、能力を一定とみなすことはおかしなことではないからだ。
ただ、わたしはその「ごく短期間」は世間が考えている以上に短期間なのではないかと思っている。
古来、馬の年齢に、幼少のころには5、若い間は4、老年には3をかけると人間の年齢に近いという。
現役の競走馬の場合、3か月で人間の十代の1年と考えれば、数か月前の前走をとても「ごく短期間」とみなしていいのだろうか。
あるいは6歳の馬は人間のスポーツ選手になぞらえれば30歳代に突入しているのではないだろうか。
だからこそ、古馬の能力減衰のように、馬の能力変動を上手く汲み上げることができれば予想精度が向上するのではないかと考えている。

これも面倒なLOG対数にしてグループ分けしている。
ここまでの他のファクターを扱う中で、勝利数や日齢はすでに用意されている。
算式の「勝利数/日齢加減値」では非常に小さい数字になるため、「勝利数/日齢加減値×10,000」と1万倍して整数にすることにした。
この整数をLOG対数にしてみると14グループに分けることができた。
ここまでの計算方法はファクターLと同じようにするのでここでは省略する。


[M]
勝利数/日齢加減値(デビューからの記録が含まれる2004年生まれ以降馬で集計)

勝利数/日齢*10000 勝利件数 完走件数 勝率 加減値
0 18,423 289,384 0.0637 -0.0071
4 3 185 0.0162 -0.0546
6 636 15,274 0.0416 -0.0292
7 1,284 22,128 0.0580 -0.0128
8 2,407 32,164 0.0748 0.0040
9 4,156 53,519 0.0777 0.0069
10 3,338 39,551 0.0844 0.0136
11 2,844 33,567 0.0847 0.0139
12 2,708 30,671 0.0883 0.0175
13 1,840 19,758 0.0931 0.0223
14 613 6,140 0.0998 0.0290
15 224 1,500 0.1493 0.0785
16 46 197 0.2335 0.1627
17 4 17 0.2353 0.1645
38,526 544,055 0.0708

(SiriusA+B)

ブログ アーカイブ