2016年1月30日土曜日

第58夜 競馬予想でサンプル数の確保が必要な理由(後編)


(前夜からのつづき)
▼情報を総合するには、のつづき
前夜からのつづきの話である。

情報を総合していくのに必要なのは、すべての情報をひとつのツールに統合することである。
例えば、「勝率」をキーにしてみよう。前走が1番人気で2着だった馬は、今回何着になるか、と考えるのだ。
2006
年から2014年までの平地競走完走馬430,278(競走中止データは除いている)で試してみる。
このデータによると、勝率は29.7%に及び、着順の平均は3.79着である。
情報を総合するためには、例えば29.7%という数字を使うのである。
あるいは着順である3.79を使う。

 

ここまで申し上げた。
もうふたつ、例を挙げておく。
(1)
前走の上がり3ハロンの順位別の次走の勝率である。



前走上がり3ハロン順位

次走勝率

サンプル数

1

12.6%

4264/33748

2

11.7%

3630/31070

3

10.1%

3040/30016

4

9.0%

2614/28942

5

8.2%

2306/28018

6

7.3%

1995/27487

7

6.4%

1703/26644

8

5.7%

1477/25981

9

5.2%

1268/24606

10

4.6%

1084/23701

11

4.1%

911/22001

12

3.7%

754/20247

13

3.5%

622/17993

14

3.2%

505/15591

15

2.7%

356/13132

16

2.9%

268/9383

17

3.7%

90/2413

18

1.8%

31/1741

(2)出走間隔別勝率である。なお、出走間隔は対数化している。
対数11は、出走間隔が12日から14日であり、対数1215日から17日であり、対数20なら90日から112日となる。



出走間隔対数

勝率

サンプル数

9未満

6.4%

536/8440

9

6.0%

188/3118

10

5.2%

16/310

11

8.0%

4073/51070

12

7.8%

1433/18474

13

8.2%

6863/83371

14

7.7%

3340/43654

15

6.6%

2433/36919

16

6.3%

1701/27085

17

6.6%

1466/22347

18

6.3%

1131/18031

19

6.3%

930/14853

20

5.8%

988/17033

21

5.5%

698/12612

22

4.9%

404/8255

23

4.5%

320/7059

24

4.4%

198/4496

25

3.8%

94/2457

26

3.8%

57/1502

27

3.5%

32/908

28

2.7%

12/447

28

1.8%

5/275

 

▼共通の言葉で統合されたデータを加減乗除する
以上、3つのデータ例をあげた。
説明のための集計なので、実践で活用できるレベルかどうかはわからないが、3つのデータはすべて「勝率」でそろえることができたのである。
これが、わたしのいう「情報を総合する」ということである。

(ある出走馬)



前走人気

1人気

前走着順

2

前走上がり3ハロン順位

2

出走間隔対数

13

(上記データの勝率換算=情報の総合)



(A)前走が1番人気で2着だった馬の次走勝率

0.297

(B)前走上がり3ハロン順位2位だった馬の次走勝率

0.117

(C)出走間隔対数13の勝率

0.082

勝率単純合計(A)+(B)+(C)

0.496

「共通の言葉」には、勝率を使わず、着順でも、スピード指数でも、皆さんが適当と思われるものを使えばよいと思う。
本来は数量化1類などの計算方法がよいかと思うが、このデータの加減乗除だけでも平均的な予想よりは精度が高いのではないかと思われる。
この方法が、馬柱すなわち馬個体別の分析、あるいは競走名ごとの過去10年の成績と違うのは、サンプル数が圧倒的に多いことだけではない。
過去のデータに基づいた、主観的ではない未来の予測なのである。
しかし、例えば、G1競走と未勝利戦では背景が違うという人はいるだろう。
強い相手と戦っての2着と弱い相手に競り負けた2着は違う、とか。
わたしは、だからこそ大量のデータを集め、背景を消している、と返答するだろう。
そして、背景を消す代わり、複数のデータを総合していると付け加えるだろう。
もう一度前夜の天気予報の話を考えてみてほしい。
過去に同じ事象はないのである。
10
年に一度の台風といっても、同じ気圧配置、同じ気温、同じ日時に起こったデータがあるわけではないだろう。
あらゆる台風のデータから共通点を見出して、規則性、法則性を探り予報しているではないか。
競馬予想も同じである。
おこがましいが、目指すのは天気予報のような競馬予想なのである。
(SiriusA+B)

2016年1月26日火曜日

第57夜 競馬予想でサンプル数の確保が必要な理由(前編)


▼目指すのは天気予報?
いつも意識しておくべきことは、人間には未来を確実に予想することはできない、ということだ。
過去の経験を総合して実際に起こる確率の高そうなところをイメージするにすぎない。
天気予報でも、株式市場でも、あるいはまだまだと思うが大地震の予想でも、予想・予測と言われるものは、すべて過去のデータに基づき、出現可能性の最も高い事象を述べているだけである。
発表者によって異なるのは、サンプル数、過去の事象の捉え方(切り口)の違いによる。
注意したいのは、サンプルデータが多いほど精度も上がっていく(オーバーフィッティングにならない場合)一方、わずか数例だけをみて法則を見つけたと言う人もいることである。
残念ながら、サンプル数が少ない人ほど、検証が足りない場合が多いように見受けられる。

競馬予想の世界でも、十分なサンプル数を持たない予想も少なくない。
重賞のような競走名のあるレースの「過去10年の傾向」などはその最たる例で、10走程度のデータに基づく馬券購入などわたしはとてもできないが、数字が並んでいるので信頼する人も多いようだ。
天気予報を思い描いてほしい。
天気とは大気という流体運動の予測であり、あれだけのデータを集め、蓄積しても100%的中させることはできないのである。
競馬は流体運動よりは難易度が低いのかもしれないが、10走程度の予想があまり参考にならないことは、天気予報を考えれば容易に想像できるはずである。

気象庁の大型コンピュータほどのことはできないにせよ、競馬予想が目指すのは天気予報ではないだろうか。
可能な限り情報を集め、科学理論で総合し、予測する。
わたしたちは「科学理論で総合し」というところでしのぎを削りたい。
しかし、あちこちの予想サイトを見る限り、それ以前の「可能な限り情報を集め」というところでラクをしようとする人が多い。
情報を集めても、どうやって「総合していくか」がわからないから、というのは理由としてあると思う。

 

▼情報を総合するには
わたしの場合、前夜(56夜 馬の名前)に触れたとおり、個体ごとの分析はしていない。
個体のプロフィールを並べ、それに該当するものを過去10年分の出走データとつき合わせるのである。
情報を総合していくのに必要なのは、すべての情報をひとつのツールに統合することである。
例えば、「着順」をキーにしてみよう。前走が1番人気で2着だった馬は、今回何着になるか、と考えるのだ。
2006
年から2014年までの平地競走完走馬430,278(競走中止データは除いている)で試してみる。
このデータによると、勝率は29.7%に及び、着順の平均は3.79着である。
情報を総合するためには、例えば29.7%という数字を使うのである。
あるいは着順である3.79を使う。

(次の夜につづく)



該当件数

(前走が1番人気で2着だった馬)

5,560

今回1

1,652

今回2

1,003

今回3

756

今回4

521

今回5

364

今回6着以下

1,264

平均着順

3.79

(SiriusA+B)

ブログ アーカイブ