2016年1月30日土曜日

第58夜 競馬予想でサンプル数の確保が必要な理由(後編)


(前夜からのつづき)
▼情報を総合するには、のつづき
前夜からのつづきの話である。

情報を総合していくのに必要なのは、すべての情報をひとつのツールに統合することである。
例えば、「勝率」をキーにしてみよう。前走が1番人気で2着だった馬は、今回何着になるか、と考えるのだ。
2006
年から2014年までの平地競走完走馬430,278(競走中止データは除いている)で試してみる。
このデータによると、勝率は29.7%に及び、着順の平均は3.79着である。
情報を総合するためには、例えば29.7%という数字を使うのである。
あるいは着順である3.79を使う。

 

ここまで申し上げた。
もうふたつ、例を挙げておく。
(1)
前走の上がり3ハロンの順位別の次走の勝率である。



前走上がり3ハロン順位

次走勝率

サンプル数

1

12.6%

4264/33748

2

11.7%

3630/31070

3

10.1%

3040/30016

4

9.0%

2614/28942

5

8.2%

2306/28018

6

7.3%

1995/27487

7

6.4%

1703/26644

8

5.7%

1477/25981

9

5.2%

1268/24606

10

4.6%

1084/23701

11

4.1%

911/22001

12

3.7%

754/20247

13

3.5%

622/17993

14

3.2%

505/15591

15

2.7%

356/13132

16

2.9%

268/9383

17

3.7%

90/2413

18

1.8%

31/1741

(2)出走間隔別勝率である。なお、出走間隔は対数化している。
対数11は、出走間隔が12日から14日であり、対数1215日から17日であり、対数20なら90日から112日となる。



出走間隔対数

勝率

サンプル数

9未満

6.4%

536/8440

9

6.0%

188/3118

10

5.2%

16/310

11

8.0%

4073/51070

12

7.8%

1433/18474

13

8.2%

6863/83371

14

7.7%

3340/43654

15

6.6%

2433/36919

16

6.3%

1701/27085

17

6.6%

1466/22347

18

6.3%

1131/18031

19

6.3%

930/14853

20

5.8%

988/17033

21

5.5%

698/12612

22

4.9%

404/8255

23

4.5%

320/7059

24

4.4%

198/4496

25

3.8%

94/2457

26

3.8%

57/1502

27

3.5%

32/908

28

2.7%

12/447

28

1.8%

5/275

 

▼共通の言葉で統合されたデータを加減乗除する
以上、3つのデータ例をあげた。
説明のための集計なので、実践で活用できるレベルかどうかはわからないが、3つのデータはすべて「勝率」でそろえることができたのである。
これが、わたしのいう「情報を総合する」ということである。

(ある出走馬)



前走人気

1人気

前走着順

2

前走上がり3ハロン順位

2

出走間隔対数

13

(上記データの勝率換算=情報の総合)



(A)前走が1番人気で2着だった馬の次走勝率

0.297

(B)前走上がり3ハロン順位2位だった馬の次走勝率

0.117

(C)出走間隔対数13の勝率

0.082

勝率単純合計(A)+(B)+(C)

0.496

「共通の言葉」には、勝率を使わず、着順でも、スピード指数でも、皆さんが適当と思われるものを使えばよいと思う。
本来は数量化1類などの計算方法がよいかと思うが、このデータの加減乗除だけでも平均的な予想よりは精度が高いのではないかと思われる。
この方法が、馬柱すなわち馬個体別の分析、あるいは競走名ごとの過去10年の成績と違うのは、サンプル数が圧倒的に多いことだけではない。
過去のデータに基づいた、主観的ではない未来の予測なのである。
しかし、例えば、G1競走と未勝利戦では背景が違うという人はいるだろう。
強い相手と戦っての2着と弱い相手に競り負けた2着は違う、とか。
わたしは、だからこそ大量のデータを集め、背景を消している、と返答するだろう。
そして、背景を消す代わり、複数のデータを総合していると付け加えるだろう。
もう一度前夜の天気予報の話を考えてみてほしい。
過去に同じ事象はないのである。
10
年に一度の台風といっても、同じ気圧配置、同じ気温、同じ日時に起こったデータがあるわけではないだろう。
あらゆる台風のデータから共通点を見出して、規則性、法則性を探り予報しているではないか。
競馬予想も同じである。
おこがましいが、目指すのは天気予報のような競馬予想なのである。
(SiriusA+B)

ブログ アーカイブ