(前夜からのつづき)
▼情報を総合するには、のつづき
前夜からのつづきの話である。
▼情報を総合するには、のつづき
前夜からのつづきの話である。
情報を総合していくのに必要なのは、すべての情報をひとつのツールに統合することである。
例えば、「勝率」をキーにしてみよう。前走が1番人気で2着だった馬は、今回何着になるか、と考えるのだ。
2006年から2014年までの平地競走完走馬430,278頭(競走中止データは除いている)で試してみる。
このデータによると、勝率は29.7%に及び、着順の平均は3.79着である。
情報を総合するためには、例えば29.7%という数字を使うのである。
あるいは着順である3.79を使う。
例えば、「勝率」をキーにしてみよう。前走が1番人気で2着だった馬は、今回何着になるか、と考えるのだ。
2006年から2014年までの平地競走完走馬430,278頭(競走中止データは除いている)で試してみる。
このデータによると、勝率は29.7%に及び、着順の平均は3.79着である。
情報を総合するためには、例えば29.7%という数字を使うのである。
あるいは着順である3.79を使う。
ここまで申し上げた。
もうふたつ、例を挙げておく。
(1)前走の上がり3ハロンの順位別の次走の勝率である。
もうふたつ、例を挙げておく。
(1)前走の上がり3ハロンの順位別の次走の勝率である。
前走上がり3ハロン順位
|
次走勝率
|
サンプル数
|
1
|
12.6%
|
4264/33748
|
2
|
11.7%
|
3630/31070
|
3
|
10.1%
|
3040/30016
|
4
|
9.0%
|
2614/28942
|
5
|
8.2%
|
2306/28018
|
6
|
7.3%
|
1995/27487
|
7
|
6.4%
|
1703/26644
|
8
|
5.7%
|
1477/25981
|
9
|
5.2%
|
1268/24606
|
10
|
4.6%
|
1084/23701
|
11
|
4.1%
|
911/22001
|
12
|
3.7%
|
754/20247
|
13
|
3.5%
|
622/17993
|
14
|
3.2%
|
505/15591
|
15
|
2.7%
|
356/13132
|
16
|
2.9%
|
268/9383
|
17
|
3.7%
|
90/2413
|
18
|
1.8%
|
31/1741
|
(2)出走間隔別勝率である。なお、出走間隔は対数化している。
対数11は、出走間隔が12日から14日であり、対数12は15日から17日であり、対数20なら90日から112日となる。
対数11は、出走間隔が12日から14日であり、対数12は15日から17日であり、対数20なら90日から112日となる。
出走間隔対数
|
勝率
|
サンプル数
|
9未満
|
6.4%
|
536/8440
|
9
|
6.0%
|
188/3118
|
10
|
5.2%
|
16/310
|
11
|
8.0%
|
4073/51070
|
12
|
7.8%
|
1433/18474
|
13
|
8.2%
|
6863/83371
|
14
|
7.7%
|
3340/43654
|
15
|
6.6%
|
2433/36919
|
16
|
6.3%
|
1701/27085
|
17
|
6.6%
|
1466/22347
|
18
|
6.3%
|
1131/18031
|
19
|
6.3%
|
930/14853
|
20
|
5.8%
|
988/17033
|
21
|
5.5%
|
698/12612
|
22
|
4.9%
|
404/8255
|
23
|
4.5%
|
320/7059
|
24
|
4.4%
|
198/4496
|
25
|
3.8%
|
94/2457
|
26
|
3.8%
|
57/1502
|
27
|
3.5%
|
32/908
|
28
|
2.7%
|
12/447
|
28超
|
1.8%
|
5/275
|
▼共通の言葉で統合されたデータを加減乗除する
以上、3つのデータ例をあげた。
説明のための集計なので、実践で活用できるレベルかどうかはわからないが、3つのデータはすべて「勝率」でそろえることができたのである。
これが、わたしのいう「情報を総合する」ということである。
以上、3つのデータ例をあげた。
説明のための集計なので、実践で活用できるレベルかどうかはわからないが、3つのデータはすべて「勝率」でそろえることができたのである。
これが、わたしのいう「情報を総合する」ということである。
(ある出走馬)
前走人気
|
1人気
|
前走着順
|
2着
|
前走上がり3ハロン順位
|
2位
|
出走間隔対数
|
13
|
(上記データの勝率換算=情報の総合)
(A)前走が1番人気で2着だった馬の次走勝率
|
0.297
|
(B)前走上がり3ハロン順位2位だった馬の次走勝率
|
0.117
|
(C)出走間隔対数13の勝率
|
0.082
|
勝率単純合計(A)+(B)+(C)
|
0.496
|
「共通の言葉」には、勝率を使わず、着順でも、スピード指数でも、皆さんが適当と思われるものを使えばよいと思う。
本来は数量化1類などの計算方法がよいかと思うが、このデータの加減乗除だけでも平均的な予想よりは精度が高いのではないかと思われる。
この方法が、馬柱すなわち馬個体別の分析、あるいは競走名ごとの過去10年の成績と違うのは、サンプル数が圧倒的に多いことだけではない。
過去のデータに基づいた、主観的ではない未来の予測なのである。
しかし、例えば、G1競走と未勝利戦では背景が違うという人はいるだろう。
強い相手と戦っての2着と弱い相手に競り負けた2着は違う、とか。
わたしは、だからこそ大量のデータを集め、背景を消している、と返答するだろう。
そして、背景を消す代わり、複数のデータを総合していると付け加えるだろう。
もう一度前夜の天気予報の話を考えてみてほしい。
過去に同じ事象はないのである。
10年に一度の台風といっても、同じ気圧配置、同じ気温、同じ日時に起こったデータがあるわけではないだろう。
あらゆる台風のデータから共通点を見出して、規則性、法則性を探り予報しているではないか。
競馬予想も同じである。
おこがましいが、目指すのは天気予報のような競馬予想なのである。
(SiriusA+B)
本来は数量化1類などの計算方法がよいかと思うが、このデータの加減乗除だけでも平均的な予想よりは精度が高いのではないかと思われる。
この方法が、馬柱すなわち馬個体別の分析、あるいは競走名ごとの過去10年の成績と違うのは、サンプル数が圧倒的に多いことだけではない。
過去のデータに基づいた、主観的ではない未来の予測なのである。
しかし、例えば、G1競走と未勝利戦では背景が違うという人はいるだろう。
強い相手と戦っての2着と弱い相手に競り負けた2着は違う、とか。
わたしは、だからこそ大量のデータを集め、背景を消している、と返答するだろう。
そして、背景を消す代わり、複数のデータを総合していると付け加えるだろう。
もう一度前夜の天気予報の話を考えてみてほしい。
過去に同じ事象はないのである。
10年に一度の台風といっても、同じ気圧配置、同じ気温、同じ日時に起こったデータがあるわけではないだろう。
あらゆる台風のデータから共通点を見出して、規則性、法則性を探り予報しているではないか。
競馬予想も同じである。
おこがましいが、目指すのは天気予報のような競馬予想なのである。
(SiriusA+B)