2016年1月26日火曜日

第57夜 競馬予想でサンプル数の確保が必要な理由(前編)


▼目指すのは天気予報?
いつも意識しておくべきことは、人間には未来を確実に予想することはできない、ということだ。
過去の経験を総合して実際に起こる確率の高そうなところをイメージするにすぎない。
天気予報でも、株式市場でも、あるいはまだまだと思うが大地震の予想でも、予想・予測と言われるものは、すべて過去のデータに基づき、出現可能性の最も高い事象を述べているだけである。
発表者によって異なるのは、サンプル数、過去の事象の捉え方(切り口)の違いによる。
注意したいのは、サンプルデータが多いほど精度も上がっていく(オーバーフィッティングにならない場合)一方、わずか数例だけをみて法則を見つけたと言う人もいることである。
残念ながら、サンプル数が少ない人ほど、検証が足りない場合が多いように見受けられる。

競馬予想の世界でも、十分なサンプル数を持たない予想も少なくない。
重賞のような競走名のあるレースの「過去10年の傾向」などはその最たる例で、10走程度のデータに基づく馬券購入などわたしはとてもできないが、数字が並んでいるので信頼する人も多いようだ。
天気予報を思い描いてほしい。
天気とは大気という流体運動の予測であり、あれだけのデータを集め、蓄積しても100%的中させることはできないのである。
競馬は流体運動よりは難易度が低いのかもしれないが、10走程度の予想があまり参考にならないことは、天気予報を考えれば容易に想像できるはずである。

気象庁の大型コンピュータほどのことはできないにせよ、競馬予想が目指すのは天気予報ではないだろうか。
可能な限り情報を集め、科学理論で総合し、予測する。
わたしたちは「科学理論で総合し」というところでしのぎを削りたい。
しかし、あちこちの予想サイトを見る限り、それ以前の「可能な限り情報を集め」というところでラクをしようとする人が多い。
情報を集めても、どうやって「総合していくか」がわからないから、というのは理由としてあると思う。

 

▼情報を総合するには
わたしの場合、前夜(56夜 馬の名前)に触れたとおり、個体ごとの分析はしていない。
個体のプロフィールを並べ、それに該当するものを過去10年分の出走データとつき合わせるのである。
情報を総合していくのに必要なのは、すべての情報をひとつのツールに統合することである。
例えば、「着順」をキーにしてみよう。前走が1番人気で2着だった馬は、今回何着になるか、と考えるのだ。
2006
年から2014年までの平地競走完走馬430,278(競走中止データは除いている)で試してみる。
このデータによると、勝率は29.7%に及び、着順の平均は3.79着である。
情報を総合するためには、例えば29.7%という数字を使うのである。
あるいは着順である3.79を使う。

(次の夜につづく)



該当件数

(前走が1番人気で2着だった馬)

5,560

今回1

1,652

今回2

1,003

今回3

756

今回4

521

今回5

364

今回6着以下

1,264

平均着順

3.79

(SiriusA+B)

ブログ アーカイブ