▼目指すのは天気予報?
いつも意識しておくべきことは、人間には未来を確実に予想することはできない、ということだ。
過去の経験を総合して実際に起こる確率の高そうなところをイメージするにすぎない。
天気予報でも、株式市場でも、あるいはまだまだと思うが大地震の予想でも、予想・予測と言われるものは、すべて過去のデータに基づき、出現可能性の最も高い事象を述べているだけである。
発表者によって異なるのは、サンプル数、過去の事象の捉え方(切り口)の違いによる。
注意したいのは、サンプルデータが多いほど精度も上がっていく(オーバーフィッティングにならない場合)一方、わずか数例だけをみて法則を見つけたと言う人もいることである。
残念ながら、サンプル数が少ない人ほど、検証が足りない場合が多いように見受けられる。
いつも意識しておくべきことは、人間には未来を確実に予想することはできない、ということだ。
過去の経験を総合して実際に起こる確率の高そうなところをイメージするにすぎない。
天気予報でも、株式市場でも、あるいはまだまだと思うが大地震の予想でも、予想・予測と言われるものは、すべて過去のデータに基づき、出現可能性の最も高い事象を述べているだけである。
発表者によって異なるのは、サンプル数、過去の事象の捉え方(切り口)の違いによる。
注意したいのは、サンプルデータが多いほど精度も上がっていく(オーバーフィッティングにならない場合)一方、わずか数例だけをみて法則を見つけたと言う人もいることである。
残念ながら、サンプル数が少ない人ほど、検証が足りない場合が多いように見受けられる。
競馬予想の世界でも、十分なサンプル数を持たない予想も少なくない。
重賞のような競走名のあるレースの「過去10年の傾向」などはその最たる例で、10走程度のデータに基づく馬券購入などわたしはとてもできないが、数字が並んでいるので信頼する人も多いようだ。
天気予報を思い描いてほしい。
天気とは大気という流体運動の予測であり、あれだけのデータを集め、蓄積しても100%的中させることはできないのである。
競馬は流体運動よりは難易度が低いのかもしれないが、10走程度の予想があまり参考にならないことは、天気予報を考えれば容易に想像できるはずである。
重賞のような競走名のあるレースの「過去10年の傾向」などはその最たる例で、10走程度のデータに基づく馬券購入などわたしはとてもできないが、数字が並んでいるので信頼する人も多いようだ。
天気予報を思い描いてほしい。
天気とは大気という流体運動の予測であり、あれだけのデータを集め、蓄積しても100%的中させることはできないのである。
競馬は流体運動よりは難易度が低いのかもしれないが、10走程度の予想があまり参考にならないことは、天気予報を考えれば容易に想像できるはずである。
気象庁の大型コンピュータほどのことはできないにせよ、競馬予想が目指すのは天気予報ではないだろうか。
可能な限り情報を集め、科学理論で総合し、予測する。
わたしたちは「科学理論で総合し」というところでしのぎを削りたい。
しかし、あちこちの予想サイトを見る限り、それ以前の「可能な限り情報を集め」というところでラクをしようとする人が多い。
情報を集めても、どうやって「総合していくか」がわからないから、というのは理由としてあると思う。
可能な限り情報を集め、科学理論で総合し、予測する。
わたしたちは「科学理論で総合し」というところでしのぎを削りたい。
しかし、あちこちの予想サイトを見る限り、それ以前の「可能な限り情報を集め」というところでラクをしようとする人が多い。
情報を集めても、どうやって「総合していくか」がわからないから、というのは理由としてあると思う。
▼情報を総合するには
わたしの場合、前夜(第56夜 馬の名前)に触れたとおり、個体ごとの分析はしていない。
個体のプロフィールを並べ、それに該当するものを過去10年分の出走データとつき合わせるのである。
情報を総合していくのに必要なのは、すべての情報をひとつのツールに統合することである。
例えば、「着順」をキーにしてみよう。前走が1番人気で2着だった馬は、今回何着になるか、と考えるのだ。
2006年から2014年までの平地競走完走馬430,278頭(競走中止データは除いている)で試してみる。
このデータによると、勝率は29.7%に及び、着順の平均は3.79着である。
情報を総合するためには、例えば29.7%という数字を使うのである。
あるいは着順である3.79を使う。
わたしの場合、前夜(第56夜 馬の名前)に触れたとおり、個体ごとの分析はしていない。
個体のプロフィールを並べ、それに該当するものを過去10年分の出走データとつき合わせるのである。
情報を総合していくのに必要なのは、すべての情報をひとつのツールに統合することである。
例えば、「着順」をキーにしてみよう。前走が1番人気で2着だった馬は、今回何着になるか、と考えるのだ。
2006年から2014年までの平地競走完走馬430,278頭(競走中止データは除いている)で試してみる。
このデータによると、勝率は29.7%に及び、着順の平均は3.79着である。
情報を総合するためには、例えば29.7%という数字を使うのである。
あるいは着順である3.79を使う。
(次の夜につづく)
該当件数
(前走が1番人気で2着だった馬)
|
5,560頭
|
今回1着
|
1,652頭
|
今回2着
|
1,003頭
|
今回3着
|
756頭
|
今回4着
|
521頭
|
今回5着
|
364頭
|
今回6着以下
|
1,264頭
|
平均着順
|
3.79着
|
(SiriusA+B)