2017年2月27日月曜日

第155夜 集合知とオッズ


▼集合知
オッズを「オッズコンピュータ」と話したことがある。
オッズは投票者の総意であり、あたかもスーパーコンピュータを用いたかのように、正答に近い結果を弾き出す。
このようなものを「集合知」などという。
集合知は、正解に近い答えを出すことで知られる。
わたしは素人なので、詳しい理論は専門書やウェブサイトを参照いただきたい。
問題はオッズである。
単勝オッズは、例えば1番人気の場合、約3分の1の的中率を誇り、個々の予想家より良い成績を残す。
株式市場においても日経平均を長期間にわたって上回り続けるアクティブファンドは見当たらない。
超長期的にはパッシブファンドあるいはインデックスファンドと呼ばれるベンチマークに従った投資がアクティブファンドに勝ってしまうのだ。
これは集合知の優秀さを示す例だと言える。
専門家よりも集合知の方が優れた判断をしているのである。

ただ、わたしは、集合知にしては、オッズの的中率が3分の1にとどまる低さを問題視している。
もちろん競馬が成立しなくなると困るのだけれど、もう少し高い的中率にはならないものかと思ってしまうのだ。

▼他人の予想
オッズの的中率の低さの原因を、競馬がよくできていて偶然性が高いのか、あるいは集合知そのものに問題を孕んでいるのかと逡巡する。

仮に、競馬の偶然性が高いとしよう。
優秀な出走馬数頭は実力が拮抗しており、その日の調子や展開のアヤで結果が入れ替わる、という仮定である。
この場合、集合知であるオッズは予測不可能にしては比較的正確で、これ以上的中率が改善しないかもしれない。
他方、競馬の偶然性が低いならどうか。
この場合、オッズは思ったほど正確ではなく、衆愚化するバイアスがかかっている可能性がある。
集合知は、投票者が互いの影響を受けずに投票するので優れた能力を発揮するのだが、例えば予想紙の予想や刻々と変化するオッズに影響を受ける投票者がいると予測の精度は下がるらしい。
現実は、このふたつの仮定の中間のいずれかの地点ではないかと思量する。
ただ、ひとつ言えることは、一定の比率で他人の意見に影響を受ける投票者がおり、幾らかのオッズを歪めていると思われる。

集合知であるオッズが各出走馬の実力を正確に反映しているかどうかは、オッズの逆数から導き出せる予想的中率と実際の的中率との差異で検証できる。
全体としてはオッズは正確であると思われるが、個々のレースに注目したとき、とても正確とは言えない結果に終わることも少なくない。

オッズ予想、予想家の印どおりに買う、オッズを見ながら資金配分する。
こうした他人の投票行動に影響される投票者がかなり存在することから、的中率の「限界」はもう少し高いところにあるのではないかと思われる。
見方を変えれば、バイアスのかかっていない集合知、すなわち「純粋なオッズ」が存在するのではないかと思うのである。
もし、純粋なオッズがあるとするなら、単勝1番人気の勝率は3分の1ではなく、もう少し高くなるのではないだろうか。
(SiriusA+B)

2017年2月23日木曜日

第154夜 コンディションを計測できないものか、わたしの集計の考え方も紹介しつつ考える


▼調子の良し悪しか成長か
競走馬も生き物だから、コンディションによって走らないときもある。
基礎的な能力だけで結果を予測できないからこそ競馬が成り立つのだが、好調・不調を計測することは難しい。
経験を積んでレースを覚えることも、特に若馬では成長もある。
ベースとなるレースさえ、馬場状態やコース形状も一定しないので、走破タイムなどから推定することを難しくしている。
ということで、この際、調子の良し悪しか成長かを考えるのはやめて、「次走で走りそうかどうか」を直接的にアプローチしてみたい。

▼人気と着順
今回は、前走のデータだけを使って考えることにした。
他にも良いデータはあると思うけれど、その捜索作業はいずれの機会に譲り、ここでは前走人気と着順を組み合わせる。
前走で調子の良かった馬は、極短期的には次走も好調を維持するという単純な発想である。
前走の着順はそのままでも優れた指数として利用もできるし、前走の人気も同様だ。
調子のバロメータとも捉えることとする。

問題は組み合わせ方だ。
単純な方法なら、前走人気数18×前走着順数18324通りだ。
わたしはよく、9着以下あるいは9番人気以下をひとまとめにする。
今回もそうしようと思ったのだが、それでも81種類である。
このブログでは2006-2014年の9年分のデータベースを使っているが、「完走馬」は延べ430,278頭である。
324
通りに分けると1種類あたり平均1,300余頭にしかならず、勝利頭数はさらに100頭を切ってしまい、データの信頼性が下がるのだ。
あるいは1種類あたり0.3%と言い換えれば納得いただけるかもしれない。
81
種類でさえ、1%余りである。
これでは「誤差」と大差ないのだ。
81種類かぁ、チョット多いな」
と考えて、「調子の良し悪しの計測であること」を念頭に工夫することにした。
まず、精度の高い前走着順をベースにすることにした。
9
着以下は相変わらずひとまとめにする。
前走人気だが、どう扱うか。
いろいろな方法があるけれど、わたしは前走着順と人気を比較して、「前走着順より高い人気」と「前走着順より低い人気」に分けることにした。
3
着の馬なら、「1-3番人気で3着」か「4番人気以下で3着か」とするのである。
つまり、前走着順を2種類に分ける。
これなら18種類で済む。
記述すれば簡単な話だが、このようにしてデータを加工していくのである。

▼数値にすること
以上の方法で次走の勝率を調べた結果が下表である。
前走が同じ着順でも、結構違うな、という印象であった。
上り調子、下り調子の馬の選別というより、騎手や調教師が悔しくてリベンジを果たそうとする人間の力のほうを強く感じる結果になった。
コンディションはもう少し別の要素で考えたほうがよさそうである。
前走着順
前走人気
該当件数
1着頭数
勝率
1
1人気以上
9,243
1,292
0.140
2
2人気以上
10,753
2,906
0.270
3
3人気以上
11,597
2,270
0.196
4
4人気以上
12,262
1,714
0.140
5
5人気以上
12,965
1,467
0.113
6
6人気以上
13,440
1,222
0.091
7
7人気以上
14,039
1,026
0.073
8
8人気以上
14,571
925
0.063
9着以下
9人気以上
110,869
3,503
0.032
1
2人気以下
19,675
1,602
0.081
2
3人気以下
18,301
3,110
0.170
3
4人気以下
17,336
1,881
0.109
4
5人気以下
16,475
1,305
0.079
5
6人気以下
15,604
817
0.052
6
7人気以下
14,370
610
0.042
7
8人気以下
13,397
409
0.031
8
9人気以下
12,459
262
0.021
9着以下
10人気以下
45,360
624
0.014
前走記録なし
 
47,562
2,987
0.063
全体
 
430,278
29,932
0.070

今回は馬のコンディションを数値にしてみようと考えたが、コンディションだけではなく、予想に使う道具(要素)はできる限り数値化を試みておきたい。
血統、馬格、調教師や騎手のコメントなど、ともすれば「呪文」でも唱えているかのような並べ立てだけで分析していない人もいるように思える。
しかし、分類することで、霧が晴れたように思考が整理される。
1
番、2番と数字にすることには、予想に組み込みやすくなること、判断が固定してブレにくくなること、のふたつの利点がある。
事象それぞれに番号を振り、勝率や連対率を集計してみる。
コメントひとつをとってみても、「強気・弱気」で分類するとか、「放牧あり、なし」とか、「この中間、熱発したが、というコメントを含む」とか、分け方はいろいろある。
分類できたら、あとは結果がどうだったか集計するだけである。
(SiriusA+B)

2017年2月19日日曜日

第153夜 遺伝学みたいな手法で血統に思いを巡らせる

▼競馬に強い遺伝子()
今夜は抽象的に過ぎるかもしれない。
いわゆる「スピード遺伝子」について考えていたら、こんな仮説もできるか、と思ったのだ。
頭の体操なので、まあこんな考え方もあるという程度に眺めていただければ。

一般的な血統論では、ある種牡馬の産駒をすべて同一の「血」として扱い、傾向のばらつきを母系か、数代前の祖先に遡って説明を補う。
これには多少無理があって、体系的な説明をしにくい原因になっている。
要するに同じ血統で優駿と駄馬が出現する説明ができないのだ。

そこで、わたしは「競馬に強い遺伝子」というものがあると仮定してみることにした。
わたしの頭の中での話なので、何をもって強いと言うか、そんな遺伝子があるのか、といったことは、ひとまず置いておく。
その遺伝子は、才能豊かな「R」とそれほどでもない「P」の組み合わせになっている。
R
richPpoorの頭文字を採った。
競走生活で淘汰されたとして、種牡馬は「RR」型か「RP」型しかいないとする。
肌馬にはこれに加えて「PP」型が混じっているとも仮定する。
遺伝は両親からひとつずつ受け継ぐので、組み合わせは以下のようになる。
1)
RR型母RR
産駒は100%RR
2)
RR型母RP
産駒は50%RR型、50%RP
3)
RR型母PP
産駒は100%RP
4)
RP型母RR
産駒は50%RR型、50%RP
5)
RP型母RP
産駒は25%RR型、50%RP型、25%PP
6)
RP型母PP
産駒は50%RP型、50%PP
である。

RR型とRP型の2種類、母RR型とRP型とPP型の3種類と仮定したのだが、PP型の種牡馬がいると考える人は加えてもらえればと思う。
産駒の型のパーセンテージは、すべて市場に出回っているわけではないので予想のしようがないものの、
RR型種牡馬の産駒はRR型かRP型である。
RP型種牡馬の産駒はRR型、RP型、PP型のいずれもある。
ということはわかる。

▼血統論の否定?
前項の仮定理論では、「血」という1種類で考えるのではなく、遺伝学的な思考で「1頭の種牡馬の産駒は、2ないし3種類に分けられる」ということを示した。
むしろ、1種牡馬=1種類という考え方ではいろいろ説明できなかったことが説明できるということである。

この仮定理論を推し進めるとなかなか応用が利き、面白い。
例えば肌馬である。
肌馬については資料が少なくなるので未知となる場合が多いだろうが、3種類すべてを用意した。
注目すべきはPP型である。
この理論のとおり、もしも種牡馬からR遺伝子を受け継いだなら、PP型の肌馬からもRP型産駒が生まれ、さらにRR型の孫まで出現することも考えられるのだ。
「種牡馬が重要」とか「地味な血統から優駿が」とかいったことは、血統を遡らなくてもこの理論なら説明できそうということだ。
ディープインパクトを種牡馬RR型と仮定するなら(実際、産駒の成績からはそうみえる)、産駒はRR型とRP型となる。
「そんなことはない。勝負にならない馬もいる」と言うなら、種牡馬がRP型か、ひとつの遺伝子で決まらないということか、競馬は血統以外の要素が多いか、のいずれかである。
これは血統論の否定か競馬予想における重要度の引き下げを意味するように思うのだが、いかがであろう。
もちろん、こんな遺伝子があるとしての話だが。
(SiriusA+B)

2017年2月15日水曜日

第152夜 上がり3ハロンという指標を競馬全体の中で位置付ける

▼レースの分割分析
上がり3ハロンという指標がある。
「ハロン」とはポンド・ヤード法の単位で約200mを表す。
上がり3ハロンとは、ゴールから逆算して600メートルのことなのだが、一般にはその走破タイムをいう。

見方はどうであれ、予想で重視している人は少なくないと思う。
わたしは以前から「何故3ハロンなのか」と疑問に思っていたのだが、あるとき、上がり4ハロンといった指標も昔はあった(今もあるにはあるが)と知って、それを手掛かりに考えてみたことがある。

少なくとも、上記の事実から、
・何らかの理由で、600m800mより、距離か走破タイムのいずれかで実力を表すのに優れている指標と考えられていること
が推定できたのである。

冷静に考えると、他にも疑問はあった。
・何故前半ではなく、平均でもなく、上がりなのか
・何故「そこだけ」取り出した指標が注目されるのか。

わたしは運動生理学についてまったく知らないのだが、こうした疑問に解決策を教えてもらえそうだ。
なお、大量に「素人の思い違い」があるかもしれないので、あくまで私見である。

▼レースはすべて中距離走?
サラブレッドにとって、1,0003,600mの中央競馬の競走は、人間の中距離走に近いように思う。
もし仮に人間の陸上競技に例えるとしたら、800m(400m走より少し長めの辺り、が正確)から3,000m走あたりが中央競馬のサラブレッドの競走とタイムが近い。
馬と人間では速度に大きな違いはあるけれど、同じ所要時間での筋肉や呼吸器系の推移には少なからず共通点があるのではないかと考えている。
この考えでそれほど問題ないのであれば、時速60kmの高速で走るとはいえ、本当に全力疾走しているのは数百mであるように思う。
人間なら、瞬発力と持久力のせめぎ合う距離である。
最後の力を振り絞るところが上がり3ハロンと言え、その馬の能力を推し量るのに好都合だということである。
(SiriusA+B)

2017年2月11日土曜日

第151夜 競馬予想の常識は敗者の理論


▼「常識」が大勢の考えであるなら
「競馬予想サイトや予想ブログで信用できるところはどのくらいありますか」という質問には、回答以前に考えさせられた。
わたしの回答は「仮に正しいと思われる内容でも、とにかく疑ってかかってはどうでしょう」である。
もちろん私見であって、そんなことはないという人もいると承知している。
ただ、例えば血統理論のような、理論的に明らかな誤りだけでなく、サンプル数の少ないデータから導き出した話や、思い込みと思われる話はやはり多いように思うのだ。

「常識」が大勢の考えであるなら、かなり多くの「常識」を疑ってかからねばならないのが競馬予想である。
勝っている人が圧倒的に少ない世界なのだ。
常識が敗者の理論だと思ってもいいくらいかもしれない。

実は、正しいのか正しくないのかを判断することは難しい。
判断するには、すべて自分で検証して初めてできる。
わたしが「怪しい」と思うものには2種類あって、1つが「再現実験のできないもの」、もう1つが「再現実験が十分ではなく、自分で検証すべきもの」である。
前者は問題外で、危険な誘導を警戒すべき話とみて良いだろう。
しかし、少なくとも後者は面倒でも検証してほしい。
そう、競馬予想の世界は勉強するにも面倒臭いのである。

▼疑問を抱く()
一方で、「そんなに疑問があるだろうか」とお考えの方は、以下の文章を読んでいただきたい。
予めお断りしておくが、他人の批判ではなく、読者視点での読み方をお話しするものである。
そもそも競馬の主目的はレジャーであって収支黒字を本気で確保しようというのは、全体から見れば異端なのだ。
ほとんどの人には間違っているとか、理論的に正しくないとか、そんなことは関係ないのである。
それを理解した上で、真面目に話をすれば、ということを頭に入れておいていただきたい。

「中央競馬は年間に1,000レースも行なわれています。初めて競馬をする人はレースの条件について知る必要があります。午前中は未勝利戦や下級条件戦が組まれており、メインレースとなるオープン競走、中でも最も格上のG1レースは重要です。初心者のうちは難しいですが、馬を見る目、そして展開を読む力が必須です。血統は膨大な知識が必要ですが、血統の背景を掴むと有力馬がわかるようになります」

上記の文章を教科書に、疑問を持ち検証すべき点を列挙したい。
(1)
年間に1,000レース
中央競馬は年間3,454レースくらい施行されている。
年間288日、1日最大12レースで、3,456レース可能だが、有馬記念などの日は11レースしか行なわないためこのような数字になる。
これは調べればわかる典型的なもの。
(2)
レースの条件について知る必要がある
初心者に一生懸命教えてくれる人を見かけるけれど、初心者こそ目の前のレースに興じ、関心が高まったところで学べばいいと思うがいかがか。
いずれ必要だが、競馬を楽しむという点では絶対不可欠の知識とは思わないのだが。
余談だが、ウインズで出会った競馬歴20年以上というおっちゃんは「3歳上」「4歳上」の区別も知らなかったが、充分楽しんでいたし、勝ち越した年もあったという。
勝ち負けと知識の深さには、思ったほど相関性がない。
(3)
最も格上のG1レースは重要
競馬主催者、馬主、調教師、騎手など関係者にとっては重要だが、馬券購入者には未勝利戦と大差はない。
情報の多寡を理由に挙げる人もいるけれど、騎手のコメントや調教データが増える程度。
G1レースは厚めに買う」行為は、お祭りに参加する意味では楽しいが、収支計算を考える上では理に適った行為ではない。
なお、この考え方を応用して「あまり信用しないサイト」の判断材料にすることもできる。
例えば「忘れな草賞3連単的中!!」といった看板を掲げるサイトなら、馬券収支黒字を目指す読者の皆さんにはあまり役立たないだろう。
メインレースを厚めに買うレジャー向きサイトだと思って、力を入れて読む必要は無さそうだ。
(4)
馬を見る目、そして展開を読む力が必須
初心者に限らず、相馬眼や展開予想力を身につけることは難しい。
少なくとも「必須」ではない。
(5)
血統の背景を掴むと有力馬がわかるように
血統は調べるほど面白いと思うが、有力馬を判断できるようになるものではない。
このブログでは再三指摘しているように、主流の血統理論は誤りであると思っている。

▼鵜呑みにしない力を
競馬予想の常識は、あまり信頼性の高いものではない、とわたしは感じている。
前項のほかにも、驚くような常識はある。
いろいろ採り上げたいけれど、いずれまたどこかで記事にしたい。
競馬予想の世界では「人の話を鵜呑みにしない力」を必要としているのだが、そんな力を持っている人のほうが少ないように思う。
少なくとも、そのことを認識してるかどうかですら、結果は変わってくるだろう。
(SiriusA+B)

ブログ アーカイブ