2017年3月29日水曜日

第161夜 第1部から第2部へ(3)ーーこれまでのふりかえり、要素と全体、複雑系の予測限界

▼確率、大数の法則
前夜からつづく。
わたしは文系で数学が苦手と申し上げてきた。
そんなわたしでも「?」と思うような確率論や統計が競馬予想の世界には多い。
33夜には「次の競走で1番人気がくる、とは考えないほうがいい」と題して、いわゆる「揺り戻し」に否定的な見解を述べた。
「独立な試行の確率」であり、前の競走結果は次の競走結果に影響しない。

さらに第88夜「大数の法則と競馬の予想」では、大数の法則により、投票者の回収率が75%に近づくという考えに疑問を投げかけた。
「大数の法則から免れることはできないし、収束はするが、全員が75%になるわけではない」というのが、わたしの考えである。

確率や統計の知識はあると便利だ。
厳密な意味ではないが「80-20の法則」も第95夜で紹介した。
上位20%が全体の80%を占めるというものである。
この経験則を活かして、第123夜「勝馬投票券に影響力を持つ者の存在を仮定する」で、大量投票の影響を推測してみた。
150夜には、宝くじナンバーズ4のストレートのデータから、当選確率は同じでも投票行動にムラができることを紹介した。

統計をとると、というか、きちんと調べると、常識的な感覚と乖離している事象に驚かされることもある。
例えば第105夜「年毎に接戦が増えているかもしれない問題と距離の関係」では、競走距離が伸びるに従い勝馬との着差が縮まる傾向にあることを示した。
また、ダート競走では力が要るとかメンバーにバラツキがあるという「常識」に、速度換算すれば芝とダートの標準偏差に差はあまりないという観測結果を突きつけた。
112夜「芝とダートをつなぐ回廊、速度データ」である。

▼投票戦略
投票戦略にも何度か言及してきた。
一向に上がらない的中率をカバーするために、資金配分を工夫して収支を改善しようとする試みがある。
だが、的中率の改善なくして資金配分による勝負に勝ち目はないとわたしは考えている。
非常に豊富な資金で勝負する方法(このブログでは少なくとも1レース60万円以上を継続的に投入できるレベルをいう)では、オッズを見ながら資金を配分する必要があるが、一般の投票者はオッズに影響されない投票行動が求められる。
このあたりの話は第14夜「馬券の買い方とリスク」、第59夜「オッズを見て馬券を購入するということは、勝つ見込みのない戦いをするようなもの」などで書いた。
全レースを買いたい人は、「引き分け」すなわち収支トントンのレースを作ることも戦略上不可欠かと思う。

また、馬券の買い方についても第80夜「馬券の種類を分けてもリスク分散になる」でわたしの購入試案を示した。
的中率、資金の消耗をよく考えて勝負しなければならないというわたしの考えがこの記事の根底にある。

▼しばらく休載
そのほか、デビュー戦の成績、馬の誕生日、枠順、牝馬、オッズ理論、果ては「競馬基礎講座」が多い理由まで、あれこれ分析している。
興味があれば参照いただければ幸いである。

さて、このシリーズ記事の冒頭(159)に触れたように、1か月程度記事の更新を止める。
更新頻度を4日程度から5日程度にしたりしたが、書きだめも難しく、観念した。
再開後も体裁や更新頻度は変わらない予定だ。
ただし、記事にはレース全体を捉えた理論・研究を採りあげる割合が増えるだろう。
(SiriusA+B)

2017年3月24日金曜日

第160夜 第1部から第2部へ(2)ーーこれまでのふりかえり、要素と全体、複雑系の予測限界

▼スピード指数
前夜からつづく。
個別要素について、これまで雑然と記事にしてきたことを簡単に振り返る。
舌足らずだた点も少し補っておきたい。
以降、断定的な記述もあるが、あくまでも、わたしの視点であって、他者を批評するものではないことをおことわりしておく。
そもそも競馬は楽しむもので、本気で長期間のプラス収支を目指す方が異端である。
好きに考えるのがふつうであり、こうあるべきと決めつけるほうがおかしいことなのだ。

さて、スピード指数である。
まず、計算方法については、速度に換算するほうが良い。
時速60km/h前後になる。
6夜、第7夜の「走破タイムを分析するなら速度に変換することをおススメ」を中心に記載した。
走破タイムそのものより歪みが少ないことが最大の利点である。

スピード指数の考え方については、疑問を呈してきた。
76夜、第77夜「スピード指数に代わるもの」の思索の中で述べたのだが、わたしは馬の能力を「速さ」というより「強さ」と表現するほうがいいと思っている。
誰も走破タイムを競っているわけではない。
結果として1着になった馬が最も優秀な走破タイムになっただけである。
つまり、本末転倒なのではないだろうかと考えている。
加えて、馬が競走中ずっと全力疾走しているわけでもない。
152夜「上がり3ハロンという指標を競馬全体の中で位置付ける」では、馬の全力疾走が数百メートル程度であることを話題にした。
全力疾走が前提なら、上がり3ハロンという指標は不要なのだ。

▼血統論
古典的な血統論は、このブログで繰り返し疑問を呈してきた。
振り返ると、話題に困るたびに血統理論叩きをしていたのではないかと思われるほど、記事の数がある。
実は、血統好きの領域には遠く及ばないが、わたしは血統の話が好きである。
半面、不思議な理論が多いことも不満であった。
そもそも先祖に遡る理由付けは生物学や遺伝学に則っていない。
メンデルの法則で競走馬が例外であることはない。

また、遺伝学的には母馬の影響は半分か半分以上あるのに父馬中心の分析では不十分である。
母馬はサンプル数の確保が難しいのだが、これについては第11夜「祖先馬が分析を可能に」で、母系のみで引き継がれるミトコンドリアDNA(mtDNA)を拠りどころに100年あまり遡る母馬(わたしは祖先馬と名付けている)でまとめサンプル数を確保するアイデアを示した。

血統理論はロマンがあって楽しいのだが、学術的裏付けがないこともさることながら、統計的データを示したものが少ないことも不満である。
例えば、奇跡の血量も統計的には意味がないことを指摘したことがある(75夜「奇跡の血量18.75%の実力を検証する」)
また、数百頭の繁殖牝馬のデータを使って、競走成績と繁殖成績の関係性を分析したこともある。
これは第124夜から始まるシリーズをご覧いただきたい。

ところで、血統理論では、良血馬の定義も曖昧、父系の呼称の定義も不確かだ。
このことは、第37夜「血統論の話」で触れている。
しかし、光明はある。
50夜「新しい血統理論が構築される日は近い」で述べたように、遺伝学的アプローチが登場する日も近い。

ほかの話題については次の夜に振り返ることにしたい。
(SiriusA+B)

2017年3月19日日曜日

第159夜 第1部から第2部へ(1)ーーこれまでのふりかえり、要素と全体、複雑系の予測限界

▼お詫び
気がつけば150回以上にわたり、拙い記事を連ねてきた。
持ちネタが少なく、同じことを何度も書いてきたので要約すれば僅かな中身しかない。
仕事は忙しいほうで、いや、効率が良くないので、世間様の平均よりは就業日数が多く、1日の労働時間も平均より長い。
不器用なので会社で余計なエネルギーを使っては、週末に昼過ぎまで寝込んでいる。
記事を書くにも、ちょっとした時間を見つけては12行ずつ書き進めるような状態で、話が飛んだり、タイトルから逸れた結末になったりした。
148夜が欠番になっていることも最近気づいた次第である。
時間切れでアップするものだから、誤字脱字も自分が思っていたよりある。
そういうわけで、お読みいただいた方には不親切なブログで申し訳ないことをした。
ちょうど1か月ほど更新が滞る予定なので(実は転勤でね)、この機会にお詫びしておこうとした。

このブログは、これから緩やかに次のステージに移っていく。

▼要素還元主義と複雑系の理論
このブログは第1部から第2部に移ろうとしている。
きちんとした書き物ではないので、明確にテーマが変わるのではない。
ただ、以後は徐々に個別要素からレース全体を捉えた予想手法について述べる記事が増えてくる。

長い間、わたしは主に要素ごとの勝率や順位について言及してきた。
ここまでの記事の多くは、「要素還元主義」と言える考察方法であった。
複雑な事象から要素を取り出して要素ごとに分析する手法である。
ちゃぶ台をひっくり返すようで申し訳ないのだが、要素別データには大きな落とし穴があって、要素の総和が全体より大きくなってしまうことがある。
競馬に限らず世界は複雑で、目立つ要素を分析しても、全体の予測に繋がらないことがしばしば起きる。
こういうものを複雑系という。

複雑系では、「創発特性」という要素の集合体で発生する動きを予測することはできない。
例えば気象予報を思い浮かべるとわかりやすいが、要素の抽出(気象観測)さえ困難で、さらに、要素を合わせて全体の動きを見通すことは極めて難しいのである。
観測精度を上げてもあまり意味がなく、刻々と動いていくものの予測はほぼ不可能、というのが、現在の科学である。

では、これまで述べてきた話は無駄だったのかと言われれば、それはまったく違う。
実は第1部、つまりこれまでの記事では、個別要素を使って各出走馬の能力順位を付ける作業をしてきたのである。
155夜「集合知とオッズ」で、オッズがスーパーコンピュータのようであると同時に精度が低いのではないかと述べた。
個別要素をいくらブラッシュアップしても、オッズには敵わないのだが、オッズも他者の投票行動に左右される者が少なからずいて集合知にしては「純度」が低い。
それで、オッズに代わる出走馬の能力付けのために、前走着順、賞金、走破タイム、血統などについて考察してきた。
結局、勝率20%くらいはさまざまな手法で可能だが、個別要素だけで25%を大きく超えることは難しい。
ましてや約33%程度のオッズ1番人気に遠く及ばなかったのだが、引き続き研究を続けていく。
150
回を超えたので、スピード指数、血統などについて、これまで雑然と述べてきたものを整理しつつ、次の夜に振り返ることにする。
(SiriusA+B)

2017年3月14日火曜日

第158夜 本命党と穴党、的中率と回収率

▼長い論争
的中率と回収率のどちらが重要か、という論争は長く競馬ファンの間にある。
的中率×回収率>1
となればどうでもいい議論かもしれないが、これがなかなか難しいこともまた、競馬ファンは骨身に染みている。
この論争は、破綻リスクとでも言おうか、資金が枯渇する危険にどれだけ対策をするかの大小で主張が決まる。

競馬とは、不的中時の資金の減少をいかに抑えて破綻を回避しつつ、好機にしっかり回収するかというゲームである。
資金を減らさない方法としては、賭ける金額を極力抑えるか、こまめに回収して出血を抑えつつチャンスを待つか、どちらかである。
10%
台の的中率で勝負している人もいるようだが、この手法では資金が底をつくことがないように予備を大きく持つ必要がある。
一般には、ある程度の的中率を確保した上で回収率を改善していくのが資金を効率良く回転させる手法であるように思う。
的中率を上げつつ死票を減らす方法として、第14夜「馬券の買い方とリスク」では、複数の券種を組み合わせることによって的中率を上げ、大きなチャンスを待つ後者の戦法例を示した。
そのほかにも「引き分け」の概念も話題にしたことがある。
(
特に同一券種の)複数の馬券を購入する場合、均等に回収するのではなく、利益の出る馬券を大きく買い、他の馬券では収支トントンに近いくらいの購入額に抑えるというものだ。
的中したからには大きく儲けなければならないという考えを少しばかり抑制するもので、心の余裕が必要かもしれない。

▼本命党、穴党
ところで、馬券購入者を本命党と穴党に分類することがある。
オッズが低くても人気の馬を選ぶのが本命党で、当たれば大きな配当が得られる馬券を買うのが穴党と呼ばれる。
的中率と回収率の考え方が如実に表れている例と言って良い。
しかし、予想した結果として本命サイドに偏ったりするのであればいいのだが、オッズを睨みながら買い目を増やしたり減らしたりするような行為が常態化しているのであれば長期的には儲けられないだろう。
このような賭け方は、オッズすなわち投票者の支持率に乗ってしまっており、最終的に寺銭を差し引いた回収率に落ち着いてしまう。
主体的に予想した結果と世間の支持率に乖離が生じたときに影響を受けないスタンスで臨めばいいのだ。
ほとんどオッズ通りの予想であれば本命党、いつもオッズと乖離した予想であれば穴党、というなら問題はない。
しかし、オッズを見て本命寄りの馬券を買うとか穴党の馬券を買うという行為なら、かなり高い確率で破綻するだろうと考える。
オッズすなわち世間の支持率に堂々と対抗できる馬券術でない限り、未来はないと思って良い。
わたしの場合は人気とは無関係で、結果として多くの割合で1番人気とかぶるけれど、穴馬に評価される馬も紛れている。
こうした状況が普通であり、すべて本命寄りの、あるいは大穴の馬券に揃える方が違和感を憶える。
この選択パターンで、本命の割合が高い人は本命党、少ない人が穴党ということではないか。
少なくとも、買い方で本命党・穴党というのは繰り返しになるが未来はないと思って良い。
(SiriusA+B)

2017年3月9日木曜日

第157夜 合計、平均、多数決

▼代表値
代表値とは要約統計量とも言い、ある変数を要約したものである。
合計や平均はよく知られ、また活用されているが、このほかに真ん中の数値を表す「中央値」や、最もよく出でくる「最頻値」などもある。
こうした代表値の便利な点は、大量のデータを「ひと言で言えばこうだ」と表現できることである。

競馬予想では、複数の指数を組み合わせて投票する馬を決める手法が多いように思っている。
それぞれの要素に点数を付ける。
その合計や平均を予想とするのである。

▼オッズの決定方法
一方、オッズは多数の投票者により1番人気が形成される点で代表値とは異なる(最頻値と似ている。わたしには上手く説明できないが、ちょっと違う)
単勝1番人気は勝率約33%だが、投票者でこの勝率を上回る者はほとんどいない。
株式市場でもよく似ていてベンチマーク(日経平均株価や東証株価指数)を長期的に上回るアクティブファンドはほぼない。
投票者それぞれの的中率の低い投票を集めた結果が最も高い的中率となる事実に、不思議な感じを抱いたことはないだろうか。
この疑問の解決には集合知、多数決についての理解が必要なようである。
詳しくは専門のサイトを参照していただきたい。

そう考えると、平均や合計以外の予想方法として、オッズの形成過程に似せた多数決というやり方もある。
複数の方法で予想し、多数決で決める。
ランダムフォレストを使い、こうした予想方法を実践しているものもあるようなので研究してみてほしい。
(SiriusA+B)

2017年3月4日土曜日

第156夜 賞金データを修正しながら考えたこと

▼加工データ
生データをそのまま使うことが必ずしも最善とは限らない。
料理で例えるとアワビのように、生で食すのも良いが、干したりして味わいを増すものもある。
加工データだから生データより精度が低いと先入観を持たないことで新しい発見もある。

このブログでは、第6夜・第7夜「走破タイムを分析するなら速度に換算することをおススメ」を始めとして、走破タイムを時速に換算する方が良いことをご紹介してきた。
統計学でいう、綺麗な釣鐘状の分布になり、タイムそのものの分析より歪みが少なくなるためである。

オッズも、逆数にして「予想的中率」(より正確に言えば支持率)に換算して分析している(例えば第119夜「オッズの断層」を踏み外さないように、など)
オッズが大きくなるにつれ支持率が下がることは自明だが、その下がり方は緩やかになっていく。
逆数なのだから当たり前と言われればそれまでだけれど、案外理解していない人もいるのではないかと思われる。

血統においては、母馬ではなく、ファミリーラインを遡り「祖先馬」を指定して、この馬でグループ化して分析する手法をご紹介した(11夜「祖先馬が分析を可能に」など)
種牡馬以上にサンプルが少なくなる母馬のデータを「増やした」。
父馬で同じ手法を採用しないのは、サンプルが十分だからではなく、遺伝学的にあまり意味がないからだ。
母馬には、母系からしか伝わらないmtDNAの存在があるからである。

細かいものを含めると他にもあるが、大きなものでひとつ欠けていたものがあった。
賞金である。
ブログの数字を検証している方がいらっしゃるようなら、本ブログでは賞金を「本賞と付加賞の合計」であることはご存知かと思う。
賞金では、対数にして示したことがあった。
例えば、賞金12,345,000円であれば、10を底にした対数にすれば7.0915となる。
桁の幅が広い数値はこのようにすれば分析しやすいのである。
賞金の話題はこれくらいで良いと思っていたのだが、どうも「同着」がわたしの想像より多いことがわかったのである。
6
着以下は、まあどうでもいいのだが、5着以内の同着は賞金をもとにした分析で影響が出る。
同着はそれほど多くはないだろう、影響も誤差の範囲と軽く考えていたのが間違いであった。
結構あって、的中率にも響くほどであったのだ。
早速、修正賞金額データを用意することにした。

▼賞金を「切り上げ」
JRA
は、2頭が同着した場合、2頭が得られるべき本賞金と付加賞を合算し2で割っている。
例えば春までの未勝利戦のように、1500万円、2200万円であれば、1着同着の場合、それぞれ350万円ずつの賞金となる。
2
頭合算して700万円であることは変わりなく、配分が均等になったと考えることもできる。
5
着同着の場合は、6着賞金がないので、5着賞金を半分ずつ分け合う。
これが生データだ。
しかし、いろいろ試してみたところ、予想データ用には1着なら1着賞金をそのまま使うほうが良いようだとわかった。
実は、収得賞金も同じような考え方になっている。

このデータに修正する作業は結構骨が折れる。
それで端折っていたのだが、やはり必要な作業だった。
先の例では、1着の2頭に1着賞金500万円とするのである。
それでいいのかって?
ケチケチしない、払うわけじゃないのだし。
(SiriusA+B)

ブログ アーカイブ