2016年2月27日土曜日

第65夜 競馬データを分析する技術、方法について(3)


63夜から続く話題である。
▼情報の加工
前夜から続く話である。
情報収集について注意事項を追加して述べておく。
1
レコードとは、1頭ずつのデータである。
16
頭立てなら16行分になる。
生データだけで足りないので、いろいろなデータを追加する必要がある。
分析を始めればすぐに気がつくのだが、前走のデータはかなり要る。
これは生データから転用できる。
また、血統を詳しく分析したい人は、別のデータベースを用意して、そこからデータを引っ張ってこなければならない。
あるいは、気象データやブリンカーなど馬具のデータも必要かもしれない。
こうしたデータは、別途準備する。
ちなみに「不要なデータ」は初期にはない。
いつ必要になるかもしれないのである。
また、「合計」「平均」も追加ならいいが、オリジナルデータは残しておくべきだ。
仕事でもよくあることだが、計算の見直しなどざらにある。
ファイルを軽くするとか、面倒だとかいった理由で端折ったデータで、いつか後悔する日が来る。
5」という結果しか記録していなければ、その根本が「1+4」だったのか「3+2」だったのかわからなくなる。
データの集計方法を変更しようとするとき、根本のデータが失われていれば、また最初からデータを作らなければならないのだ。
データベースは、ひとつひとつ丁寧に積み上げていきたい。

▼分析する技術について
ここでは、データの加工の話と、全体の分析ツールの話を補足する。
分析する手段としては、単純な加減乗除以外にも方法がある。
まずデータの加工だが、対数にしたり、わたしがよくやるようにタイムを時速に換算しなおしたりといった方法がある。
偏差値で表す、あるいは、順位をつける、というのも一種の加工法である。

生のままでも美味しいが、干してみたり焼いてみたりすると旨味が増すなんてこともある。

手法については、ニューラルネットワークや数量化1類といった統計学の技術がある。
統計学の知識を持たないという人も少なくないだろう。
もちろん統計理論を使わなくてもかまわないと思う。
ただ、わたしは文系の人間なのだが、30歳を過ぎてから勉強してさえ多少扱えるようになったから、本気で競馬予想に取り組む気であればツールとして使える程度にはマスターできるものと思う。
ちなみに、わたしの場合はExcelVisual Basic for Applications(VBA)で数量化1類の計算をしている。
もはや理論も何も考えず、ボタンひとつで計算されるところまできた。
力のある人なら、関数を組み合わせて計算することもできるだろう。
いずれにせよ、学校の数学の勉強ではないので、意味が理解できて、表計算ソフトで計算できればよいのである。
敷居は高くない。

この線形の数量化1類と、非線形のニューラルネットワーク理論(わたしの理解はそんなものである)では、後者のほうがいいのかもしれない。
JRA-VAN
のデータマイニング予測では、後者の理論を使用しているとも聞く。
わたしが前者を使用しているのは、そちらのほうを速くマスターしたからだけのことである。
数量化理論でも、線形の特徴を考慮したうえでデータを揃えていくと、十分に活用できるので満足している。
本来は質的データを分析するもののようだ。
しかし、わたしは、「量的データ」でもいいじゃん、と開き直って混在させているけれど()
数学者ならなんというだろうか、とニヤニヤしながら素人の付け焼刃で分析する毎日である。
(SiriusA+B)

2016年2月23日火曜日

第64夜 競馬データを分析する技術、方法について(2)

63夜から続く話題である。
▼情報収集
では、最初に何をすべきか、である。
情報の収集である。
実は、この部分が最も時間を要する。
多くの人がここで頓挫する。
表計算ソフトに、11レコードで整然とデータを揃えていく。
1
レコードとは、馬1走分のデータである。
16
頭立ての競走があれば、16行すなわち16レコードである。

競走番号、日付、競馬場名、コース、天候、馬場状態、馬番、着順、馬体重、馬名、騎手名、調教師名、父馬、走破タイム、上がり3ハロンタイム、賞金などを各列に入れる。
また、全馬の誕生日や祖先馬と呼ぶファミリーライン馬の情報も付加している。
不要な要素もあるかもしれないが、いつでも使えるようにとりあえず入れてある。
RDB
を使える人ならば、わたしよりスマートにできるだろうが、わたしは場合、扱いやすさから表計算ソフトに落ち着いた。
1
年分でざっと45,000件のレコードになる。
以前のExcelならこれで手一杯だったので、複数のシートからデータを扱うスキルも必要だったが、現在のExcelなら10年分でも問題ない。
もちろん、専用ソフトでも構わない。
自在に操ることができるものであればいいのだ。

各列に入れたデータは、綺麗に揃えておく。
これができていないと次の分析に進めない。
文字データには注意が必要だ。
例えば、騎手名に略称が混じっていると、同一人物として扱えない。
略称が変わることもある。
蛯名正義騎手は、若い頃エビショウと言われたが、同姓がいた時期があった。
「蛯名正」と「蛯名」「蛯名正義」を同一人物として扱えるように、わたしの場合は数字コードを振っている。
このコードも当時は手作業で進めたので、たいへんであった。

また、走破タイムや日付データも扱いやすいようにしておく。
わたしの場合は、日付はシリアル値を用い、走破タイムは、1/10秒に揃えている。
1
234であれば、83.4秒になるので「834」としている。

ある程度データベースさえ完成すれば、スタートラインに立てる。
ここからは、各自の頭脳戦である。

▼分析、仮説、検証
生データを眺めているだけでも、いろいろなことはわかる。
最初のうちは、フィルタや並べ替え機能でも分析はできるだろう。
ここで仮説を立てていく。
前走1番人気の馬がどうなるか、騎手が代わるとどうなるか、など調べ上げていく。
しばらくすると、データを組み合わせたり、加工したりして分析する必要が出てくる。
例えば走破タイムを時速に直したり(6夜、第7夜参照)、出走日から誕生日を引いて出走時年齢(月齢や日齢)にしたりする。
仮説に一定のメドが立ったら、別のファイルに必要なデータを移して検証する。
わたしの場合、数量化1類を使って予想している。
キーとなる数値は、スピード指数でも速度でもいいが、わたしは賞金や着順によるオリジナル指数を求める。
仮説がどれくらい予想結果を説明できるか調べる。
こうした作業を繰り返すのである。
(SiriusA+B)

2016年2月19日金曜日

第63夜 競馬データを分析する技術、方法について(1)


▼わたしの分析工程
オリジナルの予想を打ち立てて、馬券の黒字収支を目指すブログである。
わたしの予想法については、これまでキチンと触れてこなかった。
わたし自身も完全に確立した訳ではないし、こうすれば勝てると世間に公開することに満足を覚える訳ではないからである。
だから、わたしの予想法を明らかにすることもなく、予想も掲載してこなかった。
ただ、オリジナル馬券術を手掛けようとする人に、参考として、わたしの方法を伝えておくことは有用かもしれない。
ただし、わたしの予想理論そのものの公開ではないことを予めお断りしておく。

▼小道具とわたしの現況
先に「小道具」から説明しておく。
わたしは、パソコンひとつで予想している。
インターネットで無料公開されているいくつかのデータを表計算ソフト(Excel)に取り込んで分析、予想理論を組み立てていく。
JRA-VAN
やその他の有料情報、専用ソフトは一切使用していない。
わたしはお金がもったいないから利用していないだけで、お金を払える人なら便利だから利用するほうが良いと思う。

とにかく競馬にお金はかけない。
専門の週刊誌や月刊誌、予想専門紙やスポーツ新聞も基本的に購入していない。
10
年くらい前までは頻繁に購入していたが、ある程度十分に知識を得た。
今ではごくたまに、自分に新しい風を吹き込むため斜め読みする程度である。
グリーンチャンネルも契約していない。
競馬場も行くだけ行ったので、最近行っていない。
ウインズにはもう何年も行っていない。
ウインズには、静内や京都、北九州など観光を兼ねて出かけたものだが、後楽園と錦糸町がわたしのホームグラウンドだった。
まだ電話投票の加入権の当選確率が非常に低くて、必然的にウインズになったのだけれど、新宿は500円単位でしか販売していなかったり、窓口はすべて有人で大量の女性が仕事をしていた。
あの頃は楽しかったな、若かったし。
書籍も買うだけ買って、良いものは何度も読み返した。
今は、身につけた知識をフルに活用してオリジナル理論を構築する段階にあるのだ。

格好良く言ってもいいなら、パソコンと身につけた知識だけで勝負している、ということである。
わたしは年の功で(そんなに高齢じゃないけれど)、ある程度十分な知識を持っているが、競馬を始めて間もない人や数年しか経ていない人には、競馬を生で見たり、他人の予想理論を勉強したりすることをお勧めする。
以前、ブログで触れたように「1万時間の法則」から考えて、あなたは成長途上にあると思われるからである。
並行して、表計算ソフトを自在に操る技術の習得も忘れないでほしい。
10
万件を超えるデータを分析できなければ、理論構築などできないのだ。
(SiriusA+B)

2016年2月15日月曜日

第62夜 オッズを人気別で切ってみる


オッズ理論にもいろいろとあるが、その中に、オッズの裂け目に注目するものもあるようだ。
次の人気馬とのオッズが乖離しているところに着目するというものである。
わたしはオッズ理論が苦手なのだが、研究はしている。
現在進行形のオッズの動きには関心がないけれど、前走のオッズは実力を表わす代替手段として使えないかと考えていることもある。
ちなみに人気別の平均的なオッズを考えたことがあるだろうか。
例えば、16頭立ての場合、以下のようなものになる。
2006
年から2014年の平地競走で、16頭が「完走」したもので集計した。
17
頭立て、18頭立てで競走中止により16頭となった場合も含むので、17番人気(24)18番人気(5)を含む。
また、同着についても考慮していない。
毎回適当な数字だが、この2点はご容赦いただきたい。



人気

平均オッズ

1着馬の

平均オッズ

1番人気

2.8

2.5

2番人気

4.7

4.4

3番人気

6.7

6.3

4番人気

9.3

8.5

5番人気

12.6

11.5

6番人気

16.9

15.0

7番人気

22.7

18.6

8番人気

30.4

25.6

9番人気

40.9

33.0

10番人気

55.6

41.3

11番人気

75.0

49.4

12番人気

100.1

69.1

13番人気

132.0

95.7

14番人気

173.8

120.3

15番人気

229.7

147.7

16番人気

316.6

228.6

17番人気

356.4


18番人気

298.7


ご覧のように、1番人気は2.8倍と意外に高い平均オッズになった。
肌感覚と違うような気もするが、16頭立てともなれば、これくらいになるのである。
注目してほしいのは、的中(1)した場合の平均オッズは、その人気のわりに低い、ということである。
オッズ理論では、こうした点を研究しているのだろうと思う。

 

この事実を利用することはできないだろうか。
わたしもまだ研究中なのだが、前走がそれぞれの平均オッズより低かった馬は、今走での成績がいい傾向があるようだ。
ただの勘違いかもしれないけれど、切り口も面白いし、もう少し研究を続けてみようと思っている。
ちなみにオッズをそのまま利用しているわけではない。
簡便ながら、(1/オッズ)*5/4で計算して出走馬合計で100%になるようにしたものを使用している。
生のオッズデータよりは扱いやすいだろうと思っている。
(SiriusA+B)

2016年2月11日木曜日

第61夜 ボクたちの勝利とは順位を当てること


▼馬の能力

馬の能力とは何か。
簡単なようで、難しいテーマである。
わたしなりに考えて、「速い」よりは「強い」と表現するのが適当であるとは思うが、どうだろうか。
JRA
が「速さ」を競わせているわけではないと思うのは、コース形態を揃えないこと、若干とはいえ外枠ほど距離の不利があること、走破タイムではなく着順で賞金を決めること、などの理由による。
では、強い馬とは何か。
強さを定義するのは速さ以上に難しい。
ただ、競馬のJRAが求める強さとは「万能性」ではないかと、わたしは思う。
高低差、最後の直線、自在に速度を変えること、馬場、複数の距離の制覇。
様々な条件下でも変わらぬ強さを発揮することが「強い」ということなのだ。
クラシック3冠馬が称えられるのも、距離や競馬場の異なる競走を制するからこそであろう。

▼順位を当てること

わたしたちは、能力を把握しようとする。
能力を表すものとして、スピード指数、血統、オッズまで百家争鳴である。
そして、これがなかなか的中しないのである。
なかなか的中率を上げられないため、データや分析技術をどんどん精緻化する人もいる。
しかし、少し考えてみたい。
能力指数が精緻ではないから当たらないのだろうか。
そもそもわたしたちの勝利とは、順位を当てることではなかったか。
競馬では、順位と能力が必ずしも同じではないことを忘れてはいまいか。
すべての競走において、能力順に決まるのであれば、競馬は成立しない。
主催者は、能力をできるだけ揃えて、展開ひとつで逆転も可能なレースに仕立て上げているのだ。
実は、皆さんの指数は、すでに、かなりの程度「能力順」になっているのではないかと思う。
換言すれば、競走結果と一致していないだけではないだろうか。
わたしたちは、能力ではなく、順位を当てる必要がある。
そうすると、馬券戦略も変わってくる。
例えば、123着に入線しそうな馬たちの選抜という視点で考えることもできるだろう。
その中から、優勝の確率が高い馬を探していくのである。
(SiriusA+B)

2016年2月7日日曜日

第60夜 的中率を上げると回収率が下がる、という構造を理解する


▼運用ファンドのスタンス
「的中率を上げると回収率が下がる」と言う人はいる。
「的中率か回収率か」論議も、こうした考えが背景になっているものと思う。
わたしは、「的中率を上げると回収率が下がる」は完全な正解ではないが、これに反する実現もまた難しいと考えている。
まず、的中率を上げると回収率が下がる仕組みを考える。
オッズは、投票参加者の予想が合計されたものである。
一方、わたしたちの予想でも、複数のファクターを総合している場合が多いのではないだろうか。
例えば前走の着順で決める、だけではなく、血統や騎手などの要素を加える。
実は、要素を加えていくほど、オッズに近づくのである。
この行為は、オッズ形成と同じことを自分一人でやっているのと同じなのである。
だから近づく。
運用ファンドの用語で言えば、複数のファンドに資金を分けて分散投資する場合、アクティブファンドを増やすほど、パッシブ運用に近づくということだ。
金融市場で、実際に運用したり、運用を委託した経験のある人はこの説明でイメージしていただけると思う。

▼逃れる手はあるのか

では、的中率を上げていく一方で、回収率を下げない方法はあるのだろうか。
考えられる一つの方法は、あまりファクターを加えないことである。
しかし、的中率はあまり改善しないかもしれない。
もう一つの方法は、オッズを形成する予想法と乖離した武器を持つことである。
例えば気象や馬具など、予想参加者の主流でないものである。
あるいは、幾つかのデータを加工したものでもいいかもしれない。
いずれにせよ、これが一番難しい。
だが、思い出してほしい。
競馬場やウインズで、見知らぬおじさんから「な、絶対2番がくると思ってたんだよ」
なんて声をかけられたことがあるだろう。
高配当ならば、真偽はともかく、彼はオッズ形成から乖離した予想をしていたのである。
無意識かもしれないが、あるいは勘違いや思い込みかもしれないが、何らかの根拠があって皆と同じ予想をしなかったのだ。
収益の源泉は、多数との乖離なのである。
もし発見できれば、すぐにでも勝ち組になるのだが。
(SiriusA+B)

2016年2月3日水曜日

第59夜 オッズを見て馬券を購入するということは、勝つ見込みのない戦いをするようなもの


▼もしも5人しか予想者がいなかったら
周囲の話を聞いていると、オッズをにらみながら買う人はかなりいるようだ。
気持ちがわからないでもない。
わたしも自分の本命馬のオッズが2倍を切るとため息が出るし、10倍を超えていたりすると怯んでしまう。
そこで、買う前にオッズは見ないようにしている。
ところが、「オッズを確認することは必須です」と書いているブログも少なくない。
今夜は、オッズをにらみながら買うとはどういうことなのか、考えてみたい。
そのために、馬券の参加者が顔見知りの5人しかいないと仮定してみる。
この仮定に「巨大な闇の力」とか「大金持ちの存在」はいない。
もし根拠なく、そうした存在があると思うことは、思考停止状態であるとも言える。
わからないと思っている領域を少しでも小さくしていくことが、馬券収支向上につながるのである。

▼馬券購入者のライバルは馬券購入者
話はそれたが、馬券購入者が自分を含めて顔見知りの5人とする。
馬券の種類も単勝しかない。
レースは3頭立てで、それほど差はなさそうだが、一応強いと思われる順にA,B,C馬である。
みんな顔見知りだから、あれこれ話し合いながら買い目を教えてくれる。
あなた以外の4人は、これまでの実績や血統、騎手といった要素を検討して、A馬の単勝を買うことにした。
4
人のうち3人が千円を投じたが、1人だけ5千円をはたき、ついでに保険と称してB馬にも2千円賭けた。
あとは、あなたが賭けるのを待つだけである。
寺銭がなければ、現時点でA馬の単勝オッズは1.2倍である。
B
馬は5倍である。
あなたは負けが込んでいて、財布を見たら百円しかない。
どう賭けてもオッズに影響はなさそうである。

あなたはどういう行動をとるだろうか。
あなたが競馬新聞を覗き込むと、前夜に検討した結果を書き込んでいて、C馬が本命になっていた。
実は、C馬は最近調子を落としているが、あなたはC馬が今回のコースを得意中の得意にしていることを掴んでいた。
あなたがC馬を買うとオッズは101倍である。
しかし、自分の予想ではC馬だが、みんなはA馬で間違いないだろうという。
みんなが言うとおり、A馬に賭けるか。
自分を貫きC馬とするか。
C
馬と思いつつ、オッズのおいしそうなB馬とするか。

もしも、自分以外の4人が知り合いではなく、あなたに黙って馬券を買い、さらにオッズがわからなければ、あなたはC馬を買うだろう。
買ったあとでオッズを見てびっくりすると思うが、これがオッズを見ない買い方である。
オッズを見て買う人は、自分の本命C馬の予想に欠陥でもあったかと考えて、A馬に賭けるかもしれない。
このとき、A馬に賭けるなら、あなたが競馬に勝つことは難しい。
なぜなら、皆と同じ予想をしても、元金くらいしか返ってこないのだ。
あるのは、「引き分け」と「負け」だけである。
あなたは自分の競争相手がこの4人であるのに、4人と同じ馬に賭けても勝つことはない。
このとき、C馬に賭けるなら、あなたは4人と勝負したことになる。
結果としてA馬が勝つかもしれない。
そのときは競争相手に負けたと言えるし、C馬が勝てば4人の競争相手に勝ったといえる。
もし、自分の予想がA馬であって、A馬に賭けるなら、競争相手と「引き分け」と考える。

どうだろうか。
オッズを見て馬券を購入するということが、本当の競争相手である同じ馬券購入者との勝負で「引き分け」と「負け」しかない選択であることがお分かりいただけるであろうか。
競争相手(オッズ)と違う本命を指名してこそ、「勝つ」という可能性が出てくるのだ。
わたしの場合、本命の半分近くが1番人気になっているようだ。
これは勝っても負けても「引き分け」で、1番人気以外に指名した本命たちがわたしの競争相手との勝負であり、その勝利が収益の源泉なのである。
(SiriusA+B)

ブログ アーカイブ