2017年5月27日土曜日

第168夜 有限のデータで予想理論を産み出すこと

▼過去のデータ
今の時代、予想理論を過去のデータを利用して築き上げる人は多いだろう。
昔のデータ競馬と言えば、大抵の場合、例えばダービーの予想をするのに過去10年分のダービーの結果から、ああだこうだというものであった。
わたしは約10年分の「全平地競走」データを用いて予想するが、だからと言って昔の「データ競馬」を笑う気にはまったくなれない。
サンプル数で10レース分と3万レース分との違いは精度が若干でも改善したのではないかという程度だ。
場合によっては10レース分での予想が正解に近いことだって、可能性としてはあり得る。

▼円周率で数字の出現頻度
どうしてそういう話をするかというと、有限のデータを検証しただけでは絶対的な真理とは言えないからだ。
更に、データ量が多いほど正しいかと言えばそれも断言できない。

例えば、円周率で0から9までの数字が出現する確率を、あなたならどう推測するだろう。
(たいへんな労力が必要なこの集計作業は、しかし、インターネットによって、実際に取り組んだ人たちの成果を享受できる。感謝と敬意をもってご紹介しなければならない。)

Wikipediaによれば、5兆桁までの各数字の出現回数はほぼ等しく、約0.0005%の違いに収まるという。
0→499,998,976,328回
1→499,999,966,055回
2→500,000,705,108回
3→500,000,151,332回
4→500,000,268,680回
5→499,999,494,448回
6→499,998,936,471回
7→500,000,004,756回
8→500,001,218,003回
9→500,000,278,819回

ご覧のとおり、ほとんど差異がない。
最も出現した数字は8で、最も出現しなかった数字は6である。
それでも非常に僅かではあるが、偏りがあるように見える。
しかし、ずっと8が最多で6が最小頻度であり続けたかというと、そんなことはない。

その途中経過である100万桁までの出現回数では、いくつかのサイトの情報を総合すれば、最多が5(100,359回)、最小が6(99,548回)である。
8はどちらかというと少ないほうだ。
さらに途中経過の10億桁まででは、4の出現頻度が最大で次に多いのがなんと6である。
ちなみに、0の出現頻度が最小で、8は平均的な出現頻度である。

このように、充分過ぎる桁数をとっても、有限な範囲内では偏りがあるように思え、しばらくするとそれを否定するかのような状況に陥る。
問題は、その偏りが幻影なのか、真理なのか区別がつかないことである。

競馬の予想では、多い人でもせいぜい数万単位の競走数をサンプルにしている。
無限ではない。
常識的には充分なサンプル数であるが、偏りを絶対的なものとして断定することはできない。
円周率ほどランダムではないだろうが、1年分や2年分くらいのレースを調べても長期間使える予想理論かどうかはわからないということだ。
(SiriusA+B)

2017年5月22日月曜日

第167夜 ペナントレース予想に学ぶ競馬予想のつづきの話

▼個々に気になる要素
前夜には、プロ野球各球団の実力はチーム全体の年俸と相関関係があると述べた。
ただ、これだけではペナントレースの順位を予想できない。
そこで、他の要素を加えようとする。
幾つか思いついたものを挙げていく。

まず、監督である。
競馬なら騎手にあたるだろうか。
チームの実力を発揮できるかどうかは、監督の采配にかかっていると思われる。
監督の報酬相場はあまり明らかではないが、5,000万円くらいから1億円くらいのようだ。
ただ、監督業自体のサンプル数が少ないこと、成績不振ならシーズン中でも辞任に追い込まれることから、成績と報酬の関係がそれほど連動していないようにもみえた。
選手ほど差がないのは、要するに「わからない」ということなのかもしれない。
手腕は報酬以外の指標で測りたいが、今のところ良いアイデアは見つからなかった。
しかし、相手関係をみてうまく采配したり、選手交代を絶妙のタイミングで行なったりできる監督もいて、チーム全体の持つ能力をどこまで発揮できるかという点でその影響は大きい。

次に、選手の年齢である。
多くのスポーツにおいて、男性選手は20歳代後半辺りにピークがあるようだ。
持久力や心肺能力が勝負のマラソンなどではもう少し年齢を重ねたところだが、プロ野球であれば個人差はあるにせよ、20歳代後半とみて良いだろう。
球団全体の平均年齢や年齢別パフォーマンスの統計データがあれば、成績の予想はできそうだ。

さらに、球団の経営陣も成績に影響を与えるとみている。
これは厩舎経営に近いかもしれない。
投手、野手の編成、ベテランと若手のバランスなど、即戦力と育成など、限られた資金でどのように構成するか、フロントの能力が問われる。
メジャーリーグを舞台にした「マネーボール」では、能力はあるがワケありな選手を見つけて活躍期間に割安で使い、ピークに売り抜けるオーナーの姿を描くノンフィクションである。
この話は、野球界の常識を超えた選考基準がキーとなっている。
これについては、過去のペナントレース平均順位や勝率など指標の候補はありそうだ。

▼複雑系の世界
思いついた要素は以上だが、チーム支配下選手の年俸を基礎に、(ツールは提示できなかったが)監督(与えられた戦力をどこまで発揮できるか)、選手年齢(個体の盛衰)、経営(資金をどれだけ効率的に使っているか)という要素を加えても、果たしてどれだけの勝ち負けを予測できるだろうか。
もっと詳しいデータが必要という人もいるだろう。
だが、選手一人ひとりの力、投手の球種、捕手のリード、足の速さなど、細かくしていけばいくほど各試合の勝敗が読めるだろうか。
今シーズンは何勝何敗で優勝すると予測できるのならすごいことで、競馬の予想で同じことができるだろう。
しかし、1球ずつすべての組み合わせを予測することは不可能なのだ。
これに加えて、細かく精緻に分析しても出てこないものがある。
第162夜で触れた創発特性である。
チームの連携プレー、例えばヒットエンドランや併殺、後逸時のカバーなど、個体分析では算出できない。
メジャーな指標である打点でさえ、他の打者の成績に左右される。
プロ野球のペナントレースでさえこんな状況である。
ましてや競馬の予想が簡単な話ではないことが分かっていただけると思う。
(SiriusA+B)

2017年5月17日水曜日

第166夜 ペナントレース予想に学ぶ競馬予想

▼プロ野球のペナントレース
プロ野球のペナントレース開幕前にはスポーツニュースなどで、解説者たちが順位予想をしている。
野球ファンであれば、ああでもないこうでもないなどと自論を述べ合うのも楽しい。
同時に、野球ファンは、セントラルリーグ、パシフィックリーグともすべての順位を完全予想することは極めて難しいことも承知している。
支配下選手約60人の好不調、成長や衰え、采配など、予想することは難しいのである。

このペナントレースを競馬予想と比較しながら考えると、なかなか興味深い。
道中の騎手たちのように駆け引きを繰り返しながら、144試合で優勝を目指す。
3位までならクライマックスシリーズに進出できるところはトライアルレースのようだ。

▼ファンダメンタルズ
実は、たいへん大雑把であるが、支配下選手の年俸平均或いは合計と、ペナントレースの順位には、ある程度相関関係がある。
チームの基礎的な力を表していると言って良いだろう。
選手の年俸は、過去の成績・貢献度と、所属球団の懐具合で決定する。
ヒット1本いくら、ホームラン1本いくら、と決まっていれば分かりやすいが、野手の場合、盗塁数や犠打、チャンスでの貢献など考課の指標は多い。
当然、守備やチームワーク、ファンサービス(集客力)も考慮される。
納得しない選手もいたり、ファンが「貰い過ぎだ」と批判する選手もいたりで、選手一人ひとりに関しては必ずしも年俸が公正に実力を反映していると言い切れないかもしれない。
だが、チーム全体の年俸で見れば、凡そチームの実力を表しており、ペナントレース順位と一致してくるのだ。
わたしから見れば、出走馬の獲得した総賞金或いは1レース当たりの平均賞金のイメージと重なる。
セ・パ2レースの出走馬各6頭の賞金額が出揃ったようなものだ。
競馬なら20%くらいの率で最多獲得賞金の馬が勝利する(第31夜「勝率20%くらいの予想なら誰でもすぐできる」に平均賞金最上位馬が約20%程度の勝率であることを示している)。
問題は、これが100%の予想ではないことである。
最も優勝に近いとはいえ、ペナントレースの行方はわからないのだ。
監督? 投手? 他にどのような要因があろう。
(次の夜につづく)
(SiriusA+B)

2017年5月12日金曜日

第165夜 馬券生活年収500万円とはどういう状態か

▼年収500万円を計画するために
夢を見ることは素晴らしいことだと思うけれど、夢を叶えるための思索なしには意味がないとも思う。
ぼんやり夢を見ていても叶うことはない。
一方で、工程表と根気があれば、夢を現実のものに近づけていくことはそれほど難しくない。
馬券で生活したい、という夢も例外ではない。
馬券生活とはどういうことか、興醒めだが冷静に考えてもらいたい。
現実を理解した上で夢を見るのも悪くないと思うのだ。

例えば、年収500万円を目指すとする。
ここでいう「年収」とは利益である。
499万円の馬券を購入し払い戻しが500万円では意味がない。
払い戻し額―購入額で500万円分の黒字があるということだ。
これなら馬券でメシを食っていると豪語できる水準と言っていい。
この皮算用で必要となる数字が、利益率である。
平均して100円の投票でいくらの配当を得ることができるか、というものだ。
長期的には回収率150%! といった宣伝文句が嘘だということは誰でも知っている。
一方で、長期的に黒字収支を計上する人がどれくらいの利益率なのかは、直感や根拠のない想像によって語られることはあっても、長く明らかにされることはなかった。
ところが、ひとつの答えが世間一般の知るところとなったのである。

▼毎月いくら稼ぐ必要があるのか
明らかになったのは、収入区分が一時所得か雑所得かで国税当局と争った有名な裁判である。
この例で明らかになった「利益率」は5%程度であった。
平均して100円賭けて105円回収していたということである。
わたしは自分の研究から2、3%くらいだと思っていたので「凄い。結構高いなあ」とため息が出たけれど、わたしとは逆にもっと儲かると思っていた人はいたようだ。
少なくとも、わたしの周囲には5%という数字に呻いた人が数人いた。
残念ながらこれが現実である。
的中時には結構稼ぐが、それだけハズレも多いのである。

この5%を使い、年収500万円を目指す試算をしてみよう。
ざっと50週で500万円稼ぐわけだから、1週間で平均して10万円の黒字を計上すればいい。
利益率5%を見込むなら、土日で200万円を投入して210万円の払い戻しを受ける計画になる。
3場開催であれば、1日36レース、土日で72レースある。
障害競走や新馬戦などを差し引くだろうから、1レースでざっと3万円分の馬券を購入することになるだろう。
当たりハズレはあるだろうが、日曜日の最終競走を終えた時点で10万円プラスとなっていれば目標達成である。

的中率が低い設定の人なら、月単位で収支を考えてもいいだろう。
この場合、平均月収は42万円プラスが目標で、馬券の購入は月に800万円程度になる。
的中率が低いなら資金の回転は難しく、手元に少なくとも800万円を持っていなければならないことには注意願いたい。

▼長期計画
以上のように、馬券生活には大量の軍資金が必要である。
だが、適度で安定的な的中率を維持しつつ、回収率が100%を少しでも超えているのなら、時間が問題を解決する。
資金の追加投入なしにゆっくりでもお金は増えていくのだ。
利益率5%で最初の軍資金が1万円しかなくても、毎週500円ずつ積み上げていけば、20週で1万円稼ぐことになり、最初の1万円と合わせ2万円になる。
これを軍資金として再スタートするのである。
20週毎に資金は倍増し、4万円、8万円、16万円、32万円、64万円、128万円、216万円と3年足らずで200万円の準備ができるのだ。
大事なことは、1万円以外に資金の追加投入はないということである。
時間さえ掛ければ、資金を調達できる。
(SiriusA+B)

2017年5月7日日曜日

第164夜 あたりをつける、という考え方

▼エニグマを破った実話
前夜に膨大な組み合わせになる場合、その他にまとめる、端折る、という方法に触れた。
組み合わせ数そのものを減らす試みである。
今夜お話しするのは、それでも組み合わせ数が減らないときに、計算数を減らす可能性である。

映画にもなったし、サイモン・シン(S・シン)が著したノンフィクション「フェルマーの最終定理」あるいは「暗号解読」にも登場するが、エニグマとは、第2次世界大戦で最強と言われたドイツの暗号機である。
イギリスがエニグマの暗号を解読できていたことをドイツは敗戦まで知らず、解読に寄与した数学者アラン・チューリングは1970年代まで功績を秘匿された。
ご存知と思うが、アラン・チューリングは、コンピュータの父である。

このエニグマ暗号の膨大な組み合わせを力業で片っ端からテストするには時間が足りない。
そこで様々なヒントを探して、いわば「あたり」を付けたのである。
1番めの組み合わせから順にテストするほうが堅実だが、このあたりに正解があるかもしれないとテストの順番を変えるのである。
的はずれな推測で処理時間がかかることもあるけれど、センスが良ければ平均的に短時間で正解にたどり着けるのだ。
謎の言語を解読するとして、王の名や地名、いつも末尾に出てくる文字など、ヒントは意外にある(線文字Bやヒエログリフの解読など)。
これをクリブというが、センスとはこうした手掛かりを見つけることである。

競馬予想でも、例えば3連単を全通り予想するより、まず3着以内に入線しないだろう3、4頭の絡む組み合わせを外せば、テストするべき組み合わせ数は半減する。
これは出走頭数別に3連単の組み合わせを数え上げてグラフにでもすればよく分かる。

▼宝くじとの大きな違い
ところで、馬を見ないで予想する人の中には、馬券を宝くじと同じように考える人もいるようだ。
わたしも馬を見ないで予想するほうだが、宝くじは、すべての組み合わせが均等な当選確率である点で大きく異なる。

優勝する確率は、出走馬ごとに異なる(ちなみにオッズの逆数をいうのではない。もちろん正確に知っている人もいない)。
ただし、出走するからには勝つ見込みがゼロということもない(限りなくゼロに近くてもゼロではない)。
したがって、「あたりをつける」考え方は効率的であると思われる。
勝つ可能性が極めて低い確率の馬を予想から外すのは、予想作業の効率を上げたり、有力馬に思考を集中することに繋がる。

宝くじの的中確率はすべて均等であり、目星をつける方法とは無縁だ。
このブログでしばしば触れているように、宝くじの当選数字から次の当選数字を予測することはできない。
独立事象だからで、その点では競馬も同じである。
前の競走と次の競走はまったく関係がない。
(SiriusA+B)

2017年5月2日火曜日

第163夜 レースを予想することがどれほど難解なことかは結果のヴァリエーションにも原因がある

▼結果の組み合わせ数
わたしたちは、どれほど難解なものに挑戦しているのか充分認識しているだろうか。
例えば16頭立ての競走で、着順を正確に予測するとしたら、組み合わせはどれくらいあるか。

上位3頭だけならば多くの人が諳(そら)んじている。
3連単の組み合わせと同じだから、3,360通りだ(参考までに18頭ならば4,896通り)。
出走頭数をnとして、
n×(nー1)×(nー2)
で計算でき、16頭の競走なら、
16×15×14
で良い。
これを応用すれば、全着順の組み合わせは分かる。
ざっと計算してみると、2兆通りくらいある(桁を間違えていなければ^^;)
同着や競走中止を考慮しないでこの数字である。

4着以下は関係がないと言う人はいるだろう。
正確に予想する必要があるのは3着までであると。
もちろんそうなのだが、氷山に例えれば無限にも思えるこの組み合わせが海中にあることを想像することで、予想行為が如何に難しい作業であることか認識できると言いたいのだ。

実際に、着順と人気が完全に一致したレースは、少頭数の競走を除き、ほとんどない。
4着以下は関心が薄いことを考慮しても、予想の難しさを示す事実である。
なぜ当たらないのかーーそれは表面的なところ(3着くらいまで)しか見ていないから、ということもできそうだ。

なお、この組み合わせひとつひとつの出現確率は均等ではない。
この点は宝くじと異なる。

▼組み合わせが多いときの対処法
結果だけでさえこの組み合わせ数である。
レースの展開まで予想するとなると、徹夜でパソコンをフル回転させても1レースすら予想できないだろう。

予想そのものが不可能であることはさておき、組み合わせが多いときの対処法をわたしなりに考えてみた。
あくまでわたしのやり方だが、わたしは主なもの以外を「その他」にまとめてしまう、あるいは端折る。
16頭の競走を、主要な、例えば4頭に絞り、あとはいないものとして4頭立てで考えるのだ。
データベースでも、出走数の少ない騎手を「その他騎手」にする。

わざわざ精密な原データを粗いデータにするとは驚かれるかもしれないが、単純化され思考が明確になる、計算(処理速度)が速くなる、といったメリットがある。
統計的にも、少数のデータが大きなまとまりになって有為なデータになることはとても大きいだろう。
(SiriusA+B)

ブログ アーカイブ