2017年5月27日土曜日

第168夜 有限のデータで予想理論を産み出すこと

▼過去のデータ
今の時代、予想理論を過去のデータを利用して築き上げる人は多いだろう。
昔のデータ競馬と言えば、大抵の場合、例えばダービーの予想をするのに過去10年分のダービーの結果から、ああだこうだというものであった。
わたしは約10年分の「全平地競走」データを用いて予想するが、だからと言って昔の「データ競馬」を笑う気にはまったくなれない。
サンプル数で10レース分と3万レース分との違いは精度が若干でも改善したのではないかという程度だ。
場合によっては10レース分での予想が正解に近いことだって、可能性としてはあり得る。

▼円周率で数字の出現頻度
どうしてそういう話をするかというと、有限のデータを検証しただけでは絶対的な真理とは言えないからだ。
更に、データ量が多いほど正しいかと言えばそれも断言できない。

例えば、円周率で0から9までの数字が出現する確率を、あなたならどう推測するだろう。
(たいへんな労力が必要なこの集計作業は、しかし、インターネットによって、実際に取り組んだ人たちの成果を享受できる。感謝と敬意をもってご紹介しなければならない。)

Wikipediaによれば、5兆桁までの各数字の出現回数はほぼ等しく、約0.0005%の違いに収まるという。
0→499,998,976,328回
1→499,999,966,055回
2→500,000,705,108回
3→500,000,151,332回
4→500,000,268,680回
5→499,999,494,448回
6→499,998,936,471回
7→500,000,004,756回
8→500,001,218,003回
9→500,000,278,819回

ご覧のとおり、ほとんど差異がない。
最も出現した数字は8で、最も出現しなかった数字は6である。
それでも非常に僅かではあるが、偏りがあるように見える。
しかし、ずっと8が最多で6が最小頻度であり続けたかというと、そんなことはない。

その途中経過である100万桁までの出現回数では、いくつかのサイトの情報を総合すれば、最多が5(100,359回)、最小が6(99,548回)である。
8はどちらかというと少ないほうだ。
さらに途中経過の10億桁まででは、4の出現頻度が最大で次に多いのがなんと6である。
ちなみに、0の出現頻度が最小で、8は平均的な出現頻度である。

このように、充分過ぎる桁数をとっても、有限な範囲内では偏りがあるように思え、しばらくするとそれを否定するかのような状況に陥る。
問題は、その偏りが幻影なのか、真理なのか区別がつかないことである。

競馬の予想では、多い人でもせいぜい数万単位の競走数をサンプルにしている。
無限ではない。
常識的には充分なサンプル数であるが、偏りを絶対的なものとして断定することはできない。
円周率ほどランダムではないだろうが、1年分や2年分くらいのレースを調べても長期間使える予想理論かどうかはわからないということだ。
(SiriusA+B)

ブログ アーカイブ