わたしたちは、どれほど難解なものに挑戦しているのか充分認識しているだろうか。
例えば16頭立ての競走で、着順を正確に予測するとしたら、組み合わせはどれくらいあるか。
上位3頭だけならば多くの人が諳(そら)んじている。
3連単の組み合わせと同じだから、3,360通りだ(参考までに18頭ならば4,896通り)。
出走頭数をnとして、
n×(nー1)×(nー2)
で計算でき、16頭の競走なら、
16×15×14
で良い。
これを応用すれば、全着順の組み合わせは分かる。
ざっと計算してみると、2兆通りくらいある(桁を間違えていなければ^^;)
同着や競走中止を考慮しないでこの数字である。
4着以下は関係がないと言う人はいるだろう。
正確に予想する必要があるのは3着までであると。
もちろんそうなのだが、氷山に例えれば無限にも思えるこの組み合わせが海中にあることを想像することで、予想行為が如何に難しい作業であることか認識できると言いたいのだ。
実際に、着順と人気が完全に一致したレースは、少頭数の競走を除き、ほとんどない。
4着以下は関心が薄いことを考慮しても、予想の難しさを示す事実である。
なぜ当たらないのかーーそれは表面的なところ(3着くらいまで)しか見ていないから、ということもできそうだ。
なお、この組み合わせひとつひとつの出現確率は均等ではない。
この点は宝くじと異なる。
▼組み合わせが多いときの対処法
結果だけでさえこの組み合わせ数である。
レースの展開まで予想するとなると、徹夜でパソコンをフル回転させても1レースすら予想できないだろう。
予想そのものが不可能であることはさておき、組み合わせが多いときの対処法をわたしなりに考えてみた。
あくまでわたしのやり方だが、わたしは主なもの以外を「その他」にまとめてしまう、あるいは端折る。
16頭の競走を、主要な、例えば4頭に絞り、あとはいないものとして4頭立てで考えるのだ。
データベースでも、出走数の少ない騎手を「その他騎手」にする。
わざわざ精密な原データを粗いデータにするとは驚かれるかもしれないが、単純化され思考が明確になる、計算(処理速度)が速くなる、といったメリットがある。
統計的にも、少数のデータが大きなまとまりになって有為なデータになることはとても大きいだろう。
(SiriusA+B)