2017年3月4日土曜日

第156夜 賞金データを修正しながら考えたこと

▼加工データ
生データをそのまま使うことが必ずしも最善とは限らない。
料理で例えるとアワビのように、生で食すのも良いが、干したりして味わいを増すものもある。
加工データだから生データより精度が低いと先入観を持たないことで新しい発見もある。

このブログでは、第6夜・第7夜「走破タイムを分析するなら速度に換算することをおススメ」を始めとして、走破タイムを時速に換算する方が良いことをご紹介してきた。
統計学でいう、綺麗な釣鐘状の分布になり、タイムそのものの分析より歪みが少なくなるためである。

オッズも、逆数にして「予想的中率」(より正確に言えば支持率)に換算して分析している(例えば第119夜「オッズの断層」を踏み外さないように、など)
オッズが大きくなるにつれ支持率が下がることは自明だが、その下がり方は緩やかになっていく。
逆数なのだから当たり前と言われればそれまでだけれど、案外理解していない人もいるのではないかと思われる。

血統においては、母馬ではなく、ファミリーラインを遡り「祖先馬」を指定して、この馬でグループ化して分析する手法をご紹介した(11夜「祖先馬が分析を可能に」など)
種牡馬以上にサンプルが少なくなる母馬のデータを「増やした」。
父馬で同じ手法を採用しないのは、サンプルが十分だからではなく、遺伝学的にあまり意味がないからだ。
母馬には、母系からしか伝わらないmtDNAの存在があるからである。

細かいものを含めると他にもあるが、大きなものでひとつ欠けていたものがあった。
賞金である。
ブログの数字を検証している方がいらっしゃるようなら、本ブログでは賞金を「本賞と付加賞の合計」であることはご存知かと思う。
賞金では、対数にして示したことがあった。
例えば、賞金12,345,000円であれば、10を底にした対数にすれば7.0915となる。
桁の幅が広い数値はこのようにすれば分析しやすいのである。
賞金の話題はこれくらいで良いと思っていたのだが、どうも「同着」がわたしの想像より多いことがわかったのである。
6
着以下は、まあどうでもいいのだが、5着以内の同着は賞金をもとにした分析で影響が出る。
同着はそれほど多くはないだろう、影響も誤差の範囲と軽く考えていたのが間違いであった。
結構あって、的中率にも響くほどであったのだ。
早速、修正賞金額データを用意することにした。

▼賞金を「切り上げ」
JRA
は、2頭が同着した場合、2頭が得られるべき本賞金と付加賞を合算し2で割っている。
例えば春までの未勝利戦のように、1500万円、2200万円であれば、1着同着の場合、それぞれ350万円ずつの賞金となる。
2
頭合算して700万円であることは変わりなく、配分が均等になったと考えることもできる。
5
着同着の場合は、6着賞金がないので、5着賞金を半分ずつ分け合う。
これが生データだ。
しかし、いろいろ試してみたところ、予想データ用には1着なら1着賞金をそのまま使うほうが良いようだとわかった。
実は、収得賞金も同じような考え方になっている。

このデータに修正する作業は結構骨が折れる。
それで端折っていたのだが、やはり必要な作業だった。
先の例では、1着の2頭に1着賞金500万円とするのである。
それでいいのかって?
ケチケチしない、払うわけじゃないのだし。
(SiriusA+B)

ブログ アーカイブ