2016年3月2日水曜日

第66夜 競馬データの種類と加工(1)競走名は必要なデータだろうか


▼生データの種類

63夜「競馬データを分析する技術、方法について(1)」で、競走データは11頭につき1レコード(1)でまとめることに触れた。
このうち、加工前のいわゆる生データは30種類弱くらいである。
わたしは、今の時点では、約30種類弱の生データを基礎にいくつかの加工を施して利用する。
注目に値するデータがあれば適宜追加しているが、生データはこれくらいかなと思う。
いずれもいくつかの無料サイトからデータを持ってきているが、JRA-VANなど有料データを利用するならわたしほど苦労はしないだろう。
紙面の関係で、表計算ソフトと縦横を逆にするが、まず生データとは下表のようになる。
表計算ソフトに入れていくと、非常に項目、つまり列数が多い。
レコード、つまり行数も10年分もあると45万件くらいになる。
中身のチェックはまず不可能なので、できるだけ「手入力」を避けておこう。
また、毎週毎週データを追加することを考慮して作成しておこう。

()20151227日第5回中山8日目 第10競走 第60回有馬記念(G1) サラ系3歳以上オープン ○国際 ○指(定量)9着馬ワンアンドオンリーのレコード



項目

データ

備考

0.整理番号

151217-0610-09

後述

1.日付

42365

2015/12/27のシリアル値

2.開催競馬場

中山

 

3.競走番号

10

 

4.コース

2500

単位=m

5.天候


 

6.馬場状態


 

7.出走頭数

16

単位=頭

8.完走頭数

16

単位=頭

9.着順

9

 

10.枠番

4

 

11.馬番

8

 

12.性別


 

13.年齢

4

単位=歳

14.馬名

ワンアンドオンリー

血統データ付加

15.騎手名

浜中 俊

 

16.斤量

57.0

単位=kg

17.時計

2335

 

18.上がり3ハロン

350

 

19.単勝オッズ

30.4

単位=倍

20.単勝人気

10

 

21.獲得賞金

0

本賞金+付加賞

22.優勝馬獲得賞金

253,402,000

単位=円

23.展開(通過順位)

11-11-12-13

 

24.馬体重

498

 

25.前走比馬体重増減

0

 

26.調教師名

(栗東)橋口弘次

 

27.馬主名

前田 幸治

 

 
▼わたしの使っていない生データ
前項のように、データベースのキーとする整理番号以外に、26種類の生データがある。
実は、この中には使用していないものもある。
あくまで現時点では、というお断りだが、使い方の研究不足やあまり意味がないと推定しているデータたちである。
10.
枠番
23.
展開(通過順位)
24.
馬体重
25.
前走比馬体重増減
以上の4項目が、わたしの未使用データ項目だ。
また、そもそもデータベースに入れていないものもある。
例えば、条件(オープン、500万下、未勝利など)や、有馬記念などの競走名、指定競走の種類などである。
指定競走の別はいずれ追加する可能性はある。
ただ、競走名は必要ないと考えている。
わたしは、競走名別の過去データなど、ほとんど役に立たないと思っている。
過去10年で、こんな枠順が有利とか、何歳馬が有利だとか、こうしたステップを踏んだ馬が勝っているとか、何の役に立とう。
たかだか10レース分である。
もちろん、イベントに参加することが主目的なら、みんなでわいわいと予想しあう話題にはなるだろう。
そうした楽しみを否定するものではない。
ただ、このブログでは、長期間収支黒字を目指そうというものである。
未勝利戦も有馬記念も差はないし、こちらのスタンスに差があってはいけない、ということである。
そこはお馬さんたちと同じである。
わたしたちも「今日はジャパンカップだから頑張らないとな」とか「1000万下だから全力でなくてもいいか」などと馬たちが考えないのと同様に、予想に差があってはいけない。
したがって、競走名は必要なデータではないとして、わたしのデータベースには入れていない。
(SiriusA+B)

ブログ アーカイブ