▼生データの種類
第63夜「競馬データを分析する技術、方法について(1)」で、競走データは1走1頭につき1レコード(1行)でまとめることに触れた。
このうち、加工前のいわゆる生データは30種類弱くらいである。
わたしは、今の時点では、約30種類弱の生データを基礎にいくつかの加工を施して利用する。
注目に値するデータがあれば適宜追加しているが、生データはこれくらいかなと思う。
いずれもいくつかの無料サイトからデータを持ってきているが、JRA-VANなど有料データを利用するならわたしほど苦労はしないだろう。
紙面の関係で、表計算ソフトと縦横を逆にするが、まず生データとは下表のようになる。
表計算ソフトに入れていくと、非常に項目、つまり列数が多い。
レコード、つまり行数も10年分もあると45万件くらいになる。
中身のチェックはまず不可能なので、できるだけ「手入力」を避けておこう。
また、毎週毎週データを追加することを考慮して作成しておこう。
このうち、加工前のいわゆる生データは30種類弱くらいである。
わたしは、今の時点では、約30種類弱の生データを基礎にいくつかの加工を施して利用する。
注目に値するデータがあれば適宜追加しているが、生データはこれくらいかなと思う。
いずれもいくつかの無料サイトからデータを持ってきているが、JRA-VANなど有料データを利用するならわたしほど苦労はしないだろう。
紙面の関係で、表計算ソフトと縦横を逆にするが、まず生データとは下表のようになる。
表計算ソフトに入れていくと、非常に項目、つまり列数が多い。
レコード、つまり行数も10年分もあると45万件くらいになる。
中身のチェックはまず不可能なので、できるだけ「手入力」を避けておこう。
また、毎週毎週データを追加することを考慮して作成しておこう。
(例)2015年12月27日第5回中山8日目 第10競走 第60回有馬記念(G1) サラ系3歳以上オープン ○国際 ○指(定量)の9着馬ワンアンドオンリーのレコード
項目
|
データ
|
備考
|
0.整理番号
|
151217-0610-09
|
後述
|
1.日付
|
42365
|
2015/12/27のシリアル値
|
2.開催競馬場
|
中山
|
|
3.競走番号
|
10
|
|
4.コース
|
芝2500
|
単位=m
|
5.天候
|
曇
|
|
6.馬場状態
|
良
|
|
7.出走頭数
|
16
|
単位=頭
|
8.完走頭数
|
16
|
単位=頭
|
9.着順
|
9
|
|
10.枠番
|
4
|
|
11.馬番
|
8
|
|
12.性別
|
牡
|
|
13.年齢
|
4
|
単位=歳
|
14.馬名
|
ワンアンドオンリー
|
血統データ付加
|
15.騎手名
|
浜中 俊
|
|
16.斤量
|
57.0
|
単位=kg
|
17.時計
|
2分33秒5
|
|
18.上がり3ハロン
|
35秒0
|
|
19.単勝オッズ
|
30.4
|
単位=倍
|
20.単勝人気
|
10
|
|
21.獲得賞金
|
0
|
本賞金+付加賞
|
22.優勝馬獲得賞金
|
253,402,000
|
単位=円
|
23.展開(通過順位)
|
11-11-12-13
|
|
24.馬体重
|
498
|
|
25.前走比馬体重増減
|
0
|
|
26.調教師名
|
(栗東)橋口弘次
|
|
27.馬主名
|
前田 幸治
|
|
前項のように、データベースのキーとする整理番号以外に、26種類の生データがある。
実は、この中には使用していないものもある。
あくまで現時点では、というお断りだが、使い方の研究不足やあまり意味がないと推定しているデータたちである。
10.枠番
23.展開(通過順位)
24.馬体重
25.前走比馬体重増減
以上の4項目が、わたしの未使用データ項目だ。
また、そもそもデータベースに入れていないものもある。
例えば、条件(オープン、500万下、未勝利など)や、有馬記念などの競走名、指定競走の種類などである。
指定競走の別はいずれ追加する可能性はある。
ただ、競走名は必要ないと考えている。
わたしは、競走名別の過去データなど、ほとんど役に立たないと思っている。
過去10年で、こんな枠順が有利とか、何歳馬が有利だとか、こうしたステップを踏んだ馬が勝っているとか、何の役に立とう。
たかだか10レース分である。
もちろん、イベントに参加することが主目的なら、みんなでわいわいと予想しあう話題にはなるだろう。
そうした楽しみを否定するものではない。
ただ、このブログでは、長期間収支黒字を目指そうというものである。
未勝利戦も有馬記念も差はないし、こちらのスタンスに差があってはいけない、ということである。
そこはお馬さんたちと同じである。
わたしたちも「今日はジャパンカップだから頑張らないとな」とか「1000万下だから全力でなくてもいいか」などと馬たちが考えないのと同様に、予想に差があってはいけない。
したがって、競走名は必要なデータではないとして、わたしのデータベースには入れていない。
(SiriusA+B)