2016年3月6日日曜日

第67夜 競馬データの種類と加工(2)日付、開催競馬場、競走番号


66夜から続きである。
ここから何夜かにわたって、生データの処理とそこから派生するデータを紹介していく。
完全に同じではないところもあるが、わたしのデータベースに準じている。



項目

データ

備考

0.整理番号

151217-0610-09

 

1.日付

42365

2015/12/27のシリアル値

2.開催競馬場

中山

 

0.整理番号
整理番号は、レコードのIDになるもので、重複しないように作成する。
重複しなければ、どのように番号を振っても問題ない。
わたしの場合は、西暦下2桁+競馬場番号+競走番号+競走別レコード番号(同着がない場合には着順と同じ)として作成している。
例題では中山競馬場なので「06」、第10競走なので「10」、9着なので「09」としている。
中山は「6」で、9着は「9」でも良いように思うかもしれないが、わたしのコードではハイフンでつないだ「文字列」なので、並べ替えに都合が良いようにそれぞれ0を付けて2桁に揃えている。
競走番号も例題では「10」だが、第1競走なら「01」である。
整理番号は、過去の記録をとり始めたときから、1,2,3と振っていくやり方もある。
単に並べ替えに使用するだけならそれもいい。
わたしが例題のような整理番号にしたのは、整理番号自体でおおよそのことがわかるように工夫したためである。

1.日付
日付の処理は、このあともたびたび登場するが、シリアル値が便利である。
出走日や出走間隔、出走時年齢などで日付計算することが何度もある。
2015
1227日から2011223日を引くと1,768日となるが、4236540597としたほうが早いし、わかりやすい。
20151217」という数値にするよりは「42365」とすることをお勧めする。
余談だが、Excelのシリアル値は、190011日を基準とする方式と190411日を基準とする方式がある。
二つの方式では1462日ずれている。

わたしは、過去にExcelのバージョンアップしたとき混乱した記憶がある。
ご注意いただきたい。

2.開催競馬場
わたしの場合は中央競馬のみのデータを集めているので、JRA10競馬場のみ扱う。
そのまま「中山」の文字列でも集計や計算はできるけれど、数値に置き換えておくと研究作業に便利かと思うので、わたしは番号をつけている。
これを生データの次に加える。



項目

データ

備考

2.開催競馬場

中山

 

28.開催競馬場番号

6

 

JRAの競馬場には、コードがあるようだ。
わたしのコードは少し異なるが、以下のようにJRAと合わせていると余計な変換作業をしなくて良いので使いやすいと思う。



番号

競馬場名

1

札幌

2

函館

3

福島

4

新潟

5

東京

6

中山

7

中京

8

京都

9

阪神

10

小倉

(SiriusA+B)

ブログ アーカイブ