2016年2月27日土曜日

第65夜 競馬データを分析する技術、方法について(3)


63夜から続く話題である。
▼情報の加工
前夜から続く話である。
情報収集について注意事項を追加して述べておく。
1
レコードとは、1頭ずつのデータである。
16
頭立てなら16行分になる。
生データだけで足りないので、いろいろなデータを追加する必要がある。
分析を始めればすぐに気がつくのだが、前走のデータはかなり要る。
これは生データから転用できる。
また、血統を詳しく分析したい人は、別のデータベースを用意して、そこからデータを引っ張ってこなければならない。
あるいは、気象データやブリンカーなど馬具のデータも必要かもしれない。
こうしたデータは、別途準備する。
ちなみに「不要なデータ」は初期にはない。
いつ必要になるかもしれないのである。
また、「合計」「平均」も追加ならいいが、オリジナルデータは残しておくべきだ。
仕事でもよくあることだが、計算の見直しなどざらにある。
ファイルを軽くするとか、面倒だとかいった理由で端折ったデータで、いつか後悔する日が来る。
5」という結果しか記録していなければ、その根本が「1+4」だったのか「3+2」だったのかわからなくなる。
データの集計方法を変更しようとするとき、根本のデータが失われていれば、また最初からデータを作らなければならないのだ。
データベースは、ひとつひとつ丁寧に積み上げていきたい。

▼分析する技術について
ここでは、データの加工の話と、全体の分析ツールの話を補足する。
分析する手段としては、単純な加減乗除以外にも方法がある。
まずデータの加工だが、対数にしたり、わたしがよくやるようにタイムを時速に換算しなおしたりといった方法がある。
偏差値で表す、あるいは、順位をつける、というのも一種の加工法である。

生のままでも美味しいが、干してみたり焼いてみたりすると旨味が増すなんてこともある。

手法については、ニューラルネットワークや数量化1類といった統計学の技術がある。
統計学の知識を持たないという人も少なくないだろう。
もちろん統計理論を使わなくてもかまわないと思う。
ただ、わたしは文系の人間なのだが、30歳を過ぎてから勉強してさえ多少扱えるようになったから、本気で競馬予想に取り組む気であればツールとして使える程度にはマスターできるものと思う。
ちなみに、わたしの場合はExcelVisual Basic for Applications(VBA)で数量化1類の計算をしている。
もはや理論も何も考えず、ボタンひとつで計算されるところまできた。
力のある人なら、関数を組み合わせて計算することもできるだろう。
いずれにせよ、学校の数学の勉強ではないので、意味が理解できて、表計算ソフトで計算できればよいのである。
敷居は高くない。

この線形の数量化1類と、非線形のニューラルネットワーク理論(わたしの理解はそんなものである)では、後者のほうがいいのかもしれない。
JRA-VAN
のデータマイニング予測では、後者の理論を使用しているとも聞く。
わたしが前者を使用しているのは、そちらのほうを速くマスターしたからだけのことである。
数量化理論でも、線形の特徴を考慮したうえでデータを揃えていくと、十分に活用できるので満足している。
本来は質的データを分析するもののようだ。
しかし、わたしは、「量的データ」でもいいじゃん、と開き直って混在させているけれど()
数学者ならなんというだろうか、とニヤニヤしながら素人の付け焼刃で分析する毎日である。
(SiriusA+B)

ブログ アーカイブ