馬脳が「なぜこの馬を推薦したのか」を技術的に解説します。
馬脳はLambdaRank(ランキング学習)を使用しています。 通常の勝馬予測(0 or 1の分類)ではなく、「このレースでどの馬が上位にくるか」の順位付けを最適化します。 ランキング学習は競馬予測に特に適しています。なぜなら「1着か否か」よりも「相対的な強さの順位」の方が 信頼できる情報だからです。
| カテゴリ | 指標例 | 指標数 |
|---|---|---|
| 基本レース情報 | 距離、馬場コード、グレード、出走頭数 | 〜5 |
| 馬の競走成績 | 通算勝率、上がり3F平均、コース別勝率 | 〜30 |
| 騎手・調教師成績 | 騎手勝率(全・ダート・最近90日)、調教師勝率 | 〜20 |
| JRDB専門指標 | IDM(総合指数)、情報・成長・総合スコア | 〜40 |
| JRDB適性指数 | 重馬場適性、距離適性(V30 NEW) | 〜10 |
| 調教データ(SED) | 調教タイム、馬場タイム偏差 | 〜15 |
| 血統指標 | 父馬芝勝率、Pedigree SVD埋め込み(32次元) | 〜35 |
| H2H対戦成績 | 馬同士の直接対決勝率、PageRankスコア | 〜5 |
| 馬体重・体調 | 馬体重、前走比変化率、3走トレンド | 〜10 |
| ペース・展開 | 4角ポジション、コーナー通過順位 | 〜10 |
多くの競馬AIはオッズや人気を学習特徴量に含めます。しかしオッズは「市場のコンセンサス」であり、 AIが学ぶのは「人間の集合知」の再現になってしまいます。これでは期待値プラスのレースを見つけることはできません。
馬脳はオッズを学習特徴量から完全除外。 馬の実力だけを学習し、モデルが出した予測確率とオッズ(市場が示す確率)の乖離を EV(期待値)として計算します。EV≥1.2 のレースだけに絞ることで、 長期的にプラス回収率を目指します。
バックテストの最大の罠は「未来のデータを使って過去を予測する」データリークです。 馬脳はWalk-Forward Cross Validation(4-fold × 36ヶ月ウィンドウ)で検証しています:
各Foldで「未来を知らない状態」での精度を測定しています。
| データ | 内容 |
|---|---|
| JRA-VAN(JVLink) | 競走成績・出馬表・単勝/馬連/三連複オッズ(リアルタイム) |
| JRDB | 専門指標(IDM/情報/成長スコア)・調教データ・適性コード |
| JRA公式 | クッション値・馬場含水率(馬場コンディション) |
| 血統DB | 父馬・母父馬・祖父馬系統(Pedigree SVD埋め込み) |
LightGBM LambdaRank Python 3.12 Oracle Database 23ai Cloudflare Pages Cloudflare Workers Cloudflare R2 Walk-Forward CV Isotonic Regression Calibration H2H PageRank Pedigree SVD