馬脳のAI — 仕組みと技術

馬脳が「なぜこの馬を推薦したのか」を技術的に解説します。

🏇 コアモデル: LightGBM LambdaRank

馬脳はLambdaRank(ランキング学習)を使用しています。 通常の勝馬予測(0 or 1の分類)ではなく、「このレースでどの馬が上位にくるか」の順位付けを最適化します。 ランキング学習は競馬予測に特に適しています。なぜなら「1着か否か」よりも「相対的な強さの順位」の方が 信頼できる情報だからです。

📊 197の分析指標(V30)

カテゴリ指標例指標数
基本レース情報距離、馬場コード、グレード、出走頭数〜5
馬の競走成績通算勝率、上がり3F平均、コース別勝率〜30
騎手・調教師成績騎手勝率(全・ダート・最近90日)、調教師勝率〜20
JRDB専門指標IDM(総合指数)、情報・成長・総合スコア〜40
JRDB適性指数重馬場適性、距離適性(V30 NEW)〜10
調教データ(SED)調教タイム、馬場タイム偏差〜15
血統指標父馬芝勝率、Pedigree SVD埋め込み(32次元)〜35
H2H対戦成績馬同士の直接対決勝率、PageRankスコア〜5
馬体重・体調馬体重、前走比変化率、3走トレンド〜10
ペース・展開4角ポジション、コーナー通過順位〜10

💡 オッズを「学習しない」理由

多くの競馬AIはオッズや人気を学習特徴量に含めます。しかしオッズは「市場のコンセンサス」であり、 AIが学ぶのは「人間の集合知」の再現になってしまいます。これでは期待値プラスのレースを見つけることはできません。

馬脳はオッズを学習特徴量から完全除外。 馬の実力だけを学習し、モデルが出した予測確率とオッズ(市場が示す確率)の乖離を EV(期待値)として計算します。EV≥1.2 のレースだけに絞ることで、 長期的にプラス回収率を目指します。

🔬 時系列検証(Walk-Forward CV)

バックテストの最大の罠は「未来のデータを使って過去を予測する」データリークです。 馬脳はWalk-Forward Cross Validation(4-fold × 36ヶ月ウィンドウ)で検証しています:

各Foldで「未来を知らない状態」での精度を測定しています。

🗄️ データソース

データ内容
JRA-VAN(JVLink)競走成績・出馬表・単勝/馬連/三連複オッズ(リアルタイム)
JRDB専門指標(IDM/情報/成長スコア)・調教データ・適性コード
JRA公式クッション値・馬場含水率(馬場コンディション)
血統DB父馬・母父馬・祖父馬系統(Pedigree SVD埋め込み)

🛠️ 技術スタック

LightGBM LambdaRank Python 3.12 Oracle Database 23ai Cloudflare Pages Cloudflare Workers Cloudflare R2 Walk-Forward CV Isotonic Regression Calibration H2H PageRank Pedigree SVD

⚠️ 免責事項
本ページで紹介するWF-CV数値(AUC・回収率)は過去データによる検証結果です。 将来のレースでも同様の結果が得られることを保証するものではありません。 競馬への投票は自己判断・自己責任でお願いします。