馬脳のAI — 仕組みと技術

馬脳が「なぜこの馬を推薦したのか」を技術的に解説します。

🏇 コアモデル: LightGBM LambdaRank

馬脳はLambdaRank（ランキング学習）を使用しています。通常の勝馬予測（0 or 1の分類）ではなく、「このレースでどの馬が上位にくるか」の順位付けを最適化します。ランキング学習は競馬予測に特に適しています。なぜなら「1着か否か」よりも「相対的な強さの順位」の方が信頼できる情報だからです。

📊 197の分析指標（V30）

カテゴリ	指標例	指標数
基本レース情報	距離、馬場コード、グレード、出走頭数	〜5
馬の競走成績	通算勝率、上がり3F平均、コース別勝率	〜30
騎手・調教師成績	騎手勝率（全・ダート・最近90日）、調教師勝率	〜20
JRDB専門指標	IDM（総合指数）、情報・成長・総合スコア	〜40
JRDB適性指数	重馬場適性、距離適性（V30 NEW）	〜10
調教データ（SED）	調教タイム、馬場タイム偏差	〜15
血統指標	父馬芝勝率、Pedigree SVD埋め込み（32次元）	〜35
H2H対戦成績	馬同士の直接対決勝率、PageRankスコア	〜5
馬体重・体調	馬体重、前走比変化率、3走トレンド	〜10
ペース・展開	4角ポジション、コーナー通過順位	〜10

💡 オッズを「学習しない」理由

多くの競馬AIはオッズや人気を学習特徴量に含めます。しかしオッズは「市場のコンセンサス」であり、 AIが学ぶのは「人間の集合知」の再現になってしまいます。これでは期待値プラスのレースを見つけることはできません。

馬脳はオッズを学習特徴量から完全除外。馬の実力だけを学習し、モデルが出した予測確率とオッズ（市場が示す確率）の乖離を EV（期待値）として計算します。EV≥1.2 のレースだけに絞ることで、長期的にプラス回収率を目指します。

🔬 時系列検証（Walk-Forward CV）

バックテストの最大の罠は「未来のデータを使って過去を予測する」データリークです。馬脳はWalk-Forward Cross Validation（4-fold × 36ヶ月ウィンドウ）で検証しています：

Fold 1: 2020〜2022年で学習 → 2023年で検証
Fold 2: 2020〜2023年で学習 → 2024年で検証
Fold 3: 2020〜2024年で学習 → 2025年で検証
Fold 4: 2020〜2025年で学習 → 2026年で検証

各Foldで「未来を知らない状態」での精度を測定しています。

🗄️ データソース

データ	内容
JRA-VAN（JVLink）	競走成績・出馬表・単勝/馬連/三連複オッズ（リアルタイム）
JRDB	専門指標（IDM/情報/成長スコア）・調教データ・適性コード
JRA公式	クッション値・馬場含水率（馬場コンディション）
血統DB	父馬・母父馬・祖父馬系統（Pedigree SVD埋め込み）

🛠️ 技術スタック

LightGBM LambdaRank Python 3.12 Oracle Database 23ai Cloudflare Pages Cloudflare Workers Cloudflare R2 Walk-Forward CV Isotonic Regression Calibration H2H PageRank Pedigree SVD

⚠️ 免責事項
本ページで紹介するWF-CV数値（AUC・回収率）は過去データによる検証結果です。将来のレースでも同様の結果が得られることを保証するものではありません。競馬への投票は自己判断・自己責任でお願いします。