Brier 分数详解:足球分析如何被打分
大多数足球分析应用都在营销准确率。"准确率 70%"听起来很厉害。"我们头号选项 80% 兑现"听起来更厉害。准确率说辞主导着这一领域。它们也几乎没有意义。
给分析者打分的正确方式不是准确率,而是校准。一名 70% 概率选项在 70% 的时候(不是 90%、不是 50%)对的分析者,是在做正确的事。一名 70% 选项在 85% 的时候对的分析者信心不足(可能有价值),但未校准。一名 70% 选项在 55% 的时候对的分析者很喧闹(可能没用)。
Brier 分数是给校准打分的指标。它在学术分析研究中已是 75 年的标准,也是任何值得倾听的足球分析者得以诚实被评分的方式。
本文逐项介绍 Brier 究竟衡量什么、如何自己计算、基准是什么,以及为什么校准是你应当向任何分析工具索要的信号。
Brier 究竟衡量什么
Brier 是分析与现实之间的平方误差分数。越低,校准越好。
对三路足球结果(主胜、平、客胜),每场比赛产生三个分析数字,相加为 1.0。实际结果产生三个 0 或 1 的数字(发生的为 1,其他为 0)。
单场公式: Brier = Σ (分析 - 实际)^2 / 3
所以一场以主胜结束的比赛,分析为 [0.60, 0.25, 0.15] 主 / 平 / 客:
- 主:(0.60 - 1.00)^2 = 0.16
- 平:(0.25 - 0.00)^2 = 0.0625
- 客:(0.15 - 0.00)^2 = 0.0225
- 求和:0.245
- 除以 3:0.0817
同一场比赛分析为 [0.95, 0.03, 0.02](确实主胜):
- 求和:0.0025 + 0.0009 + 0.0004 = 0.0038
- 除以 3:≈ 0.0013
自信且正确的分析得分远好。但自信且错误的分析则被严惩:
- [0.95, 0.03, 0.02] 在以平结束的比赛上:
- 主:(0.95 - 0)^2 = 0.9025
- 平:(0.03 - 1)^2 = 0.9409
- 客:(0.02 - 0)^2 = 0.0004
- 求和:1.8438
- 除以 3:≈ 0.6146,灾难
信心在合理时被奖励,不合理时被惩罚。在数百场比赛上平均后,Brier 自动把校准过的分析者从喧闹的分析者中区分开。
为什么校准比准确率更重要
考虑两位分析者。
分析者 A 对前六球队的每场主场比赛都说 95% 主、3% 平、2% 客。约 60% 的时候对。
分析者 B 对同样的比赛说 62% 主、24% 平、14% 客。62% 的时候对。
谁更好?按准确率,A 领先(60% vs 62% 接近)。按校准,B 远胜。A 的 95% 选项 40% 的时候出错,这很糟糕。B 的 62% 选项 62% 的时候对,这很诚实。
Brier 分数告诉你哪一位在正确读取底层信号。A 的 Brier 会糟糕,因为 95% 概率在错时被平方放大。B 的 Brier 会出色,因为概率与现实匹配。
这在三种实用方面有意义:
风险校准。 如果你用一个分析做下游任何决定(哪怕只是"今晚看哪场最有趣"),知道概率到底有多可靠很重要。一个糟糕分析者的 95% 价值不及一个好分析者的 62%。
分析者之间的比较。 你不能凭原始准确率比较两位分析者。只挑热门的人会比把冷门也包括在内的人看起来更"准确"。Brier 不论概率分布如何都有效。
诚实。 校准过的分析者更不容易过度宣称。知道自己会被 Brier 评分的分析者不会吹嘘。只会被准确率评分的分析者有动机只挑热门并做高准确率宣传。
足球的 Brier 基准
三路足球结果(主 / 平 / 客)的大致基准:
- 始终平基线(每场都说 33/33/33):约 0.25
- 随机概率基线: 约 0.25
- 基本状态模型(仅胜负):约 0.225
- 使用 xG + 状态的体面公开模型: 0.195 至 0.215
- 庄家收线: 约 0.195
- 使用事件数据 + 仔细校准的精英模型: 0.185 至 0.195
低于 0.185 罕见;高于 0.22 表现不佳。多数严肃分析工作处于 0.19 至 0.21 区间,接近但通常不优于庄家市场(后者以定价压力和精明资金作为校准机制)。
Tactiq 如何看待 Brier 与校准
Tactiq 在分析输出上进行内部校准跟踪,以确认比赛卡上的置信度指标按预期速率对应实际结果频率。说"高置信度"的指标应当对应那些头号概率确实以高频率兑现的比赛。说"接近"的指标应当对应那些结果确实多变的比赛。
具体 Brier 数值、校准仪表盘和重新调节节奏属于产品内部。最终送到用户面前的,是一份置信度指标已对实际结果校准、而非作为营销信号编造的分析。已发布的方法学几周内就被复制并失准。
用户在比赛卡上看到:
- 结果的概率三元组,附带映射到真实校准带的可见置信度指标。
- 双方的预期进球。
- 一段以平实语言解释读数的文字分析。
- 任何地方都没有外部市场数据。没有跳转到第三方平台。没有虚拟货币。仅统计分析。
置信度指标是用户面向的校准抓手。"高置信度"意味着信号强;"接近"意味着结果确实多变。
总结
Brier 分数是分析者真正被评分的方式。一个宣传准确率却不展示校准的工具,在请你信任喧闹分析者模式。一个愿意被校准评分、其置信度指标真实反映结果波动的工具,才是经得起时间考验的工具。
如果分析者在结果旁边发布概率,你可以自己对任何分析者的分析计算 Brier。公式简单,基准众所周知,几分钟的电子表格工作就能得到诚实分数。
Tactiq 把校准嵌入到面向用户的置信度指标,并在内部验证它。分析以与底层不确定性匹配的信心读取每场比赛,而不是经不起样本检验的喧闹宣称。1200 多项赛事覆盖、32 种语言本地化、免费版每天 8 次分析,无需信用卡。
如果你一直在跟读这个系列,指标词汇现在已涵盖 人工智能如何分析足球比赛、xG、xA、npxG、PPDA、Field Tilt、推进性动作、SCA / GCA、xPts 与 Elo 评分。Brier 加入它们,作为给其他每个指标的诚实度打分的元指标。