Poisson 分布与足球进球建模
如果你看过比赛预览节目,主持人说"这场预期进球线为 2.3,意味着大球 2.5 的概率为 61%",你看的就是 Poisson 算术在运作。如果你看过似乎凭空出现的概率三元组(主胜 58%、平 25%、客胜 17%),产生它的计算几乎一定是 Poisson 模拟。
Poisson 是大多数足球进球模型背后的统计引擎。它在那里已 50 年,悄悄地生成那些后来被更时髦词汇描述的概率数字。理解它的工作方式,能为"AI 足球分析"在底层到底在做什么去神秘化。
本文用平实语言介绍 Poisson、展示它如何具体用于足球、它在哪里有效、在哪里无效,以及现代细化在它之上加了什么。
Poisson 究竟是什么
Poisson 分布描述:给定平均速率,在固定时间窗口内某数量事件发生的概率。
形式上:如果事件以恒定平均速率 λ(lambda)每单位时间发生,且彼此独立,那么在该窗口内恰好发生 k 个事件的概率为:
P(k) = (λ^k × e^(-λ)) / k!
不必爱这数学。实用含义:
- λ = 1 表示事件平均每窗口发生一次。P(0) ≈ 37%、P(1) ≈ 37%、P(2) ≈ 18%、P(3) ≈ 6%、P(4+) ≈ 2%。
- λ = 2 表示每窗口两次。P(0) ≈ 14%、P(1) ≈ 27%、P(2) ≈ 27%、P(3) ≈ 18%、P(4) ≈ 9%、P(5+) ≈ 5%。
- λ = 3 表示每窗口三次。P(0) ≈ 5%、P(1) ≈ 15%、P(2) ≈ 22%、P(3) ≈ 22%、P(4) ≈ 17%、P(5+) ≈ 19%。
该分布捕捉到:均值是一回事,但具体结果以已知概率聚集在均值附近。当 λ = 2,你预期是 2,但 0、3、4 都以有意义的百分比发生。
Poisson 为什么适合足球进球
三个让该假设大致成立的原因。
进球罕见。 多数比赛 0 至 5 个进球。Poisson 干净地处理 0 至 5 区间;它在极高计数处崩溃,但足球很少触及。
进球大致独立时间发生。 一旦剥离比赛状态效应(我们将讨论),比赛中的进球大致以恒定速率发生。第 10 分钟的进球并不像你想的那样剧烈改变第 40 分钟进球的概率。
速率可由球队质量派生。 如果球队 A 平均得分速率为 1.5 球/场、球队 B 防守失分速率为 1.2 球/场,那么本场球队 A 的预期进球是某种加权混合(1.5 × 1.2 / 联赛均值,按主场优势缩放)。Poisson 接收 λ 并产生完整分布。
把这些结合起来,你得到一个可用模型:每场比赛派生双方预期速率,对每方应用 Poisson 产生进球数分布,再合并为结果矩阵(主胜 / 平 / 客胜 / 大球 2.5 / BTTS 等)。
Poisson 如何构建概率三元组
球队 A(预期进球 1.8)vs 球队 B(预期进球 1.2):
- 用 λ=1.8 对球队 A 应用 Poisson,计算 P(球队 A 进 0)、P(1)、P(2)、P(3)、P(4)、P(5+)。
- 用 λ=1.2 对球队 B 应用 Poisson,计算同样数据。
- 假设独立(Poisson 第一假设),相乘:P(A 进 N 且 B 进 M) = P(A=N) × P(B=M)。
- N > M 求和得主胜,N = M 得平局,N < M 得客胜。
- 必要时归一化。
结果:单场概率三元组,完全由两个预期进球数派生。多数比赛的体面拟合。
这就是"xG 驱动结果模型"在最简形式下的样子:两个数字进、一个概率分布出,Poisson 是引擎。
Poisson 在哪里崩溃
现代建模试图修正的四种真实失效模式。
比赛状态依赖。 末段 20 分钟落后 0-1 的球队踢法不同。他们的进球速率上升至赛前预期之上;对方速率类似但防守失误引发被进球机会。独立、恒速 Poisson 低估反扑频率,高估稳态主导。
平局膨胀。 在低进球比赛(每方 λ 低于 1.5)中,Poisson 同时高估 1-1 和 0-0,整体低估平局。Dixon 与 Coles 在 1997 年提出修正,对结果矩阵的低分格进行调整。多数生产级模型使用 Dixon-Coles 或类似方法。
两队之间相关性。 一方进球并非完全独立于另一方。早早丢球的一方常在比赛继续时质量下滑。二元 Poisson 模型加入小相关参数。否则联合结果被处理得过于独立。
极端比分。 Poisson 分布的右尾(5-0、6-0、7-0)在原始 Poisson 中很薄,但在实力悬殊的比赛中实际观察到更多。现代模型应用尾部修正或使用负二项分布,后者均值与 Poisson 相同但允许更大方差。
可用规则:原始 Poisson 是一个有用基线,但生产级模型总会加入细化。细化不改变解读(概率三元组、大小球、BTTS),但能让数字更贴近现实。
超越结果概率的 Poisson
Poisson 数学使下游若干指标成为可能:
预期积分(xPts)。 对每场,通过 Poisson 模拟结果分布,计算每方的预期积分。一个赛季累加,得到 xPts。
窗口内的预期支持/反对进球。 球队 xG 历史结合 Poisson 产生其赛季进球总数的概率分布。
亚洲让球公平赔率。 把 xG 转化为亚洲让球赔率使用 Poisson 模拟净胜球分布。
大小球与 BTTS 概率。 全部从 Poisson 模拟构建的结果矩阵派生。
实际上,一旦你有按队 xG(或预期得分速率),Poisson 给你比赛的整片概率面,不仅是胜 / 平 / 负三元组。
Tactiq 如何处理 Poisson 类进球建模
Tactiq 的分析使用基于模拟的概率估计,作为生成比赛卡上呈现的概率三元组流水线的一部分。具体方法、相对基本 Poisson 的细化以及模拟如何处理比赛状态与对手质量交互,属于产品内部。
对用户而言,效果是比赛卡上的三个概率反映了基于预期进球估计与球队实力信号的模拟结果分布,而非手写启发式。置信度指标反映该具体比赛中分布对输入信号微小变化的敏感程度。
用户在比赛卡上看到:
- 结果的概率三元组,由模拟产生。
- 双方的预期进球与近期趋势。
- 一段以平实语言点出结果画面的文字分析:"主队凭借预期进球的小优势进入,转化为大约 52-25-23 的概率分布。"
- 任何地方都没有外部市场数据。没有跳转到第三方平台。没有虚拟货币。仅统计分析。
总结
Poisson 是大多数足球进球建模背后的统计主力。它足够简单可快速计算,足够好以拟合多数比赛,并是更精细细化(Dixon-Coles、二元、负二项)建立其上的基础。
理解 Poisson 让你看到的每个分析仪表盘上概率三元组去神秘化。它们不是魔法;它们是来自预期进球输入的模拟。区分好模型与坏模型的,是修正 Poisson 已知弱点的细化。
Tactiq 使用基于模拟的概率估计,并应用细化处理真实比赛复杂性。分析在每张比赛卡上呈现校准过的概率三元组。1200 多项赛事覆盖、32 种语言本地化、免费版每天 8 次分析,无需信用卡。
如果你一直在跟读这个系列,指标词汇现在已横跨 人工智能如何分析足球比赛、xG、xA、npxG、PPDA、Field Tilt、推进性动作、SCA / GCA、xPts、Elo 评分 与 Brier 校准。Poisson 是把前述指标在需要产生结果分析时串起来的概率引擎。