什么是 xG?写给球迷的预期进球分析指南
过去五年里的每一次足球对话都收下了同样三个字母。解说员在回放之间随口提到 xG。Twitter 时间线在真实比分旁边贴 xG 积分板。分析师谈论预期进球,就像上一代谈论控球率的口气,仿佛每个人都已经知道这个数字代表什么。
大多数球迷并不知道,而这个问题值得解决。xG 是我们谈论足球超越最终比分的最有用方式之一,但也是最常被误用的。被当作神谕,它让人失望。被当作它真正所是的东西,一个针对机会质量的概率分数,它会让你看球的方式变得更锐利。
本文做两件事。它用普通语言解释 xG 衡量什么,不需要统计学学位。它也诚实地讲 xG 在哪里会误导,因为那是网上大多数内容跳过的一半。读完之后,下次你在 2-1 的结果下方看到「xG:1.4 对 2.8」,你会知道它告诉你什么,也知道它故意留下了什么。
xG 到底是什么
预期进球,写作 xG,是附加在单次射门上的概率分数。它回答一个问题:这个精确机会、在这个精确位置、经过这种串联之后,最终落入球网的可能性有多大?答案是 0 到 1 之间的一个小数。
一次在约 5.5 米处起脚、有空间且来自一次诱人传中的射门,可能得到 0.65 xG。在整个历史样本中,大约每三次这样的机会有两次变成进球。一次 27 米远、两名防守者挡在角度上的投机射门,可能得到 0.03 xG。每一百次里有三次。这个数字是跨成千上万次相似尝试的平均值,不是对这个具体射手在这个具体日子的一个分析。
把一场比赛里某队的每次射门相加,就得到该队这场比赛的总 xG。xG: 0.9 对 2.4 对应进球 2-1 的比分,告诉你进 1 球的一方在机会创造上是更好的一方,而进 2 球的一方完成远高于他们基础比率的把握。xG: 2.7 对 0.4 对应 0-0 的比分,告诉你有一方本该赢却没赢,这正是每个球迷都能从那些「不公平」的比赛里认出来的模式。
这个指标在 2010 年代初被商业化使用,最为人所知的是 Opta,此后已经成为描述职业足球各个层级机会质量的默认方式。它的有用性没有争议,有争议的是它的误用。
xG 如何计算,简述
xG 模型不依赖任何单一的神奇输入。它们在庞大的历史射门库上训练,通常是数十万次,每一次都带有最终结果(进或不进)和一组上下文特征。模型学习哪些特征把转化率推高,哪些推低。
大多数 xG 模型依赖的特征在行业内大体相似:
- 射门位置。 射门在场上哪里起脚,以到球门的距离和角度度量。这是单一最强的驱动因素。
- 部位。 右脚、左脚、头球或其他。从同一位置的头球与脚射转化率非常不同。
- 助攻类型。 是直塞、传中、回敲、定位球还是补射。每种传导模式都有自己典型的转化。
- 防守压力。 射门与球门之间有多少防守者,最近的一个有多近。开放射门的转化率远高于被封堵的。
- 比赛状态与阶段。 运动战、快速反击、定位球、罚球点球。罚球点球在大多数公开模型里被当作接近常数的 0.76 到 0.78 xG。
不同供应商使用不同的具体特征集。有的包含追踪数据特征,如防守者的站位。有的折入守门员的起始位置。少数包含射门前的串联特征,如每次控球的传球数。它们共同的底层思想是:把每次射门简化为一小组描述性标签,查找该标签组合在历史上变成进球的频率,并把该比率返回为 xG。
Tactiq 使用 1,200 多个联赛的授权体育数据源的事件级比赛数据来获取分析所用的逐射上下文。xG 信号如何与产品所看的其他部分在 Tactiq 内部结合,留在应用内部。对读者有用的结论是:xG 本身是行业标准。工具之后拿 xG 做什么,才是产品之间的差异所在。
为什么 xG 重要
联赛积分榜按结果排队。进球栏按临门一脚排队,这是有噪音的。xG 给你第三个镜头:谁创造了最多质量,不论球是否进去。
这对一个球迷真正在意的理由有几个。
它把运气从表现里分离出来。 一名前锋在三场比赛里用累计 1.8 xG 打进五球,是在以高于他的比率完成,而这个比率通常会回归。一名前锋用 4.1 xG 没进球是不走运,他的进球通常会来。在足够多的射门上,xG 与进球会收敛。当它们发散时,有某种临时的东西在发生:要么是英雄式的临门一脚,要么是令人懊恼的错失,要么是门将度过了职业生涯的一个月。
它奖励过程而非结果。 一支创造了 2.5 xG 机会却以 0-1 输给定位球进球的球队,往往是 90 分钟里更好的一方。xG 以最终比分无法做到的方式捕捉那道鸿沟。教练内部已经使用这个思路的版本几十年了。xG 把它公开了。
它让底层状态先于结果浮现。 一支中游球队的 xG 差值在六场比赛里悄悄改善,通常即将往上爬,哪怕积分还没跟上。一支上半区球队在持续赢下小分差比赛的同时 xG 在下滑,是在向一个通常会到来的回归借贷。在四到八场比赛的滚动窗口里,xG 状态比原始结果更诚实。
它给你一种谈论射门质量的方式。 在 xG 之前,「好机会」和「坏机会」是主观的。两个人可以看同一次错失,对它是否应该进球意见相左。xG 给它放了一个数字。这个数字并不完美,但它在比赛、联赛和赛季之间保持一致。
它跨联赛通行。 荷兰甲级联赛里的 0.30 xG 射门可以被识别为意甲里的 0.30 xG 射门。底层的机会质量是同一指标,即便周围的战术语境不同。这种可移植性是 xG 成为现代足球分析通用语的一部分原因。
xG 在哪里会误导
这一节是大多数 xG 科普跳过的一节,也是 xG 被本应更懂行的人当作魔法的原因。对这个指标的弱点坦诚,是善用 xG 与被它骗之间的区别。
小样本会骗人。 一场比赛几乎从来不足以用 xG 数据去判断任何东西。一名前锋可以在一个整晚让他进入禁区的低位防线面前打出 1.4 xG,也可以在一个永远不让他转身的高位逼抢面前打出 0.05 xG。两者都是关于那个具体对位的信息,不是关于前锋能力的。滚动至少四到六场再下结论是底线。更少的话就是带数字的轶事。
精英终结者系统性地跑赢 xG。 一些球员,在整个职业生涯里,进的球比他们的 xG 建议的要多。梅西、萨拉赫、哈兰德和一小群人的射门量足够多,他们的超额表现不只是噪音。一般的 xG 模型不知道是谁在射,只知道射从哪里来。这是特性不是 bug,但这意味着原始 xG 低估了精英前锋的价值,高估了那些射门量大却不临门一脚的球员。
弱终结者系统性地跑输 xG。 反过来同样成立。整个赛季长期低于 xG 的前锋通常不是不走运。他们临门一脚差。把他们的低表现当作即将到来的回归,而职业模式说的是另一回事,是常见的陷阱。
防守失误抬高 xG。 门将脱手滚到一名无人防守的攻击手、距球门 5.5 米处的射门得到很高 xG,因为射门发生在高质量位置。xG 模型看不到创造该机会的防守错误。在一场比赛里,一个队可以很大程度上靠对手失误打出亮眼的 xG 线,而那不是可重复的技能。
定位球和罚球点球扭曲头条数字。 罚球点球每次大约值 0.76 xG。一支比赛里赢两个罚球点球的球队,在踢球之前就已经有 1.5 xG 打底。关心运动战表现的分析师有时会把罚球点球和任意球从总数里剥离。公开的记分牌通常不会。
杯赛决赛、德比和保级战打破模型。 xG 是以常规赛的庞大历史基数进行校准的。决赛、地方德比和末轮保级战有不同的心理、不同的战术形态、不同的裁判判罚,以及小得多的可比样本。用你阅读赛季中游联赛的方式去读这些比赛是一个错误。数字仍然被计算。它周围的置信度应当更低,而大多数公开的仪表盘并没有让这一点可见。
比赛末段状态效应扭曲总数。 在最后二十分钟追平的球队会创造不能代表他们真实质量的绝望机会。保着 1-0 的球队会落入一个故意让出控球和射门量的形态。原始整场 xG 把这些阶段糅合在一起。按比赛状态调整的 xG 存在,但那不是头条记分牌所显示的。
这是队伍层面的信号被误读为球员层面的信号。 「球员 X 这场有 0.8 xG」可以意味着他射了一次好机会没进,或者六次半机会全部没进。底层射门分布的形状重要,不只是和值。把累计 xG 当成球员成绩单而不看射门频次和质量分布,是球迷最后围着描述不同事物的数字争论的原因。
从这一切得出的规则:xG 最有用的是作为更广泛判读的一个输入,在几场比赛的窗口内比较,同时把终结者质量和比赛语境放在脑子里。它最没用的是作为对单场比赛的独立判决。
Tactiq 如何在分析中使用 xG
Tactiq 按本文刚刚描述的方式对待 xG:作为底层表现数据的一块,不是独立分析。
在一场比赛的分析内,xG 信号贡献于谁在最近几场以什么水平表现、哪些球员和球队在高于或低于自身质量发挥、以及这场对阵的底层形态有多紧或多一边倒的画面。xG 状态与若干其他输入并列。它们都不被当作答案。
Tactiq 的分析如何把 xG 与其他看到的东西混合的具体方式,留在产品内部。这是一个有意的设计选择,不是遮掩。已发布的方法论在数周内就会被抄袭和错误校准;到达用户的是带置信度限定的分析,并用普通语言解释推理,不是一本教科书。
用户在比赛卡上看到:
- 每一方的预期进球值,附带最近趋势指示器,这样你能看出数字朝哪个方向走。
- 三概率组合的结果,由一个可见的置信度指示限定,反映这场具体比赛底层信号有多稳定。
- 一段书面分析,用普通语言点出 xG 语境:「主队最近五场的 xG 趋势上升,主要来自定位球质量」,而不是「我们的模型给特征向量三赋权」。
- Tactiq 是独立的统计分析。没有外部市场数据源。没有跳转到第三方平台的链接。没有虚拟货币。框架是统计分析,并保持这样。
意图是:一位读 Tactiq 卡片的球迷走开时对这场比赛有了更锐利的判读,而不是拿到一个可以抄去别处的数字。
像行家一样读 xG
六个习惯把会用 xG 的人和只是引用 xG 的人分开。
- 永远看滚动窗口,不是单场。 每队四到八场是底线。一场是故事,不是模式。
- 比较 xG 差值,不是原始 xG。 「这支球队创造的质量比他们让出的多多少」通常比任何一方的总数单独看更有信息量。
- 关心运动战时把罚球点球和任意球剥离。 公开头条通常不剥离。每个罚球点球减去 0.76,看看运动战形态是什么样。
- 检查是谁在射门。 精英终结者跑赢 xG 不是新闻。轮换前锋跑赢 xG 是一面「样本量」的旗。
- 把 xG 与临门一脚历史一起读。 几场比赛的超额表现可能是噪音。三个赛季的超额表现是信息。
- 对德比、杯赛和决赛保持谨慎。 对模型可比赛例更少的比赛,把你对 xG 判读的置信度调低。数字仍会被算出。围绕它的置信带比仪表盘告诉你的要宽。
一起应用,这些习惯把 xG 从一个冷知识数字变成一面镜头。这面镜头对它能看到什么很诚实。这就是全部的要点。
结论
xG 是关于机会质量的、基于数据的分析,不是对一场比赛的判决。在几场比赛的窗口内使用、与终结者质量和比赛语境一起读、并在问题是运动战时把罚球点球和定位球的膨胀剥离掉,它是球迷谈论足球超越最终比分时最锐利的工具之一。
被当作单场神谕使用、或作为没有语境的排行榜数字、或作为观看比赛的替代品,它会误导。指标没有变。读法变了。
Tactiq 就是围绕那个读法构建的。应用在语境中展现 xG,用置信度加以限定,用球迷真正能用得上的语言解释数字的含义,且从不把它与外部市场数据源或第三方平台跳转混在一起。1,200 多个联赛,界面和分析文本的 32 语言本地化,每天八次分析的免费档,无需信用卡。
如果你觉得本文有用,自然的同伴篇是早先那篇关于AI 如何分析足球比赛的指南。xG 是那篇详细展开的四个数据家族之一,两篇文章放在一起,是我们博客其余内容一直在其上继续搭建的基础。