Распределение Пуассона и моделирование голов в футболе
Если вы когда-либо смотрели предматчевое шоу, где ведущий говорит «у этого матча линия ожидаемых голов 2,3, что подразумевает 61% шанс на тотал больше 2,5», вы наблюдали арифметику Пуассона в действии. Если вы видели тройку вероятностей (победа хозяев 58%, ничья 25%, победа гостей 17%), которая казалось взялась из ниоткуда, вычисление, произведшее её, почти наверняка было пуассоновской симуляцией.
Пуассон, это статистический двигатель под большинством футбольных моделей голов. Он там 50 лет, тихо генерируя вероятностные числа, которые позже описываются более модной лексикой. Понимание того, как он работает, демистифицирует многое из того, что «прогноз ИИ для футбола» реально делает под капотом.
Эта статья объясняет Пуассон простым языком, показывает, как он применяется к футболу конкретно, где он работает, где нет, и какие современные уточнения добавляются поверх него.
Что такое Пуассон на самом деле
Распределение Пуассона описывает вероятность некоторого числа событий, происходящих в фиксированном временном окне, при заданной средней частоте.
Формально: если события происходят с постоянной средней частотой λ (лямбда) в единицу времени и они происходят независимо друг от друга, то вероятность ровно k событий в этом окне равна:
P(k) = (λ^k × e^(-λ)) / k!
Не нужно любить математику. Практическое значение:
- λ = 1 означает, что событие происходит в среднем раз за окно. P(0) ≈ 37%, P(1) ≈ 37%, P(2) ≈ 18%, P(3) ≈ 6%, P(4+) ≈ 2%.
- λ = 2 означает дважды за окно. P(0) ≈ 14%, P(1) ≈ 27%, P(2) ≈ 27%, P(3) ≈ 18%, P(4) ≈ 9%, P(5+) ≈ 5%.
- λ = 3 означает трижды за окно. P(0) ≈ 5%, P(1) ≈ 15%, P(2) ≈ 22%, P(3) ≈ 22%, P(4) ≈ 17%, P(5+) ≈ 19%.
Распределение схватывает, что среднее, это одно, но конкретные исходы кластеризуются вокруг этого среднего с известной вероятностью. Когда λ = 2, ожидаете 2, но 0, 3 и 4 все происходят с заметным процентом времени.
Почему Пуассон подходит для футбольных голов
Три причины, почему предположение примерно держится для футбола.
Голы редки. Большинство матчей видят 0-5 голов. Пуассон чисто обрабатывает диапазон 0-5; он ломается на очень высоких счётах, но футбол редко это тестирует.
Голы происходят в примерно независимые моменты. Как только убираются эффекты состояния игры (которые мы обсудим), голы внутри матча происходят с примерно постоянной частотой. Гол на 10-й минуте не меняет вероятность гола на 40-й минуте так резко, как можно подумать.
Частоту можно вывести из качества команды. Если средняя забивная частота команды A 1,5 гола за матч, а защитная частота команды B пропускает 1,2 гола за матч, ожидаемые голы для команды A в этом матче, это какая-то взвешенная смесь (1,5 × 1,2 / лиговое-среднее, с масштабированием на преимущество хозяев). Пуассон берёт это λ и производит полное распределение.
Сочетайте это, и получите рабочую модель: для каждого матча выведите ожидаемые частоты для обеих сторон, примените Пуассон к каждой для получения распределений числа голов, объедините это в матрицу исходов (победы хозяев / ничья / победы гостей / больше 2,5 / обе забьют и т. д.).
Как Пуассон строит тройку вероятностей
Для матча между командой A (ожидаемые голы 1,8) и командой B (ожидаемые голы 1,2), симуляция:
- Используя Пуассон с λ=1,8 для команды A, вычислите P(команда A забивает 0), P(1), P(2), P(3), P(4), P(5+).
- Используя Пуассон с λ=1,2 для команды B, вычислите то же для команды B.
- Предполагая независимость (первое предположение Пуассона), умножьте: P(команда A забивает N и команда B забивает M) = P(A=N) × P(B=M).
- Просуммируйте по N > M для побед хозяев, N = M для ничьих, N < M для побед гостей.
- Нормализуйте при необходимости.
Результат: тройка вероятностей для матча, выведенная целиком из двух чисел ожидаемых голов. Приличное соответствие для большинства матчей.
Это то, чем «модели прогноза, управляемые xG», обычно являются в самом простом виде: два числа на входе, распределение вероятностей на выходе, Пуассон как двигатель.
Где Пуассон ломается
Четыре реальных режима провала, которые современное моделирование пытается корректировать.
Зависимость от состояния игры. Команда, догоняющая дефицит 0-1 в последние 20 минут, играет иначе. Их частота голов поднимается выше предматчевого ожидания; частота их соперника остаётся похожей, но защитные ошибки запускают пропущенные шансы. Независимый Пуассон с постоянной частотой недопрогнозирует частоту камбэков и перепрогнозирует устойчивое доминирование.
Инфляция ничьих. В низкоконтробильных матчах (λ ниже 1,5 на сторону) Пуассон одновременно перепрогнозирует 1-1 и 0-0, недопрогнозируя ничьи в целом. Диксон и Коулз предложили коррекцию в 1997 году, корректирующую низкоконтрольные ячейки матрицы исходов. Большинство продакшн-моделей используют Диксона-Коулза или подобное.
Корреляция между командами. Голы одной команды не полностью независимы от голов другой. Сторона, рано пропускающая, часто падает в качестве по ходу матча. Бивариантные пуассоновские модели добавляют малый параметр корреляции. Без него совместные исходы трактуются слишком независимо.
Экстремальные счета. Правый хвост распределений Пуассона (5-0, 6-0, 7-0) тонкий в сыром Пуассоне, но наблюдается чаще на практике в перекосных матчах. Современные модели применяют коррекции хвостов или используют отрицательные биномиальные распределения, имеющие то же среднее, что и Пуассон, но допускающие больше дисперсии.
Используемое правило: сырой Пуассон, это полезная база, но продакшн-модели всегда добавляют уточнения. Уточнения не меняют интерпретацию (тройки вероятностей, тоталы, обе забьют), но затягивают числа против реальности.
Пуассон за пределами вероятностей исхода
Математика Пуассона позволяет несколько производных метрик:
Ожидаемые очки (xPts). Для каждого матча симулируйте распределение исхода через Пуассон, вычислите ожидаемые очки для каждой стороны. Просуммируйте за сезон, и у вас есть xPts.
Ожидаемые голы за/против за окно. История xG команды в сочетании с Пуассоном производит распределение вероятностей их сезонных сумм голов.
Справедливые линии азиатского гандикапа. Перевод xG в коэффициенты азиатского гандикапа использует пуассоновскую симуляцию для распределения разницы голов.
Вероятности тоталов и обе забьют. Все выводимы из матрицы исхода, которую строит пуассоновская симуляция.
В итоге, как только у вас есть xG на команду (или ожидаемая забивная частота), Пуассон даёт всю вероятностную поверхность матча, не только тройку победа/ничья/поражение.
Как Tactiq обрабатывает моделирование голов в стиле Пуассона
Анализ Tactiq использует симуляционную оценку вероятности как часть пайплайна для производства троек вероятностей, показываемых на карточке матча. Конкретный подход, уточнения, применяемые поверх базового Пуассона, и как симуляция обрабатывает взаимодействия состояния игры и качества соперника, остаются внутри продукта.
Для пользователя эффект в том, что три вероятности на карточке матча отражают симулированное распределение исхода, основанное на оценках ожидаемых голов и сигналах силы команды, а не на вручную закодированных эвристиках. Индикатор уверенности отражает, насколько чувствительно распределение к малым изменениям входных сигналов для этого конкретного матча.
Что пользователь видит на карточке матча:
- Тройки вероятностей исхода, произведённые через симуляцию.
- Ожидаемые голы для каждой стороны с недавним трендом.
- Письменный анализ, называющий исход простым языком: «Хозяева входят с скромным преимуществом по ожидаемым голам, что переводится в распределение примерно 52-25-23».
- Никаких внешних рыночных данных. Никаких перенаправлений на сторонние платформы. Никакой виртуальной валюты. Только статистический анализ.
Итог
Пуассон, это статистическая рабочая лошадка под большинством футбольного моделирования голов. Он достаточно прост для быстрого вычисления, достаточно хорош, чтобы соответствовать большинству матчей, и фундамент, на котором надстраиваются более изощрённые уточнения (Диксон-Коулз, бивариантный, отрицательное биномиальное).
Понимание Пуассона демистифицирует тройки вероятностей, которые вы видите на каждом аналитическом дашборде. Они не магия; это симуляции из входов ожидаемых голов. Что отличает хорошие модели от плохих, это уточнения, корректирующие известные слабости Пуассона.
Tactiq использует симуляционную оценку вероятности с уточнениями, применяемыми для обработки сложности реальных матчей. Анализ показывает калиброванные тройки вероятностей на каждой карточке матча. Tactiq это независимый статистический анализ, не связанный с внешними рынками. Более 1200 соревнований, локализация на 32 языка, бесплатный тариф из восьми анализов в день, без необходимости карты.
Если вы следите за серией, словарь метрик теперь охватывает как ИИ анализирует футбольные матчи, xG, xA, npxG, PPDA, Field Tilt, прогрессивные действия, SCA/GCA, xPts, рейтинги Эло и калибровка по оценке Брайера. Пуассон, это вероятностный двигатель, связывающий большинство предыдущих метрик, когда нужно произвести прогноз.