Розподіл Пуассона та моделювання голів у футболі
Якщо ви коли-небудь дивилися шоу превʼю матчу, де ведучий каже «цей матч має лінію очікуваних голів 2,3, що передбачає 61% шансів на Більше 2,5», ви дивилися на пуассонівську арифметику в дії. Якщо ви бачили трійку ймовірностей (господарі 58%, нічия 25%, гості 17%), що ніби з'явилася нізвідки, обчислення, яке її виробило, майже напевно було пуассонівською симуляцією.
Пуассон, це статистичний двигун під більшістю футбольних моделей голів. Він тут уже 50 років, тихо генеруючи цифри ймовірностей, які пізніше описуються більш модним словником. Розуміння того, як він працює, демістифікує багато з того, що «ШІ-футбольний аналіз» насправді робить під капотом.
Ця стаття проходить через Пуассона простою мовою, показує, як він застосовується до футболу зокрема, де він працює, де ні, і що додають сучасні уточнення зверху.
Що насправді таке Пуассон
Розподіл Пуассона описує ймовірність деякої кількості подій, що відбуваються у фіксованому часовому вікні, з огляду на середню швидкість.
Формально: якщо події відбуваються з постійною середньою швидкістю λ (лямбда) за одиницю часу, і вони відбуваються незалежно одна від одної, то ймовірність точно k подій, що відбуваються в цьому вікні, така:
P(k) = (λ^k × e^(-λ)) / k!
Не потрібно любити математику. Практичне значення:
- λ = 1 означає, що подія в середньому раз на вікно. P(0) ≈ 37%, P(1) ≈ 37%, P(2) ≈ 18%, P(3) ≈ 6%, P(4+) ≈ 2%.
- λ = 2 означає двічі за вікно. P(0) ≈ 14%, P(1) ≈ 27%, P(2) ≈ 27%, P(3) ≈ 18%, P(4) ≈ 9%, P(5+) ≈ 5%.
- λ = 3 означає тричі за вікно. P(0) ≈ 5%, P(1) ≈ 15%, P(2) ≈ 22%, P(3) ≈ 22%, P(4) ≈ 17%, P(5+) ≈ 19%.
Розподіл фіксує, що середнє, це одне, але конкретні результати скупчуються навколо цього середнього з відомою ймовірністю. Коли λ = 2, ви очікуєте 2, але 0, 3 і 4 всі стаються значущими відсотками часу.
Чому Пуассон підходить футбольному голізабиванню
Три причини, чому припущення приблизно тримається для футболу.
Голи рідкісні. Більшість матчів бачать 0-5 голів. Пуассон обробляє діапазон 0-5 чисто; він розпадається при дуже високих числах, але футбол рідко це тестує.
Голи відбуваються в приблизно незалежні часи. Коли ви знімете ефекти стану гри (про що поговоримо), голи всередині матчу відбуваються з приблизно постійною швидкістю. Гол на 10-й хвилині не змінює ймовірність гола на 40-й хвилині так різко, як ви могли б подумати.
Швидкість можна вивести з якості команди. Якщо середня швидкість голізабивання команди A, це 1,5 голу/матч, а оборонна швидкість команди B пропускає 1,2 голу/матч, очікувані голи для команди A в цьому матчі, це деяка зважена суміш (1,5 × 1,2 / середнє по лізі, з масштабуванням домашньої переваги). Пуассон бере ту λ і виробляє повний розподіл.
Поєднайте ці, і ви отримаєте робочу модель: для кожного матчу виведіть очікувані швидкості для обох сторін, застосуйте Пуассон до кожної, щоб виробити розподіли підрахунку голів, поєднайте їх у матрицю результатів (господарі виграють / нічия / гості виграють / Більше 2,5 / BTTS тощо).
Як Пуассон будує трійку ймовірностей
Для матчу між командою A (очікувані голи 1,8) та командою B (очікувані голи 1,2) симуляція:
- Використовуючи Пуассон з λ=1,8 для команди A, обчисліть P(команда A забиває 0), P(1), P(2), P(3), P(4), P(5+).
- Використовуючи Пуассон з λ=1,2 для команди B, обчисліть те саме для команди B.
- Припускаючи незалежність (перше припущення Пуассона), множте: P(команда A забиває N і команда B забиває M) = P(A=N) × P(B=M).
- Підсумуйте по N > M для перемог господарів, N = M для нічиїх, N < M для перемог гостей.
- Нормалізуйте, якщо потрібно.
Результат: трійка ймовірностей для матчу, виведена цілком з двох чисел очікуваних голів. Гідна підгонка для більшості матчів.
Ось чим зазвичай є «xG-керовані аналітичні моделі» в найпростішому вигляді: два числа на вході, розподіл ймовірностей на виході, Пуассон як двигун.
Де Пуассон розпадається
Чотири реальні режими помилок, які сучасне моделювання намагається виправити.
Залежність від стану гри. Команда, що наздоганяє дефіцит 0-1 в останні 20 хвилин, грає інакше. Її швидкість голів зростає вище передматчевих очікувань; швидкість суперника залишається подібною, але оборонні помилки запускають пропущені моменти. Незалежний, з постійною швидкістю Пуассон недопередбачує частоту повернень і переоцінює стійку домінацію.
Інфляція нічиїх. У матчах з низьким рахунком (λ менше 1,5 на сторону) Пуассон переоцінює 1-1 і 0-0 одночасно, недооцінюючи нічиї загалом. Діксон і Коулз запропонували корекцію в 1997 році, що коригує клітинки матриці результатів з низьким рахунком. Більшість виробничих моделей використовують Діксон-Коулз або подібне.
Кореляція між командами. Голи однієї команди не повністю незалежні від іншої. Сторона, що пропускає рано, часто падає в якості, коли матч триває. Біваріантні моделі Пуассона додають малий параметр кореляції. Без нього спільні результати трактуються надто незалежно.
Екстремальні рахунки. Правий хвіст пуассонівських розподілів (5-0, 6-0, 7-0) тонкий у голому Пуассоні, але спостерігається частіше на практиці в нерівних матчах. Сучасні моделі застосовують корекції хвостів або використовують негативні біноміальні розподіли, які мають те саме середнє, що й Пуассон, але дозволяють більше варіації.
Корисне правило: голий Пуассон, це корисна базова лінія, але виробничі моделі завжди додають уточнення. Уточнення не змінюють інтерпретацію (трійки ймовірностей, Більше/Менше, BTTS), але затягують цифри проти реальності.
Пуассон поза ймовірностями результатів
Математика Пуассона дозволяє кілька метрик нижче за течією:
Очікувані очки (xPts). Для кожного матчу симулюйте розподіл результатів через Пуассона, обчисліть очікувані очки для кожної сторони. Підсумуйте по сезону, у вас xPts.
Очікувані голи за/проти на вікно. Історія xG команди в поєднанні з Пуассоном виробляє розподіл ймовірностей їхніх сезонних підсумків голів.
Справедливі лінії азійського гандикапу. Переклад xG в коефіцієнти азійського гандикапу використовує пуассонівську симуляцію для розподілу різниці голів.
Ймовірності Більше/Менше та BTTS. Усі виводяться з матриці результатів, яку будує пуассонівська симуляція.
По суті, як тільки ви маєте xG на команду (або очікувану швидкість голізабивання), Пуассон дає вам всю поверхню ймовірностей матчу, не лише трійку перемога/нічия/поразка.
Як Tactiq обробляє моделювання голів типу Пуассона
Аналіз Tactiq використовує оцінку ймовірності на основі симуляції як частину свого пайплайна для виробництва трійок ймовірностей, що показуються на матчевій картці. Конкретний підхід, уточнення, застосовані поверх базового Пуассона, і як симуляція обробляє взаємодії стану гри й якості суперника, залишаються в межах продукту.
Для користувача ефект полягає в тому, що три ймовірності на матчевій картці відображають симульований розподіл результатів, заснований на оцінках очікуваних голів і сигналах сили команди, а не жорстко закодовані евристики. Індикатор впевненості відображає, наскільки чутливий розподіл до малих змін у вхідних сигналах для цього конкретного матчу.
Що користувач бачить на матчевій картці:
- Трійки ймовірностей результату, вироблені через симуляцію.
- Очікувані голи для кожної сторони з нещодавнім трендом.
- Письмовий аналіз, що називає результат зрозумілою мовою: «Господарі заходять зі скромною перевагою в очікуваних голах, що перекладається в приблизно 52-25-23 розподіл ймовірностей».
- Жодних зовнішніх ринкових даних. Жодних перенаправлень на сторонні платформи. Жодної віртуальної валюти. Лише статистичний аналіз.
Висновок
Пуассон, це статистичний робочий кінь під більшістю футбольного моделювання голів. Він достатньо простий, щоб обчислити швидко, достатньо хороший, щоб підходити більшості матчів, і фундамент, на якому будуються більш складні уточнення (Діксон-Коулз, біваріантні, негативні біноміальні).
Розуміння Пуассона демістифікує трійки ймовірностей, які ви бачите на кожній аналітичній панелі. Вони не магія; вони симуляції з вхідних очікуваних голів. Що відрізняє хороші моделі від поганих, це уточнення, які виправляють відомі слабкості Пуассона.
Tactiq використовує оцінку ймовірності на основі симуляції з уточненнями для обробки реальної складності матчів. Аналіз показує калібровані трійки ймовірностей на кожній матчевій картці. 1200+ змагань, локалізація 32 мовами, безкоштовний рівень з восьми аналізів на день, без потреби кредитної картки.
Якщо ви стежили за серією, словник метрик тепер охоплює як ШІ аналізує футбольні матчі, xG, xA, npxG, PPDA, Field Tilt, прогресивні дії, SCA/GCA, xPts, рейтинги Elo та калібрування Brier. Пуассон, це двигун ймовірностей, що пов'язує більшість попередніх метрик разом, коли потрібно виробити аналіз.