Rozkład Poissona i modelowanie goli w piłce nożnej
Jeśli kiedyś oglądaliście program z zapowiedzią meczu, gdzie prowadzący mówi „to spotkanie ma linię oczekiwanych goli 2,3, co implikuje 61% szansę na Powyżej 2,5", oglądaliście arytmetykę Poissona w działaniu. Jeśli widzieliście trójkę prawdopodobieństw (zwycięstwo gospodarza 58%, remis 25%, zwycięstwo gości 17%), która zdawała się znikąd, obliczenie produkujące ją było niemal na pewno symulacją Poissona.
Poisson to silnik statystyczny pod większością piłkarskich modeli goli. Jest tam od 50 lat, cicho generując liczby prawdopodobieństw, które później opisuje się modniejszym słownictwem. Zrozumienie, jak działa, demistyfikuje wiele tego, co „predykcja piłkarska AI" naprawdę robi pod maską.
Ten artykuł przeprowadzi was przez Poissona prostym językiem, pokaże, jak stosuje się go konkretnie do piłki, gdzie działa, gdzie nie i co nowoczesne udoskonalenia dodają na wierzchu.
Czym Poisson właściwie jest
Rozkład Poissona opisuje prawdopodobieństwo wystąpienia pewnej liczby zdarzeń w określonym oknie czasowym przy danym średnim tempie.
Formalnie: jeśli zdarzenia zachodzą w stałym średnim tempie λ (lambda) na jednostkę czasu i dzieją się niezależnie od siebie, to prawdopodobieństwo wystąpienia dokładnie k zdarzeń w tym oknie wynosi:
P(k) = (λ^k × e^(-λ)) / k!
Nie musicie kochać matematyki. Praktyczne znaczenie:
- λ = 1 znaczy, że zdarzenie średnio raz na okno. P(0) ≈ 37%, P(1) ≈ 37%, P(2) ≈ 18%, P(3) ≈ 6%, P(4+) ≈ 2%.
- λ = 2 znaczy dwa razy na okno. P(0) ≈ 14%, P(1) ≈ 27%, P(2) ≈ 27%, P(3) ≈ 18%, P(4) ≈ 9%, P(5+) ≈ 5%.
- λ = 3 znaczy trzy razy na okno. P(0) ≈ 5%, P(1) ≈ 15%, P(2) ≈ 22%, P(3) ≈ 22%, P(4) ≈ 17%, P(5+) ≈ 19%.
Rozkład łapie to, że średnia jest jedną rzeczą, ale konkretne wyniki grupują się wokół tej średniej ze znanym prawdopodobieństwem. Gdy λ = 2, oczekujecie 2, ale 0 i 3 i 4 wszystkie zdarzają się znaczących procent czasu.
Dlaczego Poisson pasuje do strzelania goli w piłce nożnej
Trzy powody, dla których założenie z grubsza się utrzymuje dla piłki.
Gole są rzadkie. Większość meczów widzi 0 do 5 goli. Poisson radzi sobie czysto z zakresem 0 do 5; załamuje się przy bardzo wysokich liczeniach, ale piłka rzadko to testuje.
Gole padają w zasadniczo niezależnych momentach. Gdy zdjąć efekty stanu gry (które omówimy), gole w meczu padają w zasadniczo stałym tempie. Gol w 10. minucie nie zmienia prawdopodobieństwa gola w 40. minucie tak ostro, jak moglibyście pomyśleć.
Tempo można wywieść z jakości drużyny. Jeśli średnie tempo strzelecki Drużyny A to 1,5 gola na mecz, a tempo defensywne Drużyny B traci 1,2 gola na mecz, oczekiwane gole dla Drużyny A w tym spotkaniu to jakaś ważona mieszanka (1,5 × 1,2 / średnia ligi, ze skalowaniem przewagi gospodarza). Poisson bierze tę λ i produkuje pełny rozkład.
Połączcie te i dostajecie funkcjonujący model: dla każdego meczu wywiedź oczekiwane tempa dla obu stron, zastosuj Poissona do każdego, by wyprodukować rozkłady liczby goli, połącz je w macierz wyników (zwycięstwa gospodarza / remis / zwycięstwa gości / Powyżej 2,5 / BTTS / itd.).
Jak Poisson buduje trójkę prawdopodobieństw
Dla spotkania między Drużyną A (oczekiwane gole 1,8) i Drużyną B (oczekiwane gole 1,2) symulacja:
- Używając Poissona z λ=1,8 dla Drużyny A, policz P(Drużyna A strzeli 0), P(1), P(2), P(3), P(4), P(5+).
- Używając Poissona z λ=1,2 dla Drużyny B, policz to samo dla Drużyny B.
- Zakładając niezależność (pierwsze założenie Poissona), pomnóż: P(Drużyna A strzela N i Drużyna B strzela M) = P(A=N) × P(B=M).
- Sumuj po N > M dla zwycięstw gospodarza, N = M dla remisów, N < M dla zwycięstw gości.
- Znormalizuj, jeśli trzeba.
Wynik: trójka prawdopodobieństw dla meczu, wyprowadzona całkowicie z dwóch liczb oczekiwanych goli. Przyzwoite dopasowanie dla większości meczów.
To jest to, czym „modele predykcji oparte na xG" zwykle są w swojej najprostszej formie: dwie liczby na wejściu, rozkład prawdopodobieństw na wyjściu, Poisson jako silnik.
Gdzie Poisson się załamuje
Cztery rzeczywiste tryby awarii, które nowoczesne modelowanie próbuje skorygować.
Zależność od stanu gry. Drużyna goniąca deficyt 0-1 w ostatnich 20 minutach gra inaczej. Jej tempo goli rośnie ponad oczekiwanie sprzed meczu; tempo przeciwnika pozostaje podobne, ale błędy obronne wyzwalają stracone okazje. Niezależny Poisson o stałym tempie niedoszacowuje częstość comebacków i przeszacowuje stabilną dominację.
Inflacja remisów. W niskoscoringowych meczach (λ poniżej 1,5 na stronę) Poisson jednocześnie przeszacowuje 1-1 i 0-0, niedoszacowując ogólnie remisów. Dixon i Coles zaproponowali w 1997 korektę dostosowującą komórki niskich wyników macierzy wyników. Większość produkcyjnych modeli używa Dixon-Coles lub podobnego.
Korelacja między drużynami. Gole jednej drużyny nie są w pełni niezależne od goli drugiej. Strona tracąca wcześnie często spada na jakości w trakcie meczu. Modele dwuwymiarowego Poissona dodają mały parametr korelacji. Bez niego wspólne wyniki traktowane są zbyt niezależnie.
Skrajne wyniki. Prawy ogon rozkładów Poissona (5-0, 6-0, 7-0) jest cienki w surowym Poissonie, ale obserwowany częściej w praktyce w niedopasowaniach. Nowoczesne modele stosują korekty ogona lub używają rozkładów ujemnego dwumianowego, które mają tę samą średnią co Poisson, ale dopuszczają większą wariancję.
Użyteczna reguła: surowy Poisson jest użytecznym punktem wyjścia, ale modele produkcyjne zawsze dodają udoskonalenia. Udoskonalenia nie zmieniają interpretacji (trójki prawdopodobieństw, Powyżej/Poniżej, BTTS), ale zacieśniają liczby wobec rzeczywistości.
Poisson poza prawdopodobieństwami wyników
Matematyka Poissona umożliwia kilka metryk pochodnych:
Oczekiwane punkty (xPts). Dla każdego meczu zasymuluj rozkład wyników przez Poissona, policz oczekiwane punkty dla każdej strony. Zsumuj po sezonie i masz xPts.
Oczekiwane gole strzelone i tracone w oknie. Historia xG drużyny połączona z Poissonem produkuje rozkład prawdopodobieństw ich łącznych goli sezonowych.
Uczciwe linie azjatyckiego handicapu. Tłumaczenie xG na kursy azjatyckiego handicapu używa symulacji Poissona dla rozkładu różnicy goli.
Prawdopodobieństwa Powyżej/Poniżej i BTTS. Wszystkie wyprowadzane z macierzy wyników, którą buduje symulacja Poissona.
W efekcie, gdy macie xG na drużynę (lub oczekiwane tempo strzeleckie), Poisson daje wam całą powierzchnię prawdopodobieństw meczu, nie tylko trójkę zwycięstwo/remis/porażka.
Jak Tactiq podchodzi do modelowania goli w stylu Poissona
Analiza Tactiq używa estymacji prawdopodobieństwa opartej na symulacji jako część potoku produkującego trójki prawdopodobieństw na karcie meczu. Konkretne podejście, udoskonalenia stosowane wobec podstawowego Poissona oraz sposób, w jaki symulacja radzi sobie z interakcjami stanu gry i jakości przeciwnika, pozostają wewnątrz produktu.
Dla użytkownika efekt jest taki, że trzy prawdopodobieństwa na karcie meczu odzwierciedlają symulowany rozkład wyników ugruntowany w szacunkach oczekiwanych goli i sygnałach siły drużyny, a nie ręcznie zakodowane heurystyki. Wskaźnik pewności odzwierciedla, jak wrażliwy jest rozkład na małe zmiany sygnałów wejściowych dla konkretnego spotkania.
To, co użytkownik widzi na karcie meczu:
- Trójki prawdopodobieństw dla wyniku, produkowane przez symulację.
- Oczekiwane gole dla każdej strony z niedawnym trendem.
- Pisemną analizę nazywającą wynik prostym językiem: "Strona gospodarzy wchodzi ze skromną przewagą w oczekiwanych golach, co przekłada się na podział prawdopodobieństw mniej więcej 52-25-23."
- Brak danych z rynków zewnętrznych. Brak przekierowań do platform zewnętrznych. Brak waluty wirtualnej. Tylko analiza statystyczna.
Wnioski
Poisson to statystyczny koń roboczy pod większością piłkarskiego modelowania goli. Jest na tyle prosty, by liczyć szybko, na tyle dobry, by pasować do większości meczów, i fundament, na którym budują się bardziej wyrafinowane udoskonalenia (Dixon-Coles, dwuwymiarowy, ujemny dwumianowy).
Zrozumienie Poissona demistyfikuje trójki prawdopodobieństw, które widzicie na każdym dashboardzie analitycznym. To nie magia; to symulacje z wejść oczekiwanych goli. To, co oddziela dobre modele od złych, to udoskonalenia korygujące znane słabości Poissona.
Tactiq używa estymacji prawdopodobieństwa opartej na symulacji z udoskonaleniami stosowanymi do obsługi rzeczywistej złożoności meczu. Analiza ujawnia skalibrowane trójki prawdopodobieństw na każdej karcie meczu. Ponad 1.200 rozgrywek, lokalizacja w 32 językach, darmowy poziom z ośmioma analizami dziennie, bez karty.
Jeśli śledziliście serię, słownictwo metryczne obejmuje teraz jak AI przewiduje mecze piłkarskie, xG, xA, npxG, PPDA, Field Tilt, progresywne akcje, SCA/GCA, xPts, ratingi Elo i kalibrację Briera. Poisson to silnik prawdopodobieństw, który wiąże większość poprzednich miar, gdy trzeba wyprodukować predykcję.