Distribuição de Poisson e a modelação de golos no futebol
Se alguma vez assistiu a um programa de antevisão em que o apresentador disse "este encontro tem uma linha de 2,3 golos esperados, o que implica 61% de hipótese de Mais de 2,5", estava a ver aritmética de Poisson em ação. Se viu um trio de probabilidades (vitória da casa 58%, empate 25%, vitória do visitante 17%) que pareceu surgir do nada, o cálculo que o produziu era quase de certeza uma simulação de Poisson.
Poisson é o motor estatístico por trás da maioria dos modelos de golos no futebol. Está lá há 50 anos, gerando silenciosamente os números de probabilidade que mais tarde são descritos com vocabulário mais na moda. Compreender como funciona desmistifica muito do que a "previsão de futebol por IA" está realmente a fazer por baixo do capô.
Este artigo passa por Poisson em linguagem clara, mostra como se aplica especificamente ao futebol, onde funciona, onde não funciona, e que refinamentos modernos acrescentam por cima.
O que é Poisson, na prática
Uma distribuição de Poisson descreve a probabilidade de um certo número de eventos acontecerem numa janela de tempo fixa, dada uma taxa média.
Formalmente: se os eventos ocorrem a uma taxa média constante λ (lambda) por unidade de tempo e acontecem independentemente uns dos outros, então a probabilidade de exatamente k eventos ocorrerem nessa janela é:
P(k) = (λ^k × e^(-λ)) / k!
Não precisa de adorar a matemática. O significado prático:
- λ = 1 significa que o evento acontece em média uma vez por janela. P(0) ≈ 37%, P(1) ≈ 37%, P(2) ≈ 18%, P(3) ≈ 6%, P(4+) ≈ 2%.
- λ = 2 significa duas vezes por janela. P(0) ≈ 14%, P(1) ≈ 27%, P(2) ≈ 27%, P(3) ≈ 18%, P(4) ≈ 9%, P(5+) ≈ 5%.
- λ = 3 significa três vezes por janela. P(0) ≈ 5%, P(1) ≈ 15%, P(2) ≈ 22%, P(3) ≈ 22%, P(4) ≈ 17%, P(5+) ≈ 19%.
A distribuição capta que a média é uma coisa, mas que os resultados específicos se agrupam à volta dessa média com probabilidade conhecida. Quando λ = 2, espera 2, mas 0, 3 e 4 acontecem todos com percentagens significativas das vezes.
Porque é que Poisson encaixa nos golos do futebol
Três razões pelas quais a hipótese se sustenta razoavelmente para o futebol.
Os golos são raros. A maioria dos jogos vê 0-5 golos. Poisson lida com a faixa 0-5 limpamente; falha em contagens muito altas, mas o futebol raramente testa esse extremo.
Os golos acontecem em tempos aproximadamente independentes. Depois de retirar os efeitos de estado de jogo (que vamos discutir), os golos dentro de um jogo acontecem a uma taxa aproximadamente constante. Um golo aos 10 minutos não muda a probabilidade de um golo aos 40 minutos tão fortemente como se poderia pensar.
A taxa pode derivar da qualidade das equipas. Se a taxa média de marcação da Equipa A é 1,5 golos/jogo e a taxa defensiva da Equipa B sofre 1,2 golos/jogo, os golos esperados da Equipa A neste encontro são uma mistura ponderada (1,5 × 1,2 / média da liga, com escala da vantagem de casa). Poisson pega nesse λ e produz uma distribuição completa.
Combine isto e tem um modelo funcional: para cada jogo, deriva taxas esperadas para ambos os lados, aplica Poisson a cada uma para produzir distribuições de contagem de golos, combina-as numa matriz de resultados (vitórias da casa / empate / vitórias do visitante / Mais de 2,5 / BTTS / etc.).
Como Poisson constrói um trio de probabilidades
Para um encontro entre a Equipa A (golos esperados 1,8) e a Equipa B (golos esperados 1,2), a simulação:
- Usando Poisson com λ=1,8 para a Equipa A, calcula P(Equipa A marca 0), P(1), P(2), P(3), P(4), P(5+).
- Usando Poisson com λ=1,2 para a Equipa B, calcula o mesmo para a Equipa B.
- Assumindo independência (a primeira hipótese de Poisson), multiplica: P(Equipa A marca N e Equipa B marca M) = P(A=N) × P(B=M).
- Soma sobre N > M para vitórias da casa, N = M para empates, N < M para vitórias do visitante.
- Normaliza se necessário.
O resultado: trio de probabilidades para o jogo, derivado inteiramente de dois números de golos esperados. Um ajuste decente para a maioria dos jogos.
É isto que os "modelos de previsão baseados em xG" geralmente são na sua forma mais simples: dois números à entrada, uma distribuição de probabilidade à saída, Poisson como motor.
Onde Poisson falha
Quatro modos reais de falha que a modelação moderna tenta corrigir.
Dependência do estado de jogo. Uma equipa a recuperar de uma desvantagem 0-1 nos últimos 20 minutos joga de forma diferente. A sua taxa de golos sobe acima da expectativa pré-jogo; a taxa do adversário fica parecida, mas erros defensivos provocam oportunidades sofridas. Poisson independente e de taxa constante sub-prevê a frequência de reviravoltas e sobre-prevê o domínio em estado estável.
Inflação de empates. Em jogos de poucos golos (λ abaixo de 1,5 por lado), Poisson sobre-prevê 1-1 e 0-0 em simultâneo, sub-prevendo empates no global. Dixon e Coles propuseram uma correção em 1997 que ajusta as células de baixo resultado da matriz de resultados. A maioria dos modelos em produção usa Dixon-Coles ou semelhante.
Correlação entre equipas. Os golos de uma equipa não são totalmente independentes dos da outra. Uma equipa que sofre cedo cai frequentemente em qualidade à medida que o jogo avança. Os modelos de Poisson bivariada acrescentam um pequeno parâmetro de correlação. Sem ele, os resultados conjuntos são tratados como demasiado independentes.
Resultados extremos. A cauda direita das distribuições de Poisson (5-0, 6-0, 7-0) é fina na Poisson pura, mas observada com mais frequência na prática em desencontros. Os modelos modernos aplicam correções de cauda ou usam distribuições binomiais negativas, que têm a mesma média de Poisson mas permitem mais variância.
A regra utilizável: Poisson pura é uma base útil, mas os modelos em produção acrescentam sempre refinamentos. Os refinamentos não mudam a interpretação (trios de probabilidade, Mais/Menos, BTTS), mas apertam os números contra a realidade.
Poisson para além das probabilidades de resultado
A matemática de Poisson permite várias métricas a jusante:
Pontos esperados (xPts). Para cada jogo, simula a distribuição de resultados via Poisson, calcula os pontos esperados para cada lado. Soma ao longo de uma temporada e obtém xPts.
Golos esperados a favor/contra ao longo de uma janela. O histórico de xG de uma equipa combinado com Poisson produz uma distribuição de probabilidade dos seus totais de golos da temporada.
Linhas justas de handicap asiático. Traduzir xG em quotas de handicap asiático usa simulação de Poisson para a distribuição de diferença de golos.
Probabilidades de Mais/Menos e BTTS. Todas deriváveis da matriz de resultados que a simulação de Poisson constrói.
Na prática, uma vez que se tem o xG por equipa (ou taxa de marcação esperada), Poisson fornece toda a superfície de probabilidade do jogo, não apenas o trio vitória/empate/derrota.
Como o Tactiq lida com a modelação de golos ao estilo Poisson
A análise do Tactiq usa estimativa de probabilidade baseada em simulação como parte do seu pipeline para produzir os trios de probabilidade apresentados no cartão de jogo. A abordagem específica, os refinamentos aplicados sobre a Poisson básica e a forma como a simulação lida com as interações entre estado de jogo e qualidade do adversário permanecem dentro do produto.
Para o utilizador, o efeito é que as três probabilidades no cartão de jogo refletem uma distribuição de resultados simulada ancorada em estimativas de golos esperados e sinais de força das equipas, em vez de heurísticas escritas à mão. O indicador de confiança reflete o quão sensível é a distribuição a pequenas mudanças nos sinais de entrada para esse encontro específico.
O que o utilizador vê no cartão de jogo:
- Trios de probabilidade para o resultado, produzidos através de simulação.
- Golos esperados para cada lado com tendência recente.
- Uma análise escrita que nomeia o resultado em linguagem clara: "A equipa da casa entra com uma ligeira vantagem em golos esperados, o que se traduz numa divisão de probabilidade de cerca de 52-25-23."
- Sem dados de mercado externo em parte alguma. Sem redirecionamentos para plataformas terceiras. Sem moeda virtual. Apenas análise estatística.
A conclusão
Poisson é o cavalo de batalha estatístico por baixo da maior parte da modelação de golos no futebol. É simples o suficiente para calcular rapidamente, suficientemente boa para encaixar na maioria dos jogos, e a fundação sobre a qual refinamentos mais sofisticados (Dixon-Coles, bivariada, binomial negativa) são construídos.
Compreender Poisson desmistifica os trios de probabilidade que se vê em qualquer painel de análise. Não são magia; são simulações a partir de entradas de golos esperados. O que separa modelos bons dos maus são os refinamentos que corrigem as fraquezas conhecidas de Poisson.
O Tactiq usa estimativa de probabilidade baseada em simulação com refinamentos aplicados para lidar com a complexidade real dos jogos. A análise apresenta trios de probabilidade calibrados em cada cartão de jogo. Mais de 1.200 competições, localização em 32 línguas, plano gratuito de oito análises por dia, sem cartão.
Se tem acompanhado a série, o vocabulário de métricas cobre agora como a IA prevê jogos de futebol, xG, xA, npxG, PPDA, Field Tilt, ações progressivas, SCA/GCA, xPts, classificações Elo e calibração via pontuação de Brier. Poisson é o motor de probabilidade que liga a maioria das métricas anteriores quando uma previsão tem de ser produzida.