Distribution de Poisson et modélisation des buts au football
Si vous avez déjà regardé une émission d'avant-match où le présentateur dit « cette rencontre a une ligne de 2,3 buts attendus, ce qui implique 61 % de chances de Plus de 2,5 », vous regardiez de l'arithmétique de Poisson en action. Si vous avez vu un triplet de probabilités (victoire à domicile 58 %, nul 25 %, victoire à l'extérieur 17 %) qui semblait sortir de nulle part, le calcul qui l'a produit était presque certainement une simulation de Poisson.
Poisson est le moteur statistique sous la plupart des modèles de buts au football. Il est là depuis 50 ans, générant tranquillement les chiffres de probabilité ensuite décrits avec un vocabulaire plus à la mode. Comprendre comment il fonctionne démystifie une grande partie de ce que la « prédiction de football par IA » fait réellement sous le capot.
Cet article passe en revue Poisson en français clair, montre comment il s'applique spécifiquement au football, là où il fonctionne, là où il ne fonctionne pas, et ce que les raffinements modernes ajoutent par-dessus.
Ce qu'est réellement Poisson
Une distribution de Poisson décrit la probabilité d'un certain nombre d'événements survenant dans une fenêtre temporelle fixe, étant donné un taux moyen.
Formellement : si les événements surviennent à un taux moyen constant λ (lambda) par unité de temps, et qu'ils se produisent indépendamment les uns des autres, alors la probabilité d'exactement k événements survenant dans cette fenêtre est :
P(k) = (λ^k × e^(-λ)) / k!
Pas besoin d'aimer les maths. Le sens pratique :
- λ = 1 signifie que l'événement survient en moyenne une fois par fenêtre. P(0) ≈ 37 %, P(1) ≈ 37 %, P(2) ≈ 18 %, P(3) ≈ 6 %, P(4+) ≈ 2 %.
- λ = 2 signifie deux fois par fenêtre. P(0) ≈ 14 %, P(1) ≈ 27 %, P(2) ≈ 27 %, P(3) ≈ 18 %, P(4) ≈ 9 %, P(5+) ≈ 5 %.
- λ = 3 signifie trois fois par fenêtre. P(0) ≈ 5 %, P(1) ≈ 15 %, P(2) ≈ 22 %, P(3) ≈ 22 %, P(4) ≈ 17 %, P(5+) ≈ 19 %.
La distribution capture que la moyenne est une chose, mais que des issues précises s'agglutinent autour de cette moyenne avec une probabilité connue. Quand λ = 2, on attend 2, mais 0, 3 et 4 surviennent tous avec un pourcentage non négligeable.
Pourquoi Poisson convient à la production de buts au football
Trois raisons pour lesquelles l'hypothèse tient à peu près au football.
Les buts sont rares. La plupart des matchs voient 0 à 5 buts. Poisson gère proprement la plage 0-5 ; il déraille à des comptes très élevés, mais le football teste rarement cela.
Les buts surviennent à des moments à peu près indépendants. Une fois retirés les effets d'état de jeu (qu'on évoquera), les buts dans un match se produisent à un taux à peu près constant. Un but à la 10ᵉ minute ne change pas la probabilité d'un but à la 40ᵉ aussi vivement qu'on pourrait le penser.
Le taux peut être dérivé de la force des équipes. Si le taux moyen de buts marqués de l'équipe A est de 1,5 buts par match et que le taux défensif de l'équipe B encaisse 1,2 buts par match, les buts attendus pour l'équipe A dans cette rencontre sont un mélange pondéré (1,5 × 1,2 / moyenne du championnat, avec mise à l'échelle de l'avantage à domicile). Poisson prend ce λ et produit une distribution complète.
Combinez tout cela et vous obtenez un modèle utilisable : pour chaque match, dériver les taux attendus pour les deux côtés, appliquer Poisson à chacun pour produire des distributions de comptes de buts, combiner celles-ci en une matrice d'issues (victoire domicile / nul / victoire extérieur / Plus de 2,5 / BTTS / etc.).
Comment Poisson construit un triplet de probabilités
Pour une rencontre entre l'équipe A (buts attendus 1,8) et l'équipe B (buts attendus 1,2), la simulation :
- Avec Poisson λ=1,8 pour l'équipe A, calculer P(A marque 0), P(1), P(2), P(3), P(4), P(5+).
- Avec Poisson λ=1,2 pour l'équipe B, calculer la même chose pour l'équipe B.
- En supposant l'indépendance (la première hypothèse de Poisson), multiplier : P(A marque N et B marque M) = P(A=N) × P(B=M).
- Sommer sur N > M pour les victoires à domicile, N = M pour les nuls, N < M pour les victoires à l'extérieur.
- Normaliser si nécessaire.
Le résultat : un triplet de probabilités pour le match, dérivé entièrement de deux nombres de buts attendus. Un ajustement décent pour la plupart des matchs.
C'est ce que sont la plupart des « modèles de prédiction pilotés par xG » dans leur version la plus simple : deux nombres en entrée, une distribution de probabilités en sortie, Poisson comme moteur.
Là où Poisson craque
Quatre vrais modes d'échec que la modélisation moderne tente de corriger.
Dépendance à l'état du jeu. Une équipe qui court après un 0-1 dans les 20 dernières minutes joue différemment. Son taux de buts s'élève au-dessus de l'attente d'avant-match ; le taux de l'adversaire reste similaire mais les erreurs défensives déclenchent des occasions concédées. Un Poisson indépendant à taux constant sous-prédit la fréquence des remontées et sur-prédit la dominance en régime stable.
Inflation des nuls. Dans les matchs à faible score (λ inférieur à 1,5 par côté), Poisson sur-prédit simultanément 1-1 et 0-0, sous-prédisant les nuls dans l'ensemble. Dixon et Coles ont proposé en 1997 une correction qui ajuste les cellules de bas score de la matrice d'issues. La plupart des modèles de production utilisent Dixon-Coles ou similaire.
Corrélation entre équipes. Les buts d'une équipe ne sont pas totalement indépendants de ceux de l'autre. Un côté qui encaisse tôt baisse souvent en qualité au fil du match. Les modèles Poisson bivariés ajoutent un petit paramètre de corrélation. Sans cela, les issues conjointes sont traitées de façon trop indépendante.
Scores extrêmes. La queue droite des distributions de Poisson (5-0, 6-0, 7-0) est mince en Poisson brut mais observée plus souvent en pratique dans les matchs déséquilibrés. Les modèles modernes appliquent des corrections de queue ou utilisent la distribution binomiale négative, qui a la même moyenne que Poisson mais permet plus de variance.
La règle utilisable : Poisson brut est une base utile mais les modèles de production ajoutent toujours des raffinements. Les raffinements ne changent pas l'interprétation (triplets de probabilités, Plus/Moins, BTTS), mais ils resserrent les chiffres face à la réalité.
Poisson au-delà des probabilités d'issue
Les maths de Poisson permettent plusieurs métriques en aval :
Points attendus (xPts). Pour chaque match, simuler la distribution d'issues via Poisson, calculer les points attendus pour chaque côté. Sommer sur une saison, vous avez les xPts.
Buts attendus pour/contre sur une fenêtre. L'historique xG d'une équipe combiné à Poisson produit une distribution de probabilités de ses totaux de buts sur la saison.
Lignes de handicap asiatique justes. Traduire le xG en cotes de handicap asiatique utilise la simulation de Poisson pour la distribution de différence de buts.
Probabilités Plus/Moins et BTTS. Toutes dérivables de la matrice d'issues que la simulation Poisson construit.
En fait, une fois que vous avez le xG par équipe (ou le taux de marquage attendu), Poisson vous donne toute la surface de probabilités du match, pas seulement le triplet victoire/nul/défaite.
Comment Tactiq gère la modélisation des buts façon Poisson
L'analyse de Tactiq utilise l'estimation de probabilité par simulation comme partie de son pipeline pour produire les triplets de probabilités affichés sur la carte du match. L'approche précise, les raffinements appliqués au-dessus du Poisson de base et la façon dont la simulation gère les interactions état-de-jeu et qualité-de-l'opposition restent dans le produit.
Pour l'utilisateur, l'effet est que les trois probabilités sur la carte du match reflètent une distribution d'issues simulée fondée sur des estimations de buts attendus et des signaux de force d'équipe, plutôt que des heuristiques codées à la main. L'indicateur de confiance reflète la sensibilité de la distribution à de petits changements dans les signaux d'entrée pour cette rencontre précise.
Ce que l'utilisateur voit sur la carte du match :
- Triplets de probabilités pour l'issue, produits via simulation.
- Buts attendus pour chaque côté avec une tendance récente.
- Une analyse écrite qui nomme l'issue en langage clair : « L'équipe à domicile entre avec un léger avantage en buts attendus, qui se traduit par une répartition de probabilités d'environ 52-25-23. »
- Aucune donnée de marché externe nulle part. Aucune redirection vers des plateformes tierces. Aucune monnaie virtuelle. Analyse statistique uniquement.
À retenir
Poisson est le cheval de bataille statistique sous la plupart de la modélisation des buts au football. Il est assez simple pour calculer rapidement, assez bon pour s'ajuster à la plupart des matchs, et la fondation sur laquelle des raffinements plus sophistiqués (Dixon-Coles, bivarié, binomial négatif) se construisent.
Comprendre Poisson démystifie les triplets de probabilités que vous voyez sur chaque tableau de bord d'analyse. Ce n'est pas de la magie ; ce sont des simulations à partir d'entrées de buts attendus. Ce qui sépare les bons modèles des mauvais, ce sont les raffinements qui corrigent les faiblesses connues de Poisson.
Tactiq utilise l'estimation de probabilité par simulation avec des raffinements appliqués pour gérer la complexité des matchs réels. L'analyse remonte des triplets de probabilités calibrés sur chaque carte de match. Plus de 1 200 compétitions, localisation en 32 langues, niveau gratuit de huit analyses par jour, sans carte requise.
Si vous avez suivi la série, le vocabulaire des métriques couvre maintenant comment l'IA prédit les matchs de football, xG, xA, npxG, PPDA, Field Tilt, actions progressives, SCA/GCA, xPts, Elo et calibration par score de Brier. Poisson est le moteur de probabilité qui relie la plupart des métriques précédentes quand une prédiction doit être produite.