Brier-score uitgelegd: hoe voetbalvoorspellingen worden beoordeeld
De meeste voetbalvoorspellingsapps verkopen nauwkeurigheid. "70 procent nauwkeurig" klinkt indrukwekkend. "80 procent van onze topkeuzes kwam uit" klinkt nog indrukwekkender. Nauwkeurigheidsbeweringen domineren de markt. Ze zijn ook bijna betekenisloos.
De juiste manier om een voorspeller te beoordelen is niet nauwkeurigheid. Het is kalibratie. Een voorspeller wiens 70-procentkansen in 70 procent van de gevallen uitkomen (niet 90, niet 50) doet het werk. Een voorspeller wiens 70-procentkeuzes in 85 procent kloppen is ondervertrouwen (waarschijnlijk waardevol) maar niet gekalibreerd. Een voorspeller wiens 70-procentkeuzes in 55 procent kloppen is luid (waarschijnlijk nutteloos).
De Brier-score is de maatstaf die kalibratie beoordeelt. Ze is al 75 jaar standaard in academisch voorspellingsonderzoek, en zo wordt elke voetbalvoorspeller die het waard is om naar te luisteren eerlijk beoordeeld.
Dit artikel loopt door wat Brier eigenlijk meet, hoe je het zelf berekent, wat de benchmarks zijn, en waarom kalibratie het signaal is dat je van elke voorspellingstool moet eisen.
Wat Brier eigenlijk meet
Brier is een gekwadrateerde foutscore tussen voorspelling en werkelijkheid. Hoe lager, hoe beter gekalibreerd.
Voor driewegvoetbaluitkomsten (thuiszege, gelijkspel, uitzege) levert elke wedstrijd drie voorspellingsgetallen op die optellen tot 1,0. Het werkelijke resultaat levert drie 0-of-1 getallen op (1 voor de uitkomst die plaatsvond, 0 voor de andere).
Formule per wedstrijd: Brier = Σ (voorspelling - werkelijkheid)^2 / 3
Dus een voorspelling van [0,60, 0,25, 0,15] voor thuis/gelijk/uit op een wedstrijd die eindigde in een thuiszege:
- Thuis: (0,60 - 1,00)^2 = 0,16
- Gelijk: (0,25 - 0,00)^2 = 0,0625
- Uit: (0,15 - 0,00)^2 = 0,0225
- Som: 0,245
- Delen door 3: 0,0817
Een voorspelling die [0,95, 0,03, 0,02] zei op dezelfde wedstrijd (thuis won):
- Som: 0,0025 + 0,0009 + 0,0004 = 0,0038
- Delen door 3: ≈ 0,0013
De zelfverzekerde correcte voorspelling scoort veel beter. Maar de zelfverzekerde foute voorspelling wordt zwaar bestraft:
- [0,95, 0,03, 0,02] op een wedstrijd die eindigde in gelijkspel:
- Thuis: (0,95 - 0)^2 = 0,9025
- Gelijk: (0,03 - 1)^2 = 0,9409
- Uit: (0,02 - 0)^2 = 0,0004
- Som: 1,8438
- Delen door 3: ≈ 0,6146, een ramp
Vertrouwen wordt beloond wanneer gerechtvaardigd en bestraft wanneer niet. Gemiddeld over honderden wedstrijden scheidt Brier gekalibreerde voorspellers automatisch van luide.
Waarom kalibratie zwaarder weegt dan nauwkeurigheid
Beschouw twee voorspellers.
Voorspeller A zegt altijd 95 procent thuis, 3 procent gelijk, 2 procent uit op elke thuiswedstrijd van een topvijfclub. Heeft daarvan ongeveer 60 procent goed.
Voorspeller B zegt 62 procent thuis, 24 procent gelijk, 14 procent uit op dezelfde wedstrijden. Heeft daarvan 62 procent goed.
Wie is beter? Op nauwkeurigheid ligt A voor (60 procent vs 62 procent is dichtbij). Op kalibratie ligt B mijlenver voor. A's 95-procentkeuzes gaan 40 procent van de tijd fout, wat verschrikkelijk is. B's 62-procentkeuzes kloppen in 62 procent van de gevallen, wat eerlijk is.
Brier-scores vertellen je welke van de twee het onderliggende signaal correct leest. A's Brier wordt rampzalig omdat de 95-procentkansen kwadratisch oplopen wanneer ze fout zijn. B's Brier wordt uitstekend omdat de waarschijnlijkheden bij de werkelijkheid passen.
Dit telt op drie praktische manieren:
Risicokalibratie. Als je een voorspelling gebruikt om welke beslissing dan ook te nemen (zelfs een ongedwongen "welke wedstrijd is het interessantst om te kijken"), telt het te weten hoe betrouwbaar de waarschijnlijkheid eigenlijk is. Een 95 procent van een slechte voorspeller is minder waard dan een 62 procent van een goede.
Vergelijking tussen voorspellers. Je kunt twee voorspellers niet vergelijken op ruwe nauwkeurigheid. Iemand die alleen favorieten kiest zal "nauwkeuriger" lijken dan iemand die underdogs in zijn voorspellingen meeneemt. Brier werkt ongeacht de verdeling van waarschijnlijkheden.
Eerlijkheid. Gekalibreerde voorspellers worden minder verleid om overdreven te claimen. Een voorspeller die weet dat hij op Brier wordt beoordeeld, schept niet op. Een voorspeller die weet dat hij alleen op nauwkeurigheid wordt beoordeeld, heeft een prikkel om alleen favorieten te roepen en de nauwkeurigheidslijn op te pompen.
Brier-benchmarks voor voetbal
Globale benchmarks op Brier voor driewegvoetbaluitkomsten (thuis / gelijk / uit):
- Altijd-gelijk-baseline (zegt elke wedstrijd 33/33/33): rond de 0,25
- Willekeurige waarschijnlijkheidsbaseline: rond de 0,25
- Eenvoudig vormgebaseerd model (alleen winst-verlies): rond de 0,225
- Behoorlijk publiek model met xG plus vorm: 0,195 tot 0,215
- Slotkoers van bookmakers: rond de 0,195
- Elitemodel met eventdata en zorgvuldige kalibratie: 0,185 tot 0,195
Scores onder 0,185 zijn zeldzaam; scores boven 0,22 presteren ondermaats. Het meeste serieuze analytische werk leeft in het 0,19 tot 0,21 bereik, dichtbij maar meestal niet beter dan bookmakermarkten (die prijsdruk en scherp geld als kalibratiemechanisme hebben).
Hoe Tactiq over Brier en kalibratie denkt
Tactiq voert interne kalibratiecontrole uit op haar analyse-uitvoer om te bevestigen dat de vertrouwensindicatoren op wedstrijdkaarten overeenkomen met de uitkomstfrequenties in de echte wereld in de verwachte verhouding. Een vertrouwensindicator die "hoog vertrouwen" zegt, moet aansluiten bij wedstrijden waar de bovenste waarschijnlijkheid daadwerkelijk in een hoge frequentie uitkomt. Een vertrouwensindicator die "nipt" zegt, moet aansluiten bij wedstrijden waar uitkomsten echt variabel zijn.
De specifieke Brier-waarden, de kalibratiedashboards en de hercalibratiecadans blijven binnen het product. Wat de gebruiker bereikt is een vertrouwensgekwalificeerde analyse waar de vertrouwensindicator gekalibreerd is tegen werkelijke uitkomsten in plaats van uitgevonden als marketingsignaal. Gepubliceerde methodologie wordt binnen weken gekopieerd en miscalibreerd.
Wat de gebruiker op de wedstrijdkaart ziet:
- Waarschijnlijkheidsdrietallen voor de uitkomst, met een zichtbare vertrouwensindicator die aansluit bij een echte kalibratieband.
- Verwachte doelpunten voor elke ploeg.
- Een geschreven analyse die de lezing in heldere taal uitlegt.
- Geen externe marktdata. Geen doorverwijzingen naar derdenplatformen. Geen virtuele valuta. Alleen statistische analyse.
De vertrouwensindicator is het gebruikersgerichte handvat op kalibratie. "Hoog vertrouwen" betekent dat het signaal sterk is; "nipt" betekent dat uitkomsten echt variabel zijn geweest.
De kern
De Brier-score is hoe voorspellers daadwerkelijk worden beoordeeld. Een tool die nauwkeurigheid adverteert zonder kalibratie te tonen, vraagt je om vertrouwen te schenken aan het luide-voorspeller-patroon. Een tool die bereid is om op kalibratie beoordeeld te worden, die vertrouwensindicatoren naar boven haalt die echt de uitkomstvariabiliteit weergeven, is degene die over tijd standhoudt.
Je kunt Brier zelf berekenen op de voorspellingen van elke voorspeller, als ze de waarschijnlijkheden naast resultaten publiceren. De formule is eenvoudig, de benchmarks zijn welbekend, en het eerlijke cijfer kost een paar minuten spreadsheetwerk.
Tactiq bouwt kalibratie in de gebruikersgerichte vertrouwensindicator en valideert die intern. De analyse leest elke wedstrijd met vertrouwen dat past bij de onderliggende onzekerheid, in plaats van luide beweringen die geen steekproefcontrole overleven. Meer dan 1.200 competities, lokalisatie in 32 talen, gratis laag van acht analyses per dag, geen kaart vereist.
Als je de reeks gevolgd hebt, dekt het metriekenvocabulaire nu hoe AI voetbalwedstrijden voorspelt, xG, xA, npxG, PPDA, Field Tilt, progressieve acties, SCA/GCA, xPts en Elo-ratings. Brier voegt zich daarbij als de meta-metriek die de eerlijkheid van elke andere metriek beoordeelt.