Brier-score forklaret: hvordan fodboldforudsigelser bedømmes

Af Tactiq AI · 2026-05-06 · 8 min læsning · AI og Fodbold

De fleste fodboldforudsigelses-apps markedsfører præcision. "70% præcis" lyder imponerende. "80% af vores topvalg gik igennem" lyder mere imponerende. Præcisionspåstande dominerer feltet. De er også næsten meningsløse.

Den rigtige måde at bedømme en forudsiger på er ikke præcision. Det er kalibrering. En forudsiger, hvis 70%-sandsynlighedsvalg har ret 70% af tiden (ikke 90%, ikke 50%), gør jobbet. En forudsiger, hvis 70%-valg har ret 85% af tiden, er underselvsikker (sandsynligvis værdifuld), men ikke kalibreret. En forudsiger, hvis 70%-valg har ret 55% af tiden, er højtråbende (sandsynligvis ubrugelig).

Brier-scoren er metrikken, der bedømmer kalibrering. Den har været standard i akademisk forudsigelsesforskning i 75 år, og det er sådan, enhver fodboldforudsiger, der er værd at lytte til, bedømmes ærligt.

Denne artikel gennemgår, hvad Brier faktisk måler, hvordan man selv beregner den, hvad benchmarkene er, og hvorfor kalibrering er det signal, du bør kræve af ethvert forudsigelsesværktøj.

Hvad Brier faktisk måler

Brier er en kvadreret-fejl-score mellem forudsigelse og virkelighed. Jo lavere, jo bedre kalibreret.

For tre-vejs-fodboldudfald (hjemmesejr, uafgjort, udesejr) producerer hver kamp tre forudsigelsestal, der summerer til 1,0. Det faktiske resultat producerer tre 0-eller-1-tal (1 for udfaldet der skete, 0 for de andre).

Per-kamp-formel: Brier = Σ (forudsigelse - faktisk)^2 / 3

Så en forudsigelse på [0,60, 0,25, 0,15] for hjemme/uafgjort/ude på en kamp, der endte med hjemmesejr:

Hjemme: (0,60 - 1,00)^2 = 0,16
Uafgjort: (0,25 - 0,00)^2 = 0,0625
Ude: (0,15 - 0,00)^2 = 0,0225
Sum: 0,245
Divider med 3: 0,0817

En forudsigelse der sagde [0,95, 0,03, 0,02] på samme kamp (hjemme vandt):

Sum: 0,0025 + 0,0009 + 0,0004 = 0,0038
Divider med 3: ≈ 0,0013

Den selvsikre korrekte forudsigelse scorer langt bedre. Men den selvsikre forkerte forudsigelse straffes hårdt:

[0,95, 0,03, 0,02] på en kamp der endte uafgjort:
Hjemme: (0,95 - 0)^2 = 0,9025
Uafgjort: (0,03 - 1)^2 = 0,9409
Ude: (0,02 - 0)^2 = 0,0004
Sum: 1,8438
Divider med 3: ≈ 0,6146, en katastrofe

Tillid belønnes når den er berettiget og straffes når den ikke er. Gennemsnittet over hundredvis af kampe adskiller Brier kalibrerede forudsigere fra højtråbende automatisk.

Hvorfor kalibrering betyder mere end præcision

Overvej to forudsigere.

Forudsiger A siger altid 95% hjemme, 3% uafgjort, 2% ude på hver hjemmekamp for en top-seks-side. Får cirka 60% af dem rigtigt.

Forudsiger B siger 62% hjemme, 24% uafgjort, 14% ude på de samme opgør. Får 62% af dem rigtigt.

Hvem er bedst? Præcisionsmæssigt fører A (60% vs 62% er tæt). Kalibreringsmæssigt er B langt foran. A's 95%-valg går galt 40% af tiden, hvilket er forfærdeligt. B's 62%-valg går rigtigt 62% af tiden, hvilket er ærligt.

Brier-scorer fortæller dig, hvilken der læser det underliggende signal korrekt. A's Brier vil være rædselsfuld, fordi 95%-sandsynlighederne kvadreres op, når de er forkerte. B's Brier vil være fremragende, fordi sandsynlighederne matcher virkeligheden.

Dette betyder noget på tre praktiske måder:

Risikokalibrering. Hvis du bruger en forudsigelse til at træffe enhver beslutning nedenstrøms (selv en uformel "hvilken kamp er mest interessant at se"), betyder det at vide, hvor pålidelig sandsynligheden faktisk er. En 95% fra en dårlig forudsiger er mindre værd end en 62% fra en god.

Sammenligning mellem forudsigere. Du kan ikke sammenligne to forudsigere på rå præcision. Nogen, der kun vælger favoritter, ser mere "præcis" ud end nogen, der inkluderer outsidere i deres forudsigelser. Brier virker uanset fordelingen af sandsynligheder.

Ærlighed. Kalibrerede forudsigere er mindre fristede til at overpåstå. En forudsiger der ved, de bliver Brier-scoret, praler ikke. En forudsiger der ved, de kun bliver præcisions-scoret, har incitament til kun at vælge favoritter og puste præcisionslinjen op.

Brier-benchmarks for fodbold

Grove benchmarks på Brier for tre-vejs-fodboldudfald (hjemme / uafgjort / ude):

Altid-uafgjort-baseline (siger hver kamp er 33/33/33): omkring 0,25
Tilfældig sandsynlighedsbaseline: omkring 0,25
Grundlæggende form-baseret model (kun sejre-nederlag): omkring 0,225
Anstændig offentlig model med xG + form: 0,195 til 0,215
Spilleselskabs lukke-linje: omkring 0,195
Elite-model med begivenhedsdata + omhyggelig kalibrering: 0,185 til 0,195

Score under 0,185 er sjælden; score over 0,22 underpræsterer. Det meste seriøse analytiske arbejde lever i 0,19 til 0,21-intervallet, tæt på, men normalt ikke slående spilleselskabsmarkeder (som har prispres og skarpe penge som deres kalibreringsmekanisme).

Hvordan Tactiq tænker om Brier og kalibrering

Tactiq kører intern kalibreringssporing på tværs af analysens output for at bekræfte, at tillidsindikatorerne på kampkort svarer til virkelige udfaldsfrekvenser i den forventede rate. En tillidsindikator, der siger "høj tillid", bør mappe til kampe, hvor topsandsynligheden faktisk udspiller sig i en høj rate. En tillidsindikator, der siger "tæt", bør mappe til kampe, hvor udfaldene er ægte variable.

De specifikke Brier-værdier, kalibreringsdashboards og re-tuning-kadencen forbliver inden for produktet. Hvad der når brugeren er en konfidenskvalificeret analyse, hvor tillidsindikatoren er blevet kalibreret mod faktiske udfald snarere end opfundet som markedsføringssignal. Publiceret metodologi bliver kopieret og miskalibreret inden for uger.

Hvad brugeren ser på kampkortet:

Sandsynlighedstripletter for udfaldet, med en synlig tillidsindikator, der mapper til et ægte kalibreringsbånd.
Forventede mål for hver side.
En skreven analyse, der forklarer læsningen i klart sprog.
Ingen eksterne markedsdata nogen steder. Ingen omdirigeringer til tredjepartsplatforme. Ingen virtuel valuta. Kun statistisk analyse.

Tillidsindikatoren er det brugersynlige håndtag på kalibrering. "Høj tillid" betyder, at signalet er stærkt; "tæt" betyder, at udfaldene har været ægte variable.

Konklusionen

Brier-scoren er, hvordan forudsigere faktisk bedømmes. Et værktøj der reklamerer med præcision uden at vise kalibrering, beder dig stole på det højtråbende-forudsiger-mønster. Et værktøj, der er villigt til at blive bedømt på kalibrering, der viser tillidsindikatorer, som ægte reflekterer udfaldsvariabilitet, er det, der vil holde over tid.

Du kan beregne Brier selv på enhver forudsigers forudsigelser, hvis de publicerer sandsynlighederne sammen med resultaterne. Formlen er enkel, benchmarkene er velkendte, og den ærlige karakter tager nogle få minutters regnearksarbejde.

Tactiq bygger kalibrering ind i den brugersynlige tillidsindikator og validerer det internt. Analysen læser hver kamp med en tillid, der matcher den underliggende usikkerhed snarere end højtråbende påstande, der ikke overlever stikprøvegranskning. Over 1.200 turneringer, 32-sprogs lokalisering, gratisniveau med otte analyser per dag, intet kreditkort krævet.

Hvis du har fulgt serien, dækker metrikvokabularet nu hvordan AI forudsiger fodboldkampe, xG, xA, npxG, PPDA, Field Tilt, progressive aktioner, SCA/GCA, xPts og Elo-ratings. Brier slutter sig til dem som meta-metrikken, der bedømmer hver anden metriks ærlighed.

Ofte stillede spørgsmål

Hvad er en Brier-score i én sætning?

Brier-scoren måler hvor langt en forudsigers sandsynlighedsestimater er fra virkeligheden, gennemsnitligt over alle deres forudsigelser. Lavere er bedre. En perfekt forudsiger får en Brier-score på 0; en møntkast-fjols får en score omkring 0,25 på tre-vejs-fodboldudfald.

Hvordan beregnes den faktisk?

For hver kamp, tag forudsigerens sandsynlighed for hvert udfald (hjemme, uafgjort, ude) og det faktiske resultat (1 for det udfald, der skete, 0 for de andre). Beregn (forudsigelse - faktisk)^2 for hvert udfald, summér og divider med antallet af udfald. Gennemsnit det over alle kampe. Jo lavere det resulterende tal, jo tættere stemmer forudsigerens sandsynligheder med det, der faktisk skete.

Hvorfor er kalibrering vigtigere end præcision?

En 'præcis' forudsiger kan ramme topvalget rigtigt 60% af tiden. Men hvad du virkelig vil have er en forudsiger, hvis 70%-valg har ret 70% af tiden, og hvis 45%-valg har ret 45% af tiden. En forudsiger der siger '90%' om alt og har ret 60% af tiden er højtråbende. En kalibreret forudsiger matcher sin tillid til virkeligheden.

Publicerer Tactiq sin Brier-score?

Tactiq kører intern kalibreringssporing på tværs af analysens output for at bekræfte, at tillidsindikatorerne matcher virkelige udfald i den forventede rate. Den specifikke metodologi og aktuelle Brier-score-værdier forbliver inden for produktet. For en bruger viser effekten sig som en tillidsindikator på hver analyse, der ægte reflekterer hvor usikker læsningen er.

Hvad er en god Brier-score for fodbold?

For tre-vejs-kampudfald scorer en naiv møntkast-benchmark omkring 0,25 Brier. En spilleselskabsmarked scorer omkring 0,195. En velbygget fodboldmodel scorer i 0,19-0,21-intervallet. Alt under 0,19 på en stor stikprøve er elite. Alt over 0,22 underpræsterer. Disse er omtrentlige tal; nøjagtige tærskler afhænger af ligamix og stikprøvestørrelse.

Kan jeg beregne min egen Brier-score på forudsigelser?

Ja. Du har brug for en liste over forudsagte sandsynligheder (hjemme/uafgjort/ude for hver kamp) og det faktiske resultat. Anvend formlen, gennemsnit over kampe, sammenlign med benchmarkene ovenfor. Gør du dette regelmæssigt mod ethvert værktøj eller tipster, får du en ærlig karakter, der ikke bygger på markedsføringspåstande.