Brier-score forklaret: hvordan fodboldforudsigelser bedømmes
De fleste fodboldforudsigelses-apps markedsfører præcision. "70% præcis" lyder imponerende. "80% af vores topvalg gik igennem" lyder mere imponerende. Præcisionspåstande dominerer feltet. De er også næsten meningsløse.
Den rigtige måde at bedømme en forudsiger på er ikke præcision. Det er kalibrering. En forudsiger, hvis 70%-sandsynlighedsvalg har ret 70% af tiden (ikke 90%, ikke 50%), gør jobbet. En forudsiger, hvis 70%-valg har ret 85% af tiden, er underselvsikker (sandsynligvis værdifuld), men ikke kalibreret. En forudsiger, hvis 70%-valg har ret 55% af tiden, er højtråbende (sandsynligvis ubrugelig).
Brier-scoren er metrikken, der bedømmer kalibrering. Den har været standard i akademisk forudsigelsesforskning i 75 år, og det er sådan, enhver fodboldforudsiger, der er værd at lytte til, bedømmes ærligt.
Denne artikel gennemgår, hvad Brier faktisk måler, hvordan man selv beregner den, hvad benchmarkene er, og hvorfor kalibrering er det signal, du bør kræve af ethvert forudsigelsesværktøj.
Hvad Brier faktisk måler
Brier er en kvadreret-fejl-score mellem forudsigelse og virkelighed. Jo lavere, jo bedre kalibreret.
For tre-vejs-fodboldudfald (hjemmesejr, uafgjort, udesejr) producerer hver kamp tre forudsigelsestal, der summerer til 1,0. Det faktiske resultat producerer tre 0-eller-1-tal (1 for udfaldet der skete, 0 for de andre).
Per-kamp-formel: Brier = Σ (forudsigelse - faktisk)^2 / 3
Så en forudsigelse på [0,60, 0,25, 0,15] for hjemme/uafgjort/ude på en kamp, der endte med hjemmesejr:
- Hjemme: (0,60 - 1,00)^2 = 0,16
- Uafgjort: (0,25 - 0,00)^2 = 0,0625
- Ude: (0,15 - 0,00)^2 = 0,0225
- Sum: 0,245
- Divider med 3: 0,0817
En forudsigelse der sagde [0,95, 0,03, 0,02] på samme kamp (hjemme vandt):
- Sum: 0,0025 + 0,0009 + 0,0004 = 0,0038
- Divider med 3: ≈ 0,0013
Den selvsikre korrekte forudsigelse scorer langt bedre. Men den selvsikre forkerte forudsigelse straffes hårdt:
- [0,95, 0,03, 0,02] på en kamp der endte uafgjort:
- Hjemme: (0,95 - 0)^2 = 0,9025
- Uafgjort: (0,03 - 1)^2 = 0,9409
- Ude: (0,02 - 0)^2 = 0,0004
- Sum: 1,8438
- Divider med 3: ≈ 0,6146, en katastrofe
Tillid belønnes når den er berettiget og straffes når den ikke er. Gennemsnittet over hundredvis af kampe adskiller Brier kalibrerede forudsigere fra højtråbende automatisk.
Hvorfor kalibrering betyder mere end præcision
Overvej to forudsigere.
Forudsiger A siger altid 95% hjemme, 3% uafgjort, 2% ude på hver hjemmekamp for en top-seks-side. Får cirka 60% af dem rigtigt.
Forudsiger B siger 62% hjemme, 24% uafgjort, 14% ude på de samme opgør. Får 62% af dem rigtigt.
Hvem er bedst? Præcisionsmæssigt fører A (60% vs 62% er tæt). Kalibreringsmæssigt er B langt foran. A's 95%-valg går galt 40% af tiden, hvilket er forfærdeligt. B's 62%-valg går rigtigt 62% af tiden, hvilket er ærligt.
Brier-scorer fortæller dig, hvilken der læser det underliggende signal korrekt. A's Brier vil være rædselsfuld, fordi 95%-sandsynlighederne kvadreres op, når de er forkerte. B's Brier vil være fremragende, fordi sandsynlighederne matcher virkeligheden.
Dette betyder noget på tre praktiske måder:
Risikokalibrering. Hvis du bruger en forudsigelse til at træffe enhver beslutning nedenstrøms (selv en uformel "hvilken kamp er mest interessant at se"), betyder det at vide, hvor pålidelig sandsynligheden faktisk er. En 95% fra en dårlig forudsiger er mindre værd end en 62% fra en god.
Sammenligning mellem forudsigere. Du kan ikke sammenligne to forudsigere på rå præcision. Nogen, der kun vælger favoritter, ser mere "præcis" ud end nogen, der inkluderer outsidere i deres forudsigelser. Brier virker uanset fordelingen af sandsynligheder.
Ærlighed. Kalibrerede forudsigere er mindre fristede til at overpåstå. En forudsiger der ved, de bliver Brier-scoret, praler ikke. En forudsiger der ved, de kun bliver præcisions-scoret, har incitament til kun at vælge favoritter og puste præcisionslinjen op.
Brier-benchmarks for fodbold
Grove benchmarks på Brier for tre-vejs-fodboldudfald (hjemme / uafgjort / ude):
- Altid-uafgjort-baseline (siger hver kamp er 33/33/33): omkring 0,25
- Tilfældig sandsynlighedsbaseline: omkring 0,25
- Grundlæggende form-baseret model (kun sejre-nederlag): omkring 0,225
- Anstændig offentlig model med xG + form: 0,195 til 0,215
- Spilleselskabs lukke-linje: omkring 0,195
- Elite-model med begivenhedsdata + omhyggelig kalibrering: 0,185 til 0,195
Score under 0,185 er sjælden; score over 0,22 underpræsterer. Det meste seriøse analytiske arbejde lever i 0,19 til 0,21-intervallet, tæt på, men normalt ikke slående spilleselskabsmarkeder (som har prispres og skarpe penge som deres kalibreringsmekanisme).
Hvordan Tactiq tænker om Brier og kalibrering
Tactiq kører intern kalibreringssporing på tværs af analysens output for at bekræfte, at tillidsindikatorerne på kampkort svarer til virkelige udfaldsfrekvenser i den forventede rate. En tillidsindikator, der siger "høj tillid", bør mappe til kampe, hvor topsandsynligheden faktisk udspiller sig i en høj rate. En tillidsindikator, der siger "tæt", bør mappe til kampe, hvor udfaldene er ægte variable.
De specifikke Brier-værdier, kalibreringsdashboards og re-tuning-kadencen forbliver inden for produktet. Hvad der når brugeren er en konfidenskvalificeret analyse, hvor tillidsindikatoren er blevet kalibreret mod faktiske udfald snarere end opfundet som markedsføringssignal. Publiceret metodologi bliver kopieret og miskalibreret inden for uger.
Hvad brugeren ser på kampkortet:
- Sandsynlighedstripletter for udfaldet, med en synlig tillidsindikator, der mapper til et ægte kalibreringsbånd.
- Forventede mål for hver side.
- En skreven analyse, der forklarer læsningen i klart sprog.
- Ingen eksterne markedsdata nogen steder. Ingen omdirigeringer til tredjepartsplatforme. Ingen virtuel valuta. Kun statistisk analyse.
Tillidsindikatoren er det brugersynlige håndtag på kalibrering. "Høj tillid" betyder, at signalet er stærkt; "tæt" betyder, at udfaldene har været ægte variable.
Konklusionen
Brier-scoren er, hvordan forudsigere faktisk bedømmes. Et værktøj der reklamerer med præcision uden at vise kalibrering, beder dig stole på det højtråbende-forudsiger-mønster. Et værktøj, der er villigt til at blive bedømt på kalibrering, der viser tillidsindikatorer, som ægte reflekterer udfaldsvariabilitet, er det, der vil holde over tid.
Du kan beregne Brier selv på enhver forudsigers forudsigelser, hvis de publicerer sandsynlighederne sammen med resultaterne. Formlen er enkel, benchmarkene er velkendte, og den ærlige karakter tager nogle få minutters regnearksarbejde.
Tactiq bygger kalibrering ind i den brugersynlige tillidsindikator og validerer det internt. Analysen læser hver kamp med en tillid, der matcher den underliggende usikkerhed snarere end højtråbende påstande, der ikke overlever stikprøvegranskning. Over 1.200 turneringer, 32-sprogs lokalisering, gratisniveau med otte analyser per dag, intet kreditkort krævet.
Hvis du har fulgt serien, dækker metrikvokabularet nu hvordan AI forudsiger fodboldkampe, xG, xA, npxG, PPDA, Field Tilt, progressive aktioner, SCA/GCA, xPts og Elo-ratings. Brier slutter sig til dem som meta-metrikken, der bedømmer hver anden metriks ærlighed.