Brier-skår forklart: Hvordan fotballforutsigelser blir vurdert
De fleste fotballforutsigelsesapper markedsfører nøyaktighet. "70% nøyaktig" høres imponerende ut. "80% av topp-tippingene våre gikk gjennom" høres mer imponerende ut. Nøyaktighetspåstander dominerer feltet. De er også nesten meningsløse.
Den riktige måten å vurdere en forutsiger på er ikke nøyaktighet. Det er kalibrering. En forutsiger hvis 70%-sannsynlighetstippinger har rett 70% av tiden (ikke 90%, ikke 50%) gjør jobben. En forutsiger hvis 70%-tippinger har rett 85% av tiden er underselvsikker (sannsynligvis verdifull), men ikke kalibrert. En forutsiger hvis 70%-tippinger har rett 55% av tiden er høylytt (sannsynligvis ubrukelig).
Brier-skåren er metrikken som vurderer kalibrering. Den har vært standard i akademisk forutsigelsesforskning i 75 år, og det er slik enhver fotballforutsiger verdt å lytte til blir vurdert ærlig.
Denne artikkelen går gjennom hva Brier faktisk måler, hvordan man beregner den selv, hva referansene er, og hvorfor kalibrering er signalet du bør kreve fra ethvert forutsigelsesverktøy.
Hva Brier faktisk måler
Brier er en kvadrat-feilskår mellom forutsigelse og virkelighet. Jo lavere, jo bedre kalibrert.
For treveis-fotballutfall (hjemmeseier, uavgjort, borteseier) produserer hver kamp tre forutsigelsestall som summerer til 1,0. Det faktiske resultatet produserer tre 0-eller-1-tall (1 for utfallet som skjedde, 0 for de andre).
Per-kamp-formel: Brier = Σ (forutsigelse - faktisk)^2 / 3
Så en forutsigelse på [0,60, 0,25, 0,15] for hjemme/uavgjort/borte på en kamp som endte med hjemmeseier:
- Hjemme: (0,60 - 1,00)^2 = 0,16
- Uavgjort: (0,25 - 0,00)^2 = 0,0625
- Borte: (0,15 - 0,00)^2 = 0,0225
- Sum: 0,245
- Del på 3: 0,0817
En forutsigelse som sa [0,95, 0,03, 0,02] på samme kamp (hjemme vant):
- Sum: 0,0025 + 0,0009 + 0,0004 = 0,0038
- Del på 3: ≈ 0,0013
Den selvsikre korrekte forutsigelsen scorer langt bedre. Men den selvsikre feile forutsigelsen blir hardt straffet:
- [0,95, 0,03, 0,02] på en kamp som endte uavgjort:
- Hjemme: (0,95 - 0)^2 = 0,9025
- Uavgjort: (0,03 - 1)^2 = 0,9409
- Borte: (0,02 - 0)^2 = 0,0004
- Sum: 1,8438
- Del på 3: ≈ 0,6146, en katastrofe
Selvtillit belønnes når den er berettiget og straffes når den ikke er det. I gjennomsnitt over hundrevis av kamper skiller Brier kalibrerte forutsigere fra høylytte automatisk.
Hvorfor kalibrering betyr mer enn nøyaktighet
Vurder to forutsigere.
Forutsiger A sier alltid 95% hjemme, 3% uavgjort, 2% borte på hver hjemmekamp for et topp-seks-lag. Får rundt 60% av dem rett.
Forutsiger B sier 62% hjemme, 24% uavgjort, 14% borte på de samme kampene. Får 62% av dem rett.
Hvem er bedre? Nøyaktighetsmessig er A foran (60% mot 62% er nært). Kalibreringsmessig er B langt foran. As 95%-tippinger går galt 40% av tiden, noe som er forferdelig. Bs 62%-tippinger går rett 62% av tiden, noe som er ærlig.
Brier-skårer forteller deg hvilken som leser det underliggende signalet riktig. As Brier vil være forferdelig fordi 95%-sannsynlighetene kvadrerer seg når de er feil. Bs Brier vil være utmerket fordi sannsynlighetene matcher virkeligheten.
Dette betyr noe på tre praktiske måter:
Risikokalibrering. Hvis du bruker en forutsigelse til å ta noen beslutning videre (selv en avslappet "hvilken kamp er mest interessant å se"), er det viktig å vite hvor pålitelig sannsynligheten faktisk er. En 95% fra en dårlig forutsiger er mindre verdt enn en 62% fra en god.
Sammenligning mellom forutsigere. Du kan ikke sammenligne to forutsigere på rå nøyaktighet. Noen som bare velger favoritter, vil se mer "nøyaktig" ut enn noen som inkluderer underdogs i forutsigelsene sine. Brier fungerer uansett fordeling av sannsynligheter.
Ærlighet. Kalibrerte forutsigere er mindre fristet til å overdrive. En forutsiger som vet at de vil bli Brier-vurdert, skryter ikke. En forutsiger som vet at de bare vil bli nøyaktighetsvurdert, har incentiv til å bare velge favoritter og pumpe nøyaktighetslinjen.
Brier-referanser for fotball
Grove referanser på Brier for treveis-fotballutfall (hjemme / uavgjort / borte):
- Alltid-uavgjort-baseline (sier hver kamp er 33/33/33): omtrent 0,25
- Tilfeldig sannsynlighetsbaseline: omtrent 0,25
- Grunnleggende formbasert modell (kun seire-tap): omtrent 0,225
- Anstendig offentlig modell som bruker xG + form: 0,195 til 0,215
- Spillselskapets sluttlinje: rundt 0,195
- Elitemodell med hendelsesdata + nøye kalibrering: 0,185 til 0,195
Skårer under 0,185 er sjeldne; skårer over 0,22 underpresterer. Det meste seriøst analytisk arbeid lever i området 0,19 til 0,21, nær men vanligvis ikke bedre enn spillselskapsmarkeder (som har prispress og skarpe penger som kalibreringsmekanisme).
Hvordan Tactiq tenker om Brier og kalibrering
Tactiq kjører intern kalibreringsporing på tvers av analyseutdataene sine for å bekrefte at tillitsindikatorene på kampkort tilsvarer virkelige utfallsfrekvenser ved forventet rate. En tillitsindikator som sier "høy tillit" bør kartlegges til kamper der topp-sannsynligheten genuint utspiller seg ved en høy rate. En tillitsindikator som sier "tett" bør kartlegges til kamper der utfall er genuint variable.
De spesifikke Brier-verdiene, kalibreringsdashbordene og rekalibreringskadensen forblir innen produktet. Det som når brukeren er en tillitskvalifisert analyse der tillitsindikatoren er kalibrert mot faktiske utfall snarere enn oppfunnet som markedsføringssignal. Publisert metodikk blir kopiert og feilkalibrert i løpet av uker.
Det brukeren ser på kampkortet:
- Sannsynlighetstripler for utfallet, med en synlig tillitsindikator som kartlegges til et genuint kalibreringsbånd.
- Forventede mål for hver side.
- En skriftlig analyse som forklarer lesningen på klart språk.
- Ingen eksterne markedsdata noe sted. Ingen omdirigeringer til tredjepartsplattformer. Ingen virtuell valuta. Kun statistisk analyse.
Tillitsindikatoren er det brukervendte håndtaket på kalibrering. "Høy tillit" betyr at signalet er sterkt; "tett" betyr at utfall har vært genuint variable.
Konklusjonen
Brier-skår er hvordan forutsigere faktisk blir vurdert. Et verktøy som annonserer nøyaktighet uten å vise kalibrering, ber deg stole på det høylytte forutsigermønsteret. Et verktøy som er villig til å bli vurdert på kalibrering, som viser tillitsindikatorer som genuint reflekterer utfallsvariabilitet, er det som vil holde over tid.
Du kan beregne Brier selv på enhver forutsigers forutsigelser, hvis de publiserer sannsynlighetene sammen med resultatene. Formelen er enkel, referansene er velkjente, og den ærlige karakteren tar noen minutter med regnearkarbeid.
Tactiq bygger kalibrering inn i den brukervendte tillitsindikatoren og validerer den internt. Analysen leser hver kamp med tillit som matcher den underliggende usikkerheten, snarere enn høylytte påstander som ikke overlever utvalgsvurdering. Over 1 200 konkurranser, lokalisering til 32 språk, gratisnivå med åtte analyser per dag, uten kort.
Hvis du har fulgt serien, dekker metrikkvokabularet nå hvordan AI forutsier fotballkamper, xG, xA, npxG, PPDA, Field Tilt, progressive aksjoner, SCA/GCA, xPts og Elo-rating. Brier slutter seg til dem som meta-metrikken som vurderer alle de andre metrikkenes ærlighet.