Brier-Score erklärt: Wie Fußball-Vorhersagen bewertet werden
Die meisten Fußball-Vorhersage-Apps werben mit Genauigkeit. "70% genau" klingt beeindruckend. "80% unserer Top-Tipps gingen durch" klingt beeindruckender. Genauigkeitsbehauptungen dominieren das Feld. Sie sind auch fast bedeutungslos.
Der richtige Weg, einen Vorhersager zu bewerten, ist nicht Genauigkeit. Es ist Kalibrierung. Ein Vorhersager, dessen 70%-Wahrscheinlichkeitstipps in 70% der Fälle stimmen (nicht 90%, nicht 50%), erledigt den Job. Ein Vorhersager, dessen 70%-Tipps in 85% der Fälle stimmen, ist unterkonfident (wahrscheinlich wertvoll), aber nicht kalibriert. Ein Vorhersager, dessen 70%-Tipps in 55% der Fälle stimmen, ist laut (wahrscheinlich nutzlos).
Der Brier-Score ist die Kennzahl, die Kalibrierung bewertet. Er ist seit 75 Jahren Standard in der akademischen Vorhersageforschung, und so wird jeder Fußball-Vorhersager, dem zuzuhören sich lohnt, ehrlich bewertet.
Dieser Artikel zeigt, was Brier wirklich misst, wie Sie ihn selbst berechnen, was die Benchmarks sind, und warum Kalibrierung das Signal ist, das Sie von jedem Vorhersage-Werkzeug verlangen sollten.
Was Brier wirklich misst
Brier ist ein quadratischer Fehler-Score zwischen Vorhersage und Realität. Je niedriger, desto besser kalibriert.
Für Drei-Wege-Fußball-Ausgänge (Heimsieg, Unentschieden, Auswärtssieg) produziert jedes Spiel drei Vorhersagezahlen, die sich auf 1,0 summieren. Das tatsächliche Ergebnis produziert drei 0-oder-1-Zahlen (1 für den eingetretenen Ausgang, 0 für die anderen).
Pro-Spiel-Formel: Brier = Σ (Vorhersage - tatsächlich)^2 / 3
Also eine Vorhersage von [0,60, 0,25, 0,15] für Heim/Unentschieden/Auswärts bei einem Spiel, das mit Heimsieg endete:
- Heim: (0,60 - 1,00)^2 = 0,16
- Unentschieden: (0,25 - 0,00)^2 = 0,0625
- Auswärts: (0,15 - 0,00)^2 = 0,0225
- Summe: 0,245
- Geteilt durch 3: 0,0817
Eine Vorhersage von [0,95, 0,03, 0,02] bei demselben Spiel (Heimsieg trat ein):
- Summe: 0,0025 + 0,0009 + 0,0004 = 0,0038
- Geteilt durch 3: ≈ 0,0013
Die konfidente korrekte Vorhersage erzielt weit besser. Aber die konfidente falsche Vorhersage wird hart bestraft:
- [0,95, 0,03, 0,02] bei einem Spiel, das mit Unentschieden endete:
- Heim: (0,95 - 0)^2 = 0,9025
- Unentschieden: (0,03 - 1)^2 = 0,9409
- Auswärts: (0,02 - 0)^2 = 0,0004
- Summe: 1,8438
- Geteilt durch 3: ≈ 0,6146, eine Katastrophe
Konfidenz wird belohnt, wenn gerechtfertigt, und bestraft, wenn nicht. Gemittelt über Hunderte von Spielen trennt Brier kalibrierte Vorhersager automatisch von lauten.
Warum Kalibrierung mehr zählt als Genauigkeit
Betrachten Sie zwei Vorhersager.
Vorhersager A sagt immer 95% Heim, 3% Unentschieden, 2% Auswärts bei jedem Heimspiel einer Top-Sechs-Seite. Bekommt etwa 60% davon richtig.
Vorhersager B sagt 62% Heim, 24% Unentschieden, 14% Auswärts bei denselben Begegnungen. Bekommt 62% davon richtig.
Wer ist besser? Genauigkeitsmäßig führt A (60% vs. 62% ist nah). Kalibrierungsmäßig liegt B weit vorn. A's 95%-Tipps gehen in 40% der Fälle schief, was schrecklich ist. B's 62%-Tipps treffen in 62% der Fälle zu, was ehrlich ist.
Brier-Scores sagen Ihnen, wer das zugrunde liegende Signal richtig liest. A's Brier wird furchtbar sein, weil sich die 95%-Wahrscheinlichkeiten quadrieren, wenn sie falsch sind. B's Brier wird exzellent sein, weil die Wahrscheinlichkeiten der Realität entsprechen.
Das zählt auf drei praktische Arten:
Risiko-Kalibrierung. Wenn Sie eine Vorhersage für eine nachgelagerte Entscheidung nutzen (auch nur ein lockeres "welches Spiel ist am interessantesten anzuschauen"), zählt es zu wissen, wie verlässlich die Wahrscheinlichkeit wirklich ist. Ein 95% von einem schlechten Vorhersager ist weniger wert als ein 62% von einem guten.
Vergleich zwischen Vorhersagern. Sie können zwei Vorhersager nicht an roher Genauigkeit vergleichen. Jemand, der nur Favoriten tippt, wirkt "genauer" als jemand, der Außenseiter in seine Vorhersagen einschließt. Brier funktioniert unabhängig von der Verteilung der Wahrscheinlichkeiten.
Ehrlichkeit. Kalibrierte Vorhersager sind weniger versucht, zu überreden. Ein Vorhersager, der weiß, dass er Brier-bewertet wird, prahlt nicht. Ein Vorhersager, der weiß, dass er nur genauigkeits-bewertet wird, hat Anreiz, nur Favoriten zu tippen und die Genauigkeitslinie zu pumpen.
Brier-Benchmarks für Fußball
Grobe Benchmarks für Brier bei Drei-Wege-Fußball-Ausgängen (Heim / Unentschieden / Auswärts):
- Immer-Unentschieden-Baseline (sagt jedes Spiel 33/33/33): etwa 0,25
- Zufallswahrscheinlichkeits-Baseline: etwa 0,25
- Einfaches form-basiertes Modell (nur Siege-Niederlagen): etwa 0,225
- Gutes öffentliches Modell mit xG + Form: 0,195 bis 0,215
- Buchmacher-Schlusskurs: etwa 0,195
- Elite-Modell mit Event-Daten + sorgfältiger Kalibrierung: 0,185 bis 0,195
Werte unter 0,185 sind selten; Werte über 0,22 sind Unterleistung. Die meiste ernsthafte analytische Arbeit lebt im Bereich 0,19 bis 0,21, nahe an, aber meist nicht besser als Buchmachermärkte (die Preisdruck und scharfes Geld als Kalibrierungsmechanismus haben).
Wie Tactiq über Brier und Kalibrierung denkt
Tactiq führt internes Kalibrierungs-Tracking über seinen Analyse-Output, um zu bestätigen, dass die Konfidenzanzeigen auf Spielkarten den realen Ausgang-Häufigkeiten zur erwarteten Rate entsprechen. Eine Konfidenzanzeige, die "hohe Konfidenz" sagt, sollte zu Spielen passen, in denen die Top-Wahrscheinlichkeit wirklich zu hoher Rate eintrifft. Eine Konfidenzanzeige, die "knapp" sagt, sollte zu Spielen passen, deren Ausgänge wirklich variabel sind.
Die spezifischen Brier-Werte, die Kalibrierungs-Dashboards und der Re-Tuning-Rhythmus bleiben im Produkt. Was den Nutzer erreicht, ist eine konfidenzqualifizierte Analyse, deren Konfidenzanzeige gegen tatsächliche Ausgänge kalibriert wurde, statt als Marketing-Signal erfunden. Veröffentlichte Methoden werden innerhalb von Wochen kopiert und falsch kalibriert.
Was die Nutzerin oder der Nutzer auf der Spielkarte sieht:
- Wahrscheinlichkeits-Triaden für den Ausgang, mit einer sichtbaren Konfidenzanzeige, die einem echten Kalibrierungsband entspricht.
- Erwartete Tore für jede Seite.
- Ein geschriebener Analysetext, der den Befund in klarer Sprache erklärt.
- Keine externen Marktdaten irgendwo. Keine Weiterleitungen zu Drittplattformen. Keine virtuelle Währung. Ausschließlich statistische Analyse.
Die Konfidenzanzeige ist der nutzerseitige Griff auf Kalibrierung. "Hohe Konfidenz" bedeutet, das Signal ist stark; "knapp" bedeutet, Ausgänge waren wirklich variabel.
Das Fazit
Der Brier-Score ist, wie Vorhersager wirklich bewertet werden. Ein Werkzeug, das Genauigkeit bewirbt, ohne Kalibrierung zu zeigen, bittet Sie, dem laut-Vorhersager-Muster zu vertrauen. Ein Werkzeug, das bereit ist, an Kalibrierung gemessen zu werden, das Konfidenzanzeigen zeigt, die Ausgangs-Variabilität wirklich widerspiegeln, ist dasjenige, das über die Zeit hält.
Sie können Brier selbst auf den Vorhersagen jedes Vorhersagers berechnen, wenn er die Wahrscheinlichkeiten neben Ergebnissen veröffentlicht. Die Formel ist einfach, die Benchmarks sind bekannt, und die ehrliche Bewertung kostet wenige Minuten Tabellenkalkulationsarbeit.
Tactiq baut Kalibrierung in die nutzerseitige Konfidenzanzeige ein und validiert sie intern. Die Analyse liest jedes Spiel mit Konfidenz, die der zugrunde liegenden Unsicherheit entspricht, statt mit lauten Aussagen, die Stichproben-Prüfung nicht überleben. Über 1.200 Wettbewerbe, Lokalisierung in 32 Sprachen, kostenlose Stufe mit acht Analysen pro Tag, ohne Karteneingabe.
Wenn Sie der Reihe gefolgt sind, deckt das Vokabular jetzt wie KI Fußballspiele vorhersagt, xG, xA, npxG, PPDA, Field Tilt, progressive Aktionen, SCA/GCA, xPts und Elo-Bewertungen ab. Brier schließt sich ihnen als Meta-Kennzahl an, die die Ehrlichkeit jeder anderen Kennzahl bewertet.