Brier-Score erklärt: Wie Fußball-Vorhersagen bewertet werden

Von Tactiq AI · 2026-05-06 · 8 Min. Lesezeit · KI & Fußball

Die meisten Fußball-Vorhersage-Apps werben mit Genauigkeit. "70% genau" klingt beeindruckend. "80% unserer Top-Tipps gingen durch" klingt beeindruckender. Genauigkeitsbehauptungen dominieren das Feld. Sie sind auch fast bedeutungslos.

Der richtige Weg, einen Vorhersager zu bewerten, ist nicht Genauigkeit. Es ist Kalibrierung. Ein Vorhersager, dessen 70%-Wahrscheinlichkeitstipps in 70% der Fälle stimmen (nicht 90%, nicht 50%), erledigt den Job. Ein Vorhersager, dessen 70%-Tipps in 85% der Fälle stimmen, ist unterkonfident (wahrscheinlich wertvoll), aber nicht kalibriert. Ein Vorhersager, dessen 70%-Tipps in 55% der Fälle stimmen, ist laut (wahrscheinlich nutzlos).

Der Brier-Score ist die Kennzahl, die Kalibrierung bewertet. Er ist seit 75 Jahren Standard in der akademischen Vorhersageforschung, und so wird jeder Fußball-Vorhersager, dem zuzuhören sich lohnt, ehrlich bewertet.

Dieser Artikel zeigt, was Brier wirklich misst, wie Sie ihn selbst berechnen, was die Benchmarks sind, und warum Kalibrierung das Signal ist, das Sie von jedem Vorhersage-Werkzeug verlangen sollten.

Was Brier wirklich misst

Brier ist ein quadratischer Fehler-Score zwischen Vorhersage und Realität. Je niedriger, desto besser kalibriert.

Für Drei-Wege-Fußball-Ausgänge (Heimsieg, Unentschieden, Auswärtssieg) produziert jedes Spiel drei Vorhersagezahlen, die sich auf 1,0 summieren. Das tatsächliche Ergebnis produziert drei 0-oder-1-Zahlen (1 für den eingetretenen Ausgang, 0 für die anderen).

Pro-Spiel-Formel: Brier = Σ (Vorhersage - tatsächlich)^2 / 3

Also eine Vorhersage von [0,60, 0,25, 0,15] für Heim/Unentschieden/Auswärts bei einem Spiel, das mit Heimsieg endete:

Heim: (0,60 - 1,00)^2 = 0,16
Unentschieden: (0,25 - 0,00)^2 = 0,0625
Auswärts: (0,15 - 0,00)^2 = 0,0225
Summe: 0,245
Geteilt durch 3: 0,0817

Eine Vorhersage von [0,95, 0,03, 0,02] bei demselben Spiel (Heimsieg trat ein):

Summe: 0,0025 + 0,0009 + 0,0004 = 0,0038
Geteilt durch 3: ≈ 0,0013

Die konfidente korrekte Vorhersage erzielt weit besser. Aber die konfidente falsche Vorhersage wird hart bestraft:

[0,95, 0,03, 0,02] bei einem Spiel, das mit Unentschieden endete:
Heim: (0,95 - 0)^2 = 0,9025
Unentschieden: (0,03 - 1)^2 = 0,9409
Auswärts: (0,02 - 0)^2 = 0,0004
Summe: 1,8438
Geteilt durch 3: ≈ 0,6146, eine Katastrophe

Konfidenz wird belohnt, wenn gerechtfertigt, und bestraft, wenn nicht. Gemittelt über Hunderte von Spielen trennt Brier kalibrierte Vorhersager automatisch von lauten.

Warum Kalibrierung mehr zählt als Genauigkeit

Betrachten Sie zwei Vorhersager.

Vorhersager A sagt immer 95% Heim, 3% Unentschieden, 2% Auswärts bei jedem Heimspiel einer Top-Sechs-Seite. Bekommt etwa 60% davon richtig.

Vorhersager B sagt 62% Heim, 24% Unentschieden, 14% Auswärts bei denselben Begegnungen. Bekommt 62% davon richtig.

Wer ist besser? Genauigkeitsmäßig führt A (60% vs. 62% ist nah). Kalibrierungsmäßig liegt B weit vorn. A's 95%-Tipps gehen in 40% der Fälle schief, was schrecklich ist. B's 62%-Tipps treffen in 62% der Fälle zu, was ehrlich ist.

Brier-Scores sagen Ihnen, wer das zugrunde liegende Signal richtig liest. A's Brier wird furchtbar sein, weil sich die 95%-Wahrscheinlichkeiten quadrieren, wenn sie falsch sind. B's Brier wird exzellent sein, weil die Wahrscheinlichkeiten der Realität entsprechen.

Das zählt auf drei praktische Arten:

Risiko-Kalibrierung. Wenn Sie eine Vorhersage für eine nachgelagerte Entscheidung nutzen (auch nur ein lockeres "welches Spiel ist am interessantesten anzuschauen"), zählt es zu wissen, wie verlässlich die Wahrscheinlichkeit wirklich ist. Ein 95% von einem schlechten Vorhersager ist weniger wert als ein 62% von einem guten.

Vergleich zwischen Vorhersagern. Sie können zwei Vorhersager nicht an roher Genauigkeit vergleichen. Jemand, der nur Favoriten tippt, wirkt "genauer" als jemand, der Außenseiter in seine Vorhersagen einschließt. Brier funktioniert unabhängig von der Verteilung der Wahrscheinlichkeiten.

Ehrlichkeit. Kalibrierte Vorhersager sind weniger versucht, zu überreden. Ein Vorhersager, der weiß, dass er Brier-bewertet wird, prahlt nicht. Ein Vorhersager, der weiß, dass er nur genauigkeits-bewertet wird, hat Anreiz, nur Favoriten zu tippen und die Genauigkeitslinie zu pumpen.

Brier-Benchmarks für Fußball

Grobe Benchmarks für Brier bei Drei-Wege-Fußball-Ausgängen (Heim / Unentschieden / Auswärts):

Immer-Unentschieden-Baseline (sagt jedes Spiel 33/33/33): etwa 0,25
Zufallswahrscheinlichkeits-Baseline: etwa 0,25
Einfaches form-basiertes Modell (nur Siege-Niederlagen): etwa 0,225
Gutes öffentliches Modell mit xG + Form: 0,195 bis 0,215
Buchmacher-Schlusskurs: etwa 0,195
Elite-Modell mit Event-Daten + sorgfältiger Kalibrierung: 0,185 bis 0,195

Werte unter 0,185 sind selten; Werte über 0,22 sind Unterleistung. Die meiste ernsthafte analytische Arbeit lebt im Bereich 0,19 bis 0,21, nahe an, aber meist nicht besser als Buchmachermärkte (die Preisdruck und scharfes Geld als Kalibrierungsmechanismus haben).

Wie Tactiq über Brier und Kalibrierung denkt

Tactiq führt internes Kalibrierungs-Tracking über seinen Analyse-Output, um zu bestätigen, dass die Konfidenzanzeigen auf Spielkarten den realen Ausgang-Häufigkeiten zur erwarteten Rate entsprechen. Eine Konfidenzanzeige, die "hohe Konfidenz" sagt, sollte zu Spielen passen, in denen die Top-Wahrscheinlichkeit wirklich zu hoher Rate eintrifft. Eine Konfidenzanzeige, die "knapp" sagt, sollte zu Spielen passen, deren Ausgänge wirklich variabel sind.

Die spezifischen Brier-Werte, die Kalibrierungs-Dashboards und der Re-Tuning-Rhythmus bleiben im Produkt. Was den Nutzer erreicht, ist eine konfidenzqualifizierte Analyse, deren Konfidenzanzeige gegen tatsächliche Ausgänge kalibriert wurde, statt als Marketing-Signal erfunden. Veröffentlichte Methoden werden innerhalb von Wochen kopiert und falsch kalibriert.

Was die Nutzerin oder der Nutzer auf der Spielkarte sieht:

Wahrscheinlichkeits-Triaden für den Ausgang, mit einer sichtbaren Konfidenzanzeige, die einem echten Kalibrierungsband entspricht.
Erwartete Tore für jede Seite.
Ein geschriebener Analysetext, der den Befund in klarer Sprache erklärt.
Keine externen Marktdaten irgendwo. Keine Weiterleitungen zu Drittplattformen. Keine virtuelle Währung. Ausschließlich statistische Analyse.

Die Konfidenzanzeige ist der nutzerseitige Griff auf Kalibrierung. "Hohe Konfidenz" bedeutet, das Signal ist stark; "knapp" bedeutet, Ausgänge waren wirklich variabel.

Das Fazit

Der Brier-Score ist, wie Vorhersager wirklich bewertet werden. Ein Werkzeug, das Genauigkeit bewirbt, ohne Kalibrierung zu zeigen, bittet Sie, dem laut-Vorhersager-Muster zu vertrauen. Ein Werkzeug, das bereit ist, an Kalibrierung gemessen zu werden, das Konfidenzanzeigen zeigt, die Ausgangs-Variabilität wirklich widerspiegeln, ist dasjenige, das über die Zeit hält.

Sie können Brier selbst auf den Vorhersagen jedes Vorhersagers berechnen, wenn er die Wahrscheinlichkeiten neben Ergebnissen veröffentlicht. Die Formel ist einfach, die Benchmarks sind bekannt, und die ehrliche Bewertung kostet wenige Minuten Tabellenkalkulationsarbeit.

Tactiq baut Kalibrierung in die nutzerseitige Konfidenzanzeige ein und validiert sie intern. Die Analyse liest jedes Spiel mit Konfidenz, die der zugrunde liegenden Unsicherheit entspricht, statt mit lauten Aussagen, die Stichproben-Prüfung nicht überleben. Über 1.200 Wettbewerbe, Lokalisierung in 32 Sprachen, kostenlose Stufe mit acht Analysen pro Tag, ohne Karteneingabe.

Wenn Sie der Reihe gefolgt sind, deckt das Vokabular jetzt wie KI Fußballspiele vorhersagt, xG, xA, npxG, PPDA, Field Tilt, progressive Aktionen, SCA/GCA, xPts und Elo-Bewertungen ab. Brier schließt sich ihnen als Meta-Kennzahl an, die die Ehrlichkeit jeder anderen Kennzahl bewertet.

Häufig gestellte Fragen

Was ist ein Brier-Score in einem Satz?

Der Brier-Score misst, wie weit die Wahrscheinlichkeitsschätzungen eines Vorhersagers von der Realität abweichen, gemittelt über alle seine Vorhersagen. Niedriger ist besser. Ein perfekter Vorhersager erreicht einen Brier-Score von 0; ein Münzwurf-Tor erreicht etwa 0,25 bei Drei-Wege-Fußball-Ausgängen.

Wie wird er tatsächlich berechnet?

Für jedes Spiel die Wahrscheinlichkeit des Vorhersagers für jeden Ausgang nehmen (Heim, Unentschieden, Auswärts), und das tatsächliche Ergebnis (1 für den eingetretenen Ausgang, 0 für die anderen). (Vorhersage - tatsächlich)^2 für jeden Ausgang berechnen, summieren und durch die Anzahl der Ausgänge teilen. Das über alle Spiele mitteln. Je niedriger die resultierende Zahl, desto enger passen die Wahrscheinlichkeiten des Vorhersagers zu dem, was wirklich passierte.

Warum ist Kalibrierung wichtiger als Genauigkeit?

Ein 'genauer' Vorhersager könnte den Top-Tipp in 60% der Fälle richtig haben. Aber was Sie wirklich wollen, ist ein Vorhersager, dessen 70%-Tipps in 70% der Fälle richtig sind und dessen 45%-Tipps in 45% der Fälle. Ein Vorhersager, der bei allem '90%' sagt und in 60% der Fälle richtig liegt, ist laut. Ein kalibrierter Vorhersager passt seine Konfidenz der Realität an.

Veröffentlicht Tactiq seinen Brier-Score?

Tactiq führt internes Kalibrierungs-Tracking über seinen Analyse-Output, um zu bestätigen, dass die Konfidenzanzeigen mit den realen Ausgängen zur erwarteten Rate übereinstimmen. Die spezifische Methodik und die aktuellen Brier-Score-Werte bleiben im Produkt. Für eine Nutzerin oder einen Nutzer zeigt sich der Effekt als Konfidenzanzeige bei jeder Analyse, die wirklich widerspiegelt, wie unsicher der Befund ist.

Was ist ein guter Brier-Score für Fußball?

Für Drei-Wege-Spielausgänge erreicht ein naiver Münzwurf-Benchmark etwa 0,25 Brier. Ein Buchmachermarkt erreicht etwa 0,195. Ein gut gebautes Fußballmodell erreicht im Bereich 0,19 bis 0,21. Alles unter 0,19 bei großer Stichprobe ist Spitze. Alles über 0,22 ist Unterleistung. Das sind grobe Richtwerte; genaue Schwellen hängen vom Liga-Mix und der Stichprobengröße ab.

Kann ich meinen eigenen Brier-Score auf Vorhersagen berechnen?

Ja. Sie brauchen eine Liste vorhergesagter Wahrscheinlichkeiten (Heim/Unentschieden/Auswärts pro Spiel) und das tatsächliche Ergebnis. Wenden Sie die Formel an, mitteln über Spiele, vergleichen Sie mit den obigen Benchmarks. Wenn Sie das regelmäßig gegen ein Werkzeug oder einen Tippgeber tun, erhalten Sie eine ehrliche Bewertung, die nicht von Marketing-Aussagen abhängt.