Beispiel eines Regressionsbaums für die Daten der Weltmeisterschaft 2002–2014. Die Anzahl der Ziele wird als Antwortvariable verwendet.Spezialisten für maschinelles Lernen aus Deutschland verglichen
drei verschiedene Modelle , um die Ergebnisse der zukünftigen FIFA Fussball-Weltmeisterschaft 2018 vorherzusagen:
- Poisson-Regressionsmodelle;
- zufällige Waldmethoden
- Ranking-Methoden (nach der Stärke der Teams basierend auf Sparring für 2010-2018 und nach den Koeffizienten der Buchmacher).
Die ersten beiden basieren auf Informationen über Kovariaten und die letzten direkt auf der tatsächlichen tatsächlichen Stärke der Teams. Die Wissenschaftler kamen zu dem Schluss, dass im Rahmen dieses Vergleichs Ranking-Methoden und zufällige Wälder die effektivsten Prognosemethoden für Trainingsdaten sind. Mithilfe eines kombinierten Ansatzes, bei dem die Eigenschaften zufälliger Wälder mit der Rangfolge des Teams kombiniert wurden, konnten die Wissenschaftler die Vorhersagekraft des Systems erheblich verbessern.
Forscher haben diese Methodenkombination als endgültiges Modell gewählt. Basierend auf ihren Bewertungen wurden alle Spiele der Weltmeisterschaft 2018 wiederholt modelliert. Die Wahrscheinlichkeiten für jedes Spiel, die Wahrscheinlichkeiten jedes Teams, das in die nächste Phase des Turniers übergeht, und das wahrscheinlichste Ergebnis des Turniers werden berechnet.
Die Autoren stellen fest, dass die wissenschaftliche Presse zuvor mehrere erfolgreiche Modelle veröffentlicht hat, die die Ergebnisse der Welt- und Europameisterschaften vorhersagen. Die Entwickler dieser Modelle verwendeten das System auch, um das Ergebnis der Weltmeisterschaft 2018 vorherzusagen.
Das Computermodell von Zeileis, Leitner und Hornik (2018) bietet also die höchste statistische Siegwahrscheinlichkeit für Brasilien (16,6%), Deutschland (15,8%) und Spanien (12,5%).
Das Expertenmodell der Schweizer Bank UBS (Audran, Bolliger, Kolb, Mariscal, Pilloud, 2018) berechnete Deutschland (24,0%), Brasilien (19,8%) und Spanien (16,1%) als wahrscheinlichsten Gewinner. Dieses statistische Modell verwendete vier Faktoren als Eingabe, wonach die Wahrscheinlichkeiten aus 10.000 Monte-Carlo-Simulationen berechnet wurden.
Die Random-Forest-Methode ist ein grundlegend neuer Ansatz. Der Zufallsbaumalgorithmus besteht darin, ein Ensemble entscheidender Bäume zu verwenden. Dies kombiniert die Bagging-Methode und die Random-Subspace-Methode für Klassifizierungs-, Regressions- und Clustering-Aufgaben. Mit anderen Worten, es passt sehr gut zur Vorhersage von WM-Spielen 2018. Die Hauptidee der Zufallsbaummethode besteht darin, ein großes Ensemble von Entscheidungsbäumen zu verwenden, von denen jeder für sich eine Klassifizierung von sehr geringer Qualität ergibt, aber aufgrund ihrer großen Anzahl ist das Ergebnis gut.
Deutsche Experten analysierten sorgfältig alle vorgeschlagenen Modelle und ihre endgültige Vorhersagekraft. Anschließend wurden spezifische Vorhersagefaktoren identifiziert, die die Vorhersagekraft des Modells maximieren. Am Ende wendeten die Wissenschaftler nach solchen Vorarbeiten das entworfene Modell (zufällige Wälder + Rangfolge) auf die Daten der Weltmeisterschaft 2018 an.
Für jedes Spiel kann das Modell die erwartete Anzahl von Toren angeben, die von jeder Mannschaft erzielt wurden. Basierend auf diesen Informationen wurde das Ergebnis aller 48 Spiele in der Gruppenphase berechnet. Die endgültige Position der Mannschaften in Gruppen wurde streng nach den FIFA-Bestimmungen berechnet. Dann berechneten sie auf die gleiche Weise die Ergebnisse der Spiele in der Playoff-Phase. Um die zusätzliche Zeit des Programms zu berücksichtigen, wurde das Ergebnis mit der Anzahl der von jeder Mannschaft erzielten Tore mit 1,33 multipliziert. Wenn nach den Ergebnissen der Verlängerung ein Unentschieden erneut behoben wurde, simulierte das Programm eine Reihe von Strafen, indem es „eine Münze warf“.
Diese Strategie wurde für 100.000 Simulationen aller Meisterschaftsspiele verwendet. Basierend auf diesen Daten wurde die Wahrscheinlichkeit berechnet, die Gruppe zu verlassen und das Turnier zu gewinnen.
Nach den Ergebnissen der Gruppenphase ergab das Programm folgendes Bild:

Die russische Mannschaft hat eine ziemlich hohe Chance, das Achtelfinale zu erreichen (50,4%), aber dort sollte sie auf die spanische Mannschaft treffen, wo letztere mit einer Wahrscheinlichkeit von 87% gewinnen wird. Die Tabelle zeigt das wahrscheinlichste Playoff-Raster für 100.000 Simulationen.

Russlands Gesamtchancen auf das Viertelfinale liegen bei 10,5%, das Halbfinale bei 2,4% und das Finale bei 0,4%.

Für den Gewinner des Turniers ergab dieses Modell ein anderes Ergebnis als frühere Modellierungsprogramme. Sie gab Spanien die maximale Wahrscheinlichkeit (17,8%). Es folgen Deutschland, Brasilien, Frankreich und Belgien.
Der wissenschaftliche Artikel wurde am 8. Juni 2018 auf der Preprint-Site arXiv.org (arXiv: 1806.03208v3) veröffentlicht.