Prédire les résultats de la Coupe du monde 2018 en utilisant l'algorithme des forêts aléatoires


Exemple d'arbre de régression pour les données de la Coupe du monde 2002-2014. Le nombre d'objectifs est utilisé comme variable de réponse.

Les spécialistes de l'apprentissage automatique d'Allemagne ont comparé trois modèles différents pour prédire les résultats de la future Coupe du Monde de la FIFA 2018:

  • Modèles de régression de Poisson;
  • méthodes de forêts aléatoires
  • méthodes de classement (en fonction de la force des équipes sur la base de sparring pour 2010-2018 et en fonction des coefficients chez les bookmakers).

Les deux premiers sont basés sur des informations sur les covariables, et le dernier directement sur la force réelle réelle des équipes. Les scientifiques sont parvenus à la conclusion que dans le cadre de cette comparaison, les méthodes de prévision les plus efficaces sur les données d'entraînement sont les méthodes de classement et les forêts aléatoires. Mais en utilisant une approche combinée - combinant les propriétés des forêts aléatoires avec le classement de l'équipe - les scientifiques ont pu améliorer considérablement le pouvoir prédictif du système.

Les chercheurs ont choisi cette combinaison de méthodes comme modèle final. Sur la base de ses notes, tous les matchs de la Coupe du monde 2018 ont été modélisés à plusieurs reprises. Les probabilités pour chaque match, les probabilités de chaque équipe de passer à chaque étape suivante du tournoi et le résultat le plus probable du tournoi sont calculées.

Les auteurs notent que la presse scientifique a déjà publié plusieurs modèles réussis prédisant les résultats des championnats du monde et d'Europe. Les développeurs de ces modèles ont également utilisé le système pour prédire le résultat de la Coupe du monde 2018.

Ainsi, le modèle informatique de Zeileis, Leitner et Hornik (2018) donne la probabilité statistique de victoire la plus élevée pour le Brésil (16,6%), l'Allemagne (15,8%) et l'Espagne (12,5%).

Le modèle d'experts de la banque suisse UBS (Audran, Bolliger, Kolb, Mariscal, Pilloud, 2018) a calculé l'Allemagne (24,0%), le Brésil (19,8%) et l'Espagne (16,1%) comme le gagnant le plus probable. Ce modèle statistique a utilisé quatre facteurs en entrée, après quoi les probabilités ont été calculées à partir de 10 000 simulations de Monte Carlo.

La méthode des forêts aléatoires est une approche fondamentalement nouvelle. L'algorithme d'arbre aléatoire consiste à utiliser un ensemble d'arbres décisifs. Cela combine la méthode d'ensachage et la méthode du sous-espace aléatoire pour les tâches de classification, de régression et de clustering. En d'autres termes, cela correspond très bien à la prévision des matchs de la Coupe du monde 2018. L'idée principale de la méthode des arbres aléatoires est d'utiliser un grand ensemble d'arbres de décision, dont chacun en soi donne une qualité de classification très faible, mais en raison de leur grand nombre, le résultat est bon.

Des experts allemands ont soigneusement analysé tous les modèles proposés et leur pouvoir prédictif final. Ensuite, des facteurs prédictifs spécifiques qui maximisent le pouvoir prédictif du modèle ont été identifiés. Au final, après de tels travaux préparatoires, les scientifiques ont appliqué le modèle conçu (forêts aléatoires + classement) sur les données de la Coupe du monde 2018.

Pour chaque match, le modèle peut donner le nombre prévu de buts marqués par chaque équipe. Sur la base de ces informations, le résultat des 48 matches de la phase de groupes a été calculé. La position finale des équipes en groupes a été calculée en stricte conformité avec les règlements de la FIFA. Puis, de la même manière, ils ont calculé les résultats des matchs de la phase éliminatoire. Pour tenir compte du temps supplémentaire accordé par le programme, le résultat par le nombre de buts marqués par chaque équipe a été multiplié par 1,33. Si, selon les résultats du temps supplémentaire, un tirage était à nouveau fixé, le programme simulait une série de pénalités en «jetant une pièce».

Cette stratégie a été utilisée pour 100 000 simulations de tous les matchs de championnat. Sur la base de ces données, la probabilité de quitter le groupe et de gagner le tournoi a été calculée.

Selon les résultats de la phase de groupes, le programme a donné l'image suivante:



L'équipe russe a une chance assez élevée d'atteindre les 1/8 de finale (50,4%), mais là, elle devrait rencontrer l'équipe espagnole, où cette dernière aura 87% de chances de gagner. Le tableau montre la grille des séries éliminatoires la plus probable pour 100 000 simulations.



Les chances globales de la Russie d'atteindre les quarts de finale sont de 10,5%, les demi-finales de 2,4% et la finale de 0,4%.



Pour le vainqueur du tournoi, ce modèle a produit un résultat différent du résultat des précédents programmes de modélisation. Elle a donné la probabilité maximale à l'Espagne (17,8%). Elle est suivie par l'Allemagne, le Brésil, la France et la Belgique.

L'article scientifique a été publié le 8 juin 2018 sur le site de préimpression arXiv.org (arXiv: 1806.03208v3).

Source: https://habr.com/ru/post/fr414105/


All Articles