Predecir los resultados de la Copa Mundial 2018 utilizando el algoritmo de bosques aleatorios


Muestra de árbol de regresión para los datos de la Copa del Mundo 2002-2014. El número de objetivos se usa como una variable de respuesta.

Los especialistas en aprendizaje automático de Alemania compararon tres modelos diferentes para predecir los resultados de la futura Copa Mundial de la FIFA 2018:

  • Modelos de regresión de Poisson;
  • métodos de bosques al azar
  • métodos de clasificación (de acuerdo con la fuerza de los equipos basada en el combate para 2010-2018 y de acuerdo con los coeficientes en las casas de apuestas).

Los dos primeros se basan en información sobre covariables, y el último directamente en la fuerza real real de los equipos. Los científicos llegaron a la conclusión de que, en el marco de esta comparación, los métodos de pronóstico más efectivos en los datos de capacitación son los métodos de clasificación y los bosques aleatorios. Pero utilizando un enfoque combinado, combinando las propiedades de los bosques aleatorios con la clasificación del equipo, los científicos pudieron mejorar significativamente el poder predictivo del sistema.

Los investigadores han elegido esta combinación de métodos como modelo final. Según sus clasificaciones, todos los partidos de la Copa Mundial 2018 se modelaron repetidamente. Se calculan las probabilidades para cada partido, las probabilidades de que cada equipo pase a la siguiente etapa del torneo y el resultado más probable del torneo.

Los autores señalan que la prensa científica ha publicado previamente varios modelos exitosos que predicen los resultados del Campeonato Mundial y Europeo. Los desarrolladores de estos modelos también usaron el sistema para predecir el resultado de la Copa Mundial 2018.

Entonces, el modelo de computadora de Zeileis, Leitner y Hornik (2018) ofrece la mayor probabilidad estadística de victoria para Brasil (16.6%), Alemania (15.8%) y España (12.5%).

El modelo de expertos del banco suizo UBS (Audran, Bolliger, Kolb, Mariscal, Pilloud, 2018) calculó a Alemania (24.0%), Brasil (19.8%) y España (16.1%) como el ganador más probable. Este modelo estadístico utilizó cuatro factores como entrada, después de lo cual las probabilidades se calcularon a partir de 10.000 simulaciones de Monte Carlo.

El método de bosques aleatorios es un enfoque fundamentalmente nuevo. El algoritmo de árbol aleatorio es usar un conjunto de árboles decisivos. Esto combina el método de ensacado y el método de subespacio aleatorio para tareas de clasificación, regresión y agrupación. En otras palabras, encaja muy bien para predecir los partidos de la Copa Mundial 2018. La idea principal del método de árbol aleatorio es utilizar un gran conjunto de árboles de decisión, cada uno de los cuales en sí mismo otorga una clasificación de muy baja calidad, pero debido a su gran número, el resultado es bueno.

Los expertos alemanes analizaron cuidadosamente todos los modelos propuestos y su poder predictivo final. Luego, se identificaron factores predictivos específicos que maximizan el poder predictivo del modelo. Al final, después de dicho trabajo preparatorio, los científicos aplicaron el modelo diseñado (bosques aleatorios + clasificación) en los datos de la Copa Mundial 2018.

Para cada partido, el modelo puede dar el número esperado de goles marcados por cada equipo. En base a esta información, se calculó el resultado de los 48 partidos en la fase de grupos. La posición final de los equipos en grupos se calculó en estricta conformidad con las regulaciones de la FIFA. Luego, de la misma manera, calcularon los resultados de los partidos en la etapa de playoffs. Para tener en cuenta el tiempo extra dado por el programa, el resultado por el número de goles marcados por cada equipo se multiplicó por 1.33. Si, de acuerdo con los resultados del tiempo extra, se corrigió nuevamente un sorteo, el programa simuló una serie de penalizaciones al "lanzar una moneda".

Esta estrategia se utilizó para 100,000 simulaciones de todos los partidos de campeonato. En base a estos datos, se calculó la probabilidad de abandonar el grupo y ganar el torneo.

Según los resultados de la etapa grupal, el programa dio la siguiente imagen:



El equipo ruso tiene una probabilidad bastante alta de llegar a la final de 1/8 (50.4%), pero allí debe cumplir con el equipo español, donde este último tendrá un 87% de probabilidades de ganar. La tabla muestra la cuadrícula de playoffs más probable para 100,000 simulaciones.



Las posibilidades generales de Rusia de alcanzar los cuartos de final son del 10,5%, las semifinales del 2,4% y la final del 0,4%.



Para el ganador del torneo, este modelo produjo un resultado diferente del resultado de los programas de modelado anteriores. Ella le dio la máxima probabilidad a España (17,8%). Le siguen Alemania, Brasil, Francia y Bélgica.

El artículo científico fue publicado el 8 de junio de 2018 en el sitio de preimpresión arXiv.org (arXiv: 1806.03208v3).

Source: https://habr.com/ru/post/es414105/


All Articles