Prevendo os resultados da Copa do Mundo de 2018 usando o algoritmo de florestas aleatórias


Árvore de regressão de amostra para os dados da Copa do Mundo 2002-2014. O número de objetivos é usado como uma variável de resposta.

Os especialistas em aprendizado de máquina da Alemanha compararam três modelos diferentes para prever os resultados da futura Copa do Mundo da FIFA 2018:

  • Modelos de regressão de Poisson;
  • métodos de florestas aleatórias
  • métodos de classificação (de acordo com a força das equipes com base nas lutas para 2010-2018 e de acordo com os coeficientes nas casas de apostas).

Os dois primeiros são baseados em informações sobre covariáveis ​​e o último diretamente na força real das equipes. Os cientistas chegaram à conclusão de que, dentro da estrutura dessa comparação, os métodos de previsão mais eficazes para dados de treinamento são métodos de classificação e florestas aleatórias. Mas, usando uma abordagem combinada - combinando as propriedades de florestas aleatórias com a classificação da equipe - os cientistas conseguiram melhorar significativamente o poder preditivo do sistema.

Os pesquisadores escolheram essa combinação de métodos como modelo final. Com base em suas classificações, todos os jogos da Copa do Mundo de 2018 foram modelados repetidamente. As probabilidades para cada partida, as probabilidades de cada equipe passar para cada etapa seguinte do torneio e o resultado mais provável do torneio são calculadas.

Os autores observam que a imprensa científica publicou anteriormente vários modelos de sucesso, prevendo os resultados do Campeonato Mundial e Europeu. Os desenvolvedores desses modelos também usaram o sistema para prever o resultado da Copa do Mundo de 2018.

Assim, o modelo computacional de Zeileis, Leitner e Hornik (2018) apresenta a maior probabilidade estatística de vitória para o Brasil (16,6%), Alemanha (15,8%) e Espanha (12,5%).

O modelo de especialistas do banco suíço UBS (Audran, Bolliger, Kolb, Mariscal, Pilloud, 2018) calculou a Alemanha (24,0%), o Brasil (19,8%) e a Espanha (16,1%) como o vencedor mais provável. Esse modelo estatístico utilizou quatro fatores como entrada, após o qual as probabilidades foram calculadas a partir de 10.000 simulações de Monte Carlo.

O método de florestas aleatórias é uma abordagem fundamentalmente nova. O algoritmo de árvore aleatória é usar um conjunto de árvores decisivas. Isso combina o método de empacotamento e o método aleatório de subespaço para tarefas de classificação, regressão e cluster. Em outras palavras, ele se encaixa muito bem na previsão de partidas da Copa do Mundo de 2018. A idéia principal do método de árvore aleatória é usar um grande conjunto de árvores de decisão, cada uma das quais fornece uma classificação de qualidade muito baixa, mas devido ao seu grande número, o resultado é bom.

Especialistas alemães analisaram cuidadosamente todos os modelos propostos e seu poder preditivo final. Em seguida, foram identificados fatores preditivos específicos que maximizam o poder preditivo do modelo. No final, após esse trabalho preparatório, os cientistas aplicaram o modelo projetado (florestas aleatórias + classificação) nos dados da Copa do Mundo de 2018.

Para cada partida, o modelo pode fornecer o número esperado de gols marcados por cada equipe. Com base nessas informações, o resultado de todas as 48 partidas na fase de grupos foi calculado. A posição final das equipes em grupos foi calculada em estrita conformidade com os regulamentos da FIFA. Da mesma forma, eles calcularam os resultados das partidas no playoff. Para explicar o tempo extra que o programa distribui, o resultado pelo número de gols marcados por cada equipe foi multiplicado por 1,33. Se, de acordo com os resultados da prorrogação, um empate foi fixado novamente, o programa simulou uma série de penalidades “jogando uma moeda”.

Essa estratégia foi usada para 100.000 simulações de todos os jogos do campeonato. Com base nesses dados, foi calculada a probabilidade de deixar o grupo e vencer o torneio.

De acordo com os resultados da fase de grupos, o programa deu a seguinte imagem:



A equipe russa tem uma chance bastante alta de chegar à final de 1/8 (50,4%), mas deve encontrar a equipe espanhola, onde esta última terá 87% de chances de vencer. A tabela mostra a grade de playoff mais provável para 100.000 simulações.



As chances gerais da Rússia de chegar às quartas-de-final são de 10,5%, as meias-finais são de 2,4% e a final é de 0,4%.



Para o vencedor do torneio, este modelo produziu um resultado diferente do resultado de programas de modelagem anteriores. Ela deu a probabilidade máxima para a Espanha (17,8%). É seguido pela Alemanha, Brasil, França e Bélgica.

O artigo científico foi publicado em 8 de junho de 2018 no site de pré-impressão arXiv.org (arXiv: 1806.03208v3).

Source: https://habr.com/ru/post/pt414105/


All Articles