使用随机森林算法预测2018年世界杯足球赛结果


2002-2014年世界杯数据的样本回归树。 目标数用作响应变量。

来自德国的机器学习专家比较了三种不同的模型,以预测未来2018年FIFA世界杯的结果:

  • 泊松回归模型;
  • 随机森林法
  • 排名方法(根据2010-2018年的陪练水平和庄家系数来确定团队的实力)。

前两个基于有关协变量的信息,后两个直接基于团队的实际实际实力。 科学家得出的结论是,在这种比较的框架内,对训练数据最有效的预测方法是排序方法和随机森林。 但是,使用组合方法-将随机森林的属性与团队排名相结合-科学家能够显着提高系统的预测能力。

研究人员选择了这种方法的组合作为最终模型。 根据她的评分,反复模拟了2018年世界杯的所有比赛。 计算每次比赛的概率,进入比赛的每个下一阶段的每个团队的概率以及比赛的最可能结果。

作者指出,科学出版社此前已经发布了几种成功的模型,这些模型可以预测世界锦标赛和欧洲锦标赛的结果。 这些模型的开发人员还使用该系统预测了2018年世界杯的结果。

因此,Zeileis,Leitner和Hornik(2018)的计算机模型给出了巴西(16.6%),德国(15.8%)和西班牙(12.5%)获胜的最高统计概率。

瑞士瑞银(Audran,Bolliger,Kolb,Mariscal,Pilloud,2018年)的专家模型计算出德国(24.0%),巴西(19.8%)和西班牙(16.1%)是最有可能的赢家。 该统计模型使用四个因子作为输入,然后从10,000个蒙特卡洛模拟中计算了概率。

随机森林方法是一种根本上新的方法。 随机树算法是使用决定性树的集合。 这将装袋法和随机子空间法结合在一起,用于分类,回归和聚类任务。 换句话说,它非常适合预测2018年世界杯比赛。 随机树方法的主要思想是使用大型决策树集合,每个决策树本身给出的质量分类都非常低,但是由于决策树数量众多,因此效果很好。

德国专家仔细分析了所有提议的模型及其最终预测能力。 然后,确定使模型的预测能力最大化的特定预测因素。 最后,经过这样的准备工作,科学家们将设计的模型(随机森林+等级)应用于2018年世界杯的数据。

对于每次比赛,模型都可以给出每个团队得分的预期目标数。 根据此信息,计算出小组赛阶段所有48场比赛的结果。 小组中各小组的最终排名是严格按照FIFA规定计算的。 然后,他们以同样的方式计算了季后赛阶段的比赛结果。 考虑到程序所提供的额外时间,结果乘以每个团队得分的目标数乘以1.33。 如果根据额外时间的结果再次确定平局,则该程序将通过“抛硬币”来模拟一系列处罚。

该策略用于所有冠军赛的100,000个模拟。 根据这些数据,计算出离开小组并赢得比赛的概率。

根据小组赛的结果,该程序如下图所示:



俄罗斯队很有可能进入1/8决赛(50.4%),但在那里应该与西班牙队相遇,后者在西班牙队中获胜的机率将达到87%。 该表显示了100,000个模拟中最有可能的季后赛网格。



俄罗斯进入四分之一决赛的总机率是10.5%,半决赛是2.4%,决赛是0.4%。



对于锦标赛的获胜者,该模型产生的结果不同于以前的建模程序。 她给了西班牙最大的机率(17.8%)。 其次是德国,巴西,法国和比利时。

该科学文章于2018年6月8日在预印本网站arXiv.org(arXiv:1806.03208v3)上发表。

Source: https://habr.com/ru/post/zh-CN414105/


All Articles