Contoh pohon regresi untuk data Piala Dunia 2002-2014. Jumlah sasaran digunakan sebagai variabel respons.Spesialis Pembelajaran Mesin dari Jerman membandingkan
tiga model yang berbeda untuk memprediksi hasil Piala Dunia FIFA 2018 di masa depan:
- Model regresi Poisson;
- metode hutan acak
- metode pemeringkatan (sesuai dengan kekuatan tim berdasarkan sparring untuk 2010-2018 dan menurut koefisien pada bandar taruhan).
Dua yang pertama didasarkan pada informasi tentang kovariat, dan yang terakhir langsung pada kekuatan tim yang sebenarnya. Para ilmuwan sampai pada kesimpulan bahwa dalam kerangka perbandingan ini, metode peramalan yang paling efektif pada data pelatihan adalah metode perankingan dan hutan acak. Tetapi dengan menggunakan pendekatan gabungan - menggabungkan sifat-sifat hutan acak dengan peringkat tim - para ilmuwan mampu secara signifikan meningkatkan daya prediksi sistem.
Para peneliti telah memilih kombinasi metode ini sebagai model akhir. Berdasarkan peringkatnya, semua pertandingan Piala Dunia 2018 berulang kali dimodelkan. Probabilitas untuk setiap pertandingan, probabilitas masing-masing tim yang lolos ke setiap tahap turnamen berikutnya, dan hasil turnamen yang paling mungkin dihitung.
Para penulis mencatat bahwa pers ilmiah sebelumnya telah menerbitkan beberapa model sukses yang memprediksi hasil Kejuaraan Dunia dan Eropa. Para pengembang model ini juga menggunakan sistem untuk memprediksi hasil Piala Dunia 2018.
Jadi, model komputer Zeileis, Leitner dan Hornik (2018) memberikan probabilitas statistik kemenangan tertinggi untuk Brasil (16,6%), Jerman (15,8%) dan Spanyol (12,5%).
Model para ahli dari bank Swiss UBS (Audran, Bolliger, Kolb, Mariscal, Pilloud, 2018) menghitung Jerman (24,0%), Brasil (19,8%) dan Spanyol (16,1%) sebagai pemenang yang paling mungkin. Model statistik ini menggunakan empat faktor sebagai input, setelah itu probabilitas dihitung dari 10.000 simulasi Monte Carlo.
Metode hutan acak adalah pendekatan fundamental baru. Algoritma pohon acak adalah dengan menggunakan ensemble pohon yang menentukan. Ini menggabungkan metode bagging dan metode ruang bagian acak untuk tugas klasifikasi, regresi, dan pengelompokan. Dengan kata lain, sangat cocok untuk memprediksi pertandingan Piala Dunia 2018. Gagasan utama dari metode pohon acak adalah dengan menggunakan ansambel besar pohon keputusan, yang masing-masing dengan sendirinya memberikan klasifikasi kualitas yang sangat rendah, tetapi karena jumlahnya yang besar hasilnya bagus.
Pakar Jerman dengan hati-hati menganalisis semua model yang diusulkan dan kekuatan prediksi akhir mereka. Kemudian, faktor-faktor prediktif spesifik yang memaksimalkan kekuatan prediktif model diidentifikasi. Pada akhirnya, setelah pekerjaan persiapan seperti itu, para ilmuwan menerapkan model yang dirancang (hutan acak + peringkat) pada data Piala Dunia 2018.
Untuk setiap pertandingan, model dapat memberikan jumlah gol yang diharapkan dari masing-masing tim. Berdasarkan informasi ini, hasil dari semua 48 pertandingan di babak grup dihitung. Posisi akhir tim dalam grup dihitung sesuai dengan peraturan FIFA. Kemudian, dengan cara yang sama, mereka menghitung hasil pertandingan di babak playoff. Untuk memperhitungkan waktu tambahan yang diberikan oleh program, hasil dengan jumlah gol yang dicetak oleh masing-masing tim dikalikan dengan 1,33. Jika menurut hasil perpanjangan waktu imbang diperbaiki lagi, program mensimulasikan serangkaian hukuman dengan "melemparkan koin".
Strategi ini digunakan untuk 100.000 simulasi dari semua pertandingan kejuaraan. Berdasarkan data ini, probabilitas meninggalkan grup dan memenangkan turnamen dihitung.
Menurut hasil dari penyisihan grup, program memberikan gambar berikut:

Tim Rusia memiliki peluang yang agak tinggi untuk mencapai 1/8 final (50,4%), tetapi di sana harus bertemu dengan tim Spanyol, di mana yang terakhir akan 87% kemungkinan menang. Tabel menunjukkan kotak playoff yang paling mungkin untuk 100.000 simulasi.

Peluang keseluruhan Rusia untuk mencapai perempat final adalah 10,5%, semi final adalah 2,4%, dan final adalah 0,4%.

Untuk pemenang turnamen, model ini menghasilkan hasil yang berbeda dari hasil program pemodelan sebelumnya. Dia memberi probabilitas maksimum ke Spanyol (17,8%). Ini diikuti oleh Jerman, Brasil, Prancis dan Belgia.
Artikel ilmiah ini
diterbitkan pada 8 Juni 2018 di situs pracetak arXiv.org (arXiv: 1806.03208v3).