Modèle de transferts de football: creuser plus profondément

Il est temps de poursuivre l' article précédent sur l'étude des transferts footballistiques.


Cette fois, vous découvrirez pourquoi Klopp Simeone est tellement cool qui prendre comme agents si vous êtes un footballeur et pourquoi lire tout cela si vous n'êtes pas intéressé par le football.



Nous avons appris à collecter beaucoup de données.


Regardez autour de vous, par exemple, au travail, je suis sûr que vous trouverez telle ou telle tablette avec, comme, les données nécessaires pour plus tard, "quand nous comprendrons quoi en faire". C'est en partie parce que les dépendances en leur sein sont hautement non linéaires et non intuitives. Et je veux juste comprendre à laquelle de ces données accorder le plus d'attention, ce qui a le plus affecté le résultat. De plus, je vais montrer par l'exemple comment utiliser l'un des algorithmes les plus simples qui permettent de le faire.


Vous pouvez trouver le schéma de lecture lui-même, ainsi que les résultats complets dans cet ordinateur portable , et ci-dessous, il y aura de nombreux graphiques avec les plus intéressants d'entre eux.


Mais d'abord, un peu sur la méthode.


Imaginez que vous ne travaillez pas avec des transferts de football, mais que vous disposez de données sur les ventes de produits du magasin (enfin, ou un exemple légèrement moins mercantile - avec les résultats des matchs dans votre jeu de type MOBA) et de nombreuses informations générales: sur le magasin, les marchandises, les vendeurs ( bien, ou sur les héros sélectionnés, les joueurs, leur force), etc. Ensuite, vous voulez atteindre un résultat très précis - augmenter les ventes d'un certain produit (ou améliorer l'équilibre de votre jeu).


Dans tous les cas, le plan est simple:


  1. comprendre lequel des paramètres affecte le plus fortement le résultat final (le nombre de biens vendus ou le pourcentage de victoires d'un certain personnage dans le jeu) et comment
  2. comprendre laquelle de ces options vous pouvez vraiment influencer
  3. se concentrer sur ce qui est important (p. 1) et ce qui peut être changé (p. 2)

Tout est simple, il ne reste plus qu'à traiter du paragraphe 1.


En fait, cette tâche est loin d'être nouvelle et elle est assez facile à résoudre sans utiliser de réseaux de neurones, en utilisant uniquement les bonnes vieilles statistiques ... Si vous avez des données Magnet. Ou League of Legends. Mais il y a une grande chance que non: que vous soyez un réseau de quelques magasins, un jeu modérément populaire, et que vous n'ayez tout simplement pas beaucoup de données que vous pouvez utiliser. Oui, LoL recueille les résultats de millions de matchs, et il y aura tellement de combinaisons de paramètres que vous pouvez comparer comment le choix de ses partenaires influence la victoire d'un héros donné, toutes choses étant pratiquement égales par ailleurs. Faute de données, il faut comparer des pommes avec des oranges - nous n'avons tout simplement pas assez de cas isolés.


Pour simplifier la situation, afin de comprendre comment, par exemple, la combinaison de correspondance de carte affecte la probabilité de gagner votre jeu, idéalement, vous devriez avoir plusieurs milliers de résultats dans lesquels tous les paramètres, à l'exception des paramètres intéressants, sont les mêmes pour nous . C'est-à-dire que les mêmes joueurs avec le même niveau de compétence jouent le même héros sur différentes cartes avec différents adversaires. C'est difficile à réaliser si vous n'êtes pas Riot Games .


Mais revenons aux transferts. Imaginez que nous voulons étudier un paramètre - un «agent de football», par exemple, afin de comprendre quelle entreprise est la meilleure pour qu'un joueur de football devienne un client. Il est clair qu'il faut s'adresser à l'agent qui organise la vente du joueur le plus cher . Si nous appliquons des méthodes statistiques standard, nous verrons que GestiFute est la société la plus performante qui vend ses clients, ce qui est parfaitement conforme à leur réputation. Mais comment pouvons-nous séparer l'habileté de vendre de la force du joueur lui-même? Après tout, ce n'est pas si difficile de vendre cher si vos clients sont Deco, Danny, Pepe, Diego Costa et un humble gars nommé Cristiano . Honnêtement, vous ne pouvez comparer les agences que si elles reçoivent toutes le même ensemble de joueurs (bons et moins bons) et obligées de les vendre aux mêmes clubs. Mais un tel multivers est difficile à imaginer dans la vraie vie . Mais nous avons un modèle qui donne le résultat (coût de transfert) pour tout ensemble de données. Oui, même si vous l'obligez à calculer le coût du transfert de Gogua de Tambov au CSKA, s'il était effectué par Jorge Mendes. Et Glushakova à Akhmat, et Azar à Real et tout le reste. Faites ensuite le même tour avec tous les autres bureaux. Conditions parfaitement égales. Ensuite, il ne reste plus qu'à calculer le prix de l'ensemble des joueurs pour chacune des agences, et ici nous avons la réponse à la question de savoir combien l'appartenance à la marque, par exemple GestiFute, augmente le prix d'un joueur .
Autrement dit, nous avons analysé la façon dont le paramètre cible dépend d' un autre précédemment défini de manière isolée, et uniquement lui .


C'est ce qu'on appelle la dépendance partielle.


Et donc il est possible d'analyser n'importe quel paramètre, ce que nous allons faire maintenant.


Âge


La première chose pour laquelle j'ai défini l'algorithme était l'âge du footballeur et j'ai obtenu cette image



Elle, il faut le dire, m'a plongé dans la tristesse. Parce que ce n'est absolument pas conforme à mon intuition. Quelque chose est cassé ici. Je sais bien que le coût maximum des joueurs atteint un pic d'environ 25-27 ans, que les joueurs à 17 ans ne sont certainement pas les plus chers. Comme j'étais convaincu en construisant une simple dépendance à partir des données sources, sans aucun modèle.



Oui, c'est vrai, c'est ainsi que le coût des joueurs se comporte en fonction de l'âge, une grosse bosse.


Mais après avoir réfléchi un peu à ce que le modèle a peint pour moi, j'ai réalisé qu'elle avait raison. Ce fut le moment où j'ai cru pour la première fois que cela fonctionnait vraiment, qu'il y avait quelque chose en elle. Le modèle m'a donné, à première vue, un résultat inattendu, mais paradoxalement correct, et m'a permis de regarder l'objet d'étude un peu de l'autre côté.


Que voyons-nous sur le premier graphique et pourquoi sommes-nous habitués au second?


En fait, le coût de transfert est très difficile à corréler avec l'âge du joueur utilisant uniquement des données brutes. Après tout, pourquoi un joueur devient-il plus cher à l'âge de 25 ans? Est-ce parce qu'il vieillit? Non, il joue juste plus de matchs, marque plus, commence à jouer pour l'équipe nationale, devient plus populaire parmi les fans à la fin, etc., tout cela, bien sûr, se passe comme s'il était complet avec l'âge et acquiert de l'expérience, mais tout cela nous avons des paramètres séparés. Et sur le premier graphique, nous ne voyons la dépendance que de l'âge, dans un scénario idéal, où tout le reste est le même. Bien sûr, dans ce cas, un joueur qui a marqué 20 buts la saison dernière pour son club joue régulièrement pour l'équipe nationale, à 19 ans cela coûtera plus qu'exactement le même joueur avec les mêmes indicateurs, jouant au même endroit, mais à 25!


Il est également intéressant ici que la pente de la courbe à 25 ans soit assez douce, alors qu'après cet âge il y a simplement un effondrement. Il sera intéressant de se demander pourquoi il y a une telle différence frappante?


La saison


Je propose de comparer la croissance "distillée" de la valeur des joueurs au fil des saisons



Vous pouvez clairement voir comment, après avoir survécu à la surchauffe du marché des années 90 et à la crise financière du début des années 10, le graphique se dirige avec confiance vers une courbe de croissance presque exponentielle.


Mais le même graphique est construit uniquement sur des données. Notez à quel point la croissance de la valeur des joueurs a été moins prononcée ces dernières années



Paramètres associés


L'agence, l'âge et, dans une moindre mesure, la saison sont des exemples de catégories indépendantes assez rares de paramètres. Au final, vous pouvez facilement imaginer comment un joueur passe d'une agence à une autre et cela aura peu d'effet sur les autres paramètres. Mais disons que nous voulons comprendre quel acheteur de club doit payer le plus pour les joueurs. Vous pouvez prendre un paramètre to_club_name et calculer le résultat. Mais ici, il est déjà difficile pour nous de ne pas prendre en compte les valeurs associées to_clb_lg_name , to_clb_lg_country , to_clb_lg_group , qui montrent dans quelle ligue ce club joue. Oui, nous pouvons les séparer et découvrir combien Man Utd plus cher achète des joueurs uniquement en raison de la force de sa marque, et combien la "marge anglaise" fait séparément, mais le plus souvent, nous sommes intéressés par le résultat combiné. En fin de compte, Manchester ne prévoit pas de se déplacer de l'Angleterre, nous allons donc immédiatement étudier un groupe de paramètres.


Quels sont les nombres dans les graphiques?

Le nombre après la «colonne» est le coefficient de combien ce paramètre augmente le prix de transfert par rapport à la moyenne


Le nombre à l'intérieur de la "colonne", ainsi que sa teinte, indiquent le nombre de transferts avec ce paramètre


Acheteur de club



Le fait que sur les 20 acheteurs les plus généreux de 18 clubs anglais et d'un club royal de la ville de Madrid ne me surprenne pas vraiment, mais la troisième (!) Place de Makhachkala Anji montre une fois de plus qu'il mérite un prix dans la nomination " Party Like A Russian ".
Soit dit en passant, un seul club de cette liste n'existe plus.



Si l'antitope était plus élevé, alors nous avons ici des clubs dont la marque, au contraire, vous permet d'acheter les mêmes joueurs moins cher que le marché. Capturé par les Belges !


Où sont les portugais? - demandez-vous. Tout sera bientôt, - je vous répondrai, moi et moi.


Vendeur de club



Clubs qui vendent le plus. Satisfait la deuxième place du mineur (respect bien mérité); la présence de la plupart des sommets du Brésil et de l'Argentine est claire; Séville et enfin Benfica, avec le plus grand nombre de ventes.
Mais le plus intéressant, bien sûr, sera de regarder de plus près l'Atalanta. Qui a-t-elle si bien vendu au cours des 10 dernières années? Alors aussi en quantité inférieure à cinquante pièces? Permettez-moi de vous rappeler que les données pour 2008-2018 sont loin d’Atalanta fané Gasperini et la Ligue des champions!



En tant qu'étrangers, les Néerlandais, c'est à peu près à leur époque qu'ils disaient que les joueurs de qualité pouvaient être achetés les moins chers. Et, tout à coup, Zenith avec Wolfsburg ...


Performance du club


Puisque nous avons des données sur ceux qui vendent le plus cher et achètent le moins cher, nous ne pouvons nous empêcher de voir qui a cette différence, en termes relatifs, la plus grande.



Image terriblement intéressante. Les Belges, les Argentins avec les Brésiliens, qui méritent clairement de regarder de plus près Besiktas avec Alkmaar, et enfin Benfica et Porto avec le plus de transactions.


À noter particulièrement Anderlecht - le top 10 de la liste et plus de 100 transferts.



L'antitope, cette fois en termes d '"efficacité", est de nouveau capturé par les Britanniques avec une petite Barcelone entrecoupée. 0,5 à Manchester United est tout simplement effrayant.


Ici, il est nécessaire de dire que toutes les données ne montrent que ce qu'elles montrent. Dans ce cas, il s'agit du "supplément pour le club" à l'achat divisé par le "supplément pour le club" à la vente.
Pas étonnant que j'ai pris "l'efficacité" entre guillemets. Les meilleurs clubs du monde ne pouvaient pas refuser le sommet de l '«efficacité», leur tâche n'était pas de vendre des joueurs aussi chers que possible, mais de leur retirer les meilleures années de carrière, d'en tirer le maximum, de les transformer en un résultat de club. Un excellent joueur dans un club de haut niveau ne peut se faire remplacer que pendant des années, mais cela réduira son prix, mais si cela est nécessaire pour le club, il le fera. Si le club supérieur vend le joueur au paysan moyen (et cela affecte davantage le calendrier car le passage du haut en haut ne change presque pas l'équilibre global), alors le plus souvent cela signifie qu'il n'a pas passé le test (enfin, ou cela semble généralement comme ça), quoi vendre à nouveau ça va être plus difficile dans un autre club de haut niveau (à savoir, ils gonflent le prix d'un joueur).


Autrement dit, en termes d '"efficacité" dans ce graphique, s'il est logique de comparer, alors seuls les clubs de la même catégorie (meilleurs clubs, donateurs, clubs belges :), etc.)



Comme par exemple ici - "l'efficacité" des clubs russes. Le leadership du CSKA est très attendu. Le Spartak a surpris jusqu'à ce que je me souvienne qu'ils vendaient toujours bien leurs joueurs. Par exemple, ils ont réussi à vendre les Cavenags qui ont échoué en Russie pour presque le même prix qu'ils ont acheté.


À propos de Zenit et d'Anji, nous l'avons déjà dit.


Ligue



Et voici le «secret» du leadership des Britanniques en antitopes (et des Belges en tête). Marge anglaise dans toute sa disgrâce. C'est plus que la somme des marges de tous les autres pays du top 6 réunis.


Formateur Acheteur



Eh bien, que puis-je dire ... Avec les meilleurs entraîneurs comme avec les meilleurs clubs - vous les invitez à donner des résultats, plutôt que d'augmenter la valeur des joueurs. Au contraire, ils devront payer trop cher pour eux, en achetant les joueurs dont ils ont besoin. Il est étonnant de voir Mancini uniquement à la fin de cette liste, bien qu'avec un grand nombre de joueurs. Il n'est pas moins surprenant qu'au sommet il y ait Jardim avec Pochettino. Mais nous considérerons cela comme l'attribution du titre de "top coach" pour eux.


Coach de vente



Zhardim, Lucescu et Pochettino achètent cher, mais vendent aussi cher. Il n'est pas surprenant que chacun d'entre eux soit surtout connu pour travailler à l'heure indiquée avec des clubs (Monaco, Shakhtar et Tottenham) au statut de «respect». Simeone - boch: le système du jeu, le retrait de l'Atletico aux leaders, une incroyable augmentation de la valeur des joueurs.


En une seule ligne


La plus grande marge lors de l' achat d'une paire club-entraîneur : 1.Gus Hiddink, à Anji; 2. Sir Alex Ferguson, où c'est clair ; 3. Louis van Gaal, il est clair où United .


Le moins cher de tous, à partir d'un nombre important de transferts, a été acheté par Chenol Gunesh à Besiktas, encore une fois, il vaut la peine d'être examiné de plus près.


Un couple de joueurs de club, mais en ventes : 1. Mircea Lucescu, Shakhtar; 2.Diego Simene, Atlético; 3.Leonardo Jardim, Monaco.


Seule la deuxième place ici, Diego, paradoxalement , suggère qu'avant l'Atlético, il a même mieux vendu les joueurs.


Agent


Et enfin, la meilleure efficacité des agents



Nous avons déjà parlé de Gestifute. Mais maintenant, vous pouvez rendre un verdict: oui, ce sont les meilleurs .


Ils sont bons par eux-mêmes. Ils ont non seulement Cristiano Ronaldo et d'autres grands joueurs, ils savent aussi comment les vendre, en fait, les meilleurs au monde.


Les 2 premières agences méritent également une attention particulière, bien qu'elles travaillent presque exclusivement sur le marché italien.


Les agents non divulgués , apparemment, ne se révèlent pas pour une raison - ils vendent cher, quoi qu'il arrive.


Une autre preuve que Mino Raiola n'est pas une blague pour Georges Mendes, juste un peu au-dessus du marché. Les relations publiques font leur travail.


Eh bien, si vous êtes un jeune footballeur russe, alors tu vas déjà bien N'hésitez pas à choisir une agence en haut de cette liste, vous ne perdrez pas.


Nous ferons tout, il y a beaucoup plus de résultats, mais j'ai sélectionné les plus intéressants, à mon avis.
Un examen plus approfondi de ces graphiques et d'autres, ainsi que des tableaux complets, est possible dans un ordinateur portable . Et ici, j'ai mené encore plus d'expériences sur ces données.


Et surtout, je tiens à vous rappeler que cette méthode fonctionne avec presque tous les ensembles de données tabulaires. Tout d'abord, vous déterminez les paramètres qui affectent le plus fortement le résultat (importance des fonctionnalités), puis les valeurs des paramètres (dépendance partielle) que vous devez atteindre afin de maximiser la fonction sélectionnée à l'aide de la méthode décrite dans cet article.


Je vous souhaite bonne chance dans les expériences, il sera intéressant de savoir ce qui vous est arrivé :)

Source: https://habr.com/ru/post/fr471484/


All Articles