Comment nous avons été chargés de comparer un hérisson avec un serpent

Bonjour, Habr! Dans cet article, nous, consultants de la pratique de l'analytique du service support commercial, considérerons l'importance d'évaluer correctement la qualité de la modélisation dans la résolution des problèmes analytiques. Dans le cadre de notre travail, nous devons souvent résoudre le problème de la construction de modèles prédictifs à partir des données clients. Dans le même temps, non seulement une description du problème analytique peut provenir des clients, mais aussi une procédure d'évaluation de la qualité des modèles développés. Et parfois, il arrive que le client propose de comparer le hérisson au serpent. Le plus souvent, cela peut se produire lorsque les données sont pré-divisées en échantillons d'apprentissage et de test, car la collecte de données pour les deux échantillons peut varier légèrement.

C'est précisément la situation que nous avons connue dans l'un des cas où le client a voulu tester la «force» des communications ciblées.



Énoncé du problème


La banque a mené une campagne unique au cours de laquelle elle a téléphoné à une partie de ses clients (~ 10 000 clients) et a proposé d'acheter un produit de prêt spécifique. À la fin de la campagne, des données ont été recueillies sur la réponse aux communications. La banque nous a décrit non seulement la tâche elle-même, qui doit être résolue, mais a également indiqué comment et sur quelles données le modèle devrait être construit, ainsi que la façon de vérifier la qualité.

Ce qui nous était demandé:

  • Construisez un modèle pour prédire la réponse de la communication.
  • Pour construire le modèle, utilisez des données sur les clients qui n'ont pas participé à la campagne. Pour cela, la banque nous a fourni des données anonymisées pour tous les clients, à l'exclusion de l'échantillon des clients qui ont participé à une campagne ponctuelle.
  • Comme événement cible lors de la construction du modèle, utilisez le fait de demander un produit de prêt, qui a été proposé dans le cadre de la campagne.

La qualité du modèle construit devait être vérifiée auprès des clients ayant participé à la campagne. C'est-à-dire si le modèle prédit que le client est enclin à acheter un produit de prêt et que le client a reçu une réponse positive des résultats de la communication, alors il est considéré que le modèle a correctement prédit la réponse.

Premières préoccupations


Déjà au stade de la discussion de la méthode d'évaluation de la qualité, une inquiétude a été exprimée quant à l'inexactitude de cette méthode d'évaluation. Il y a deux raisons à cette inexactitude.

Premièrement, différentes variables cibles au stade de la construction du modèle et au stade de l'évaluation de sa qualité. Un modèle pour prédire le fait de demander un produit de prêt sans aucune communication est construit, et la qualité est vérifiée par les résultats de l'application du modèle à la tâche de prévision de la réponse à la communication .

Deuxièmement, les clients qui ont participé à la campagne peuvent être très différents de tous les clients (car il est raisonnable de supposer que les clients ont été sélectionnés pour participer à la campagne selon certains critères).

Malgré les inquiétudes, nous avons convenu d'essayer de construire un modèle avec l'énoncé du problème actuel. Cependant, nous avons demandé une partie des données avec les résultats de l'appel du client pour l'utiliser comme échantillon indépendant (test).

Modélisation


Pendant que nous attendions une partie des données avec les résultats de l'appel, nous avons construit le modèle sur des clients qui n'ont pas participé à la campagne (~ 200 000 clients, environ 5% ont acheté un produit de prêt). De bons résultats ont été obtenus (Gini ~ 0,75 dans les échantillons de formation, de validation et d'essai).

Plus tard, nous avons reçu des données de la part des clients qui ont participé à la campagne. Le modèle précédemment construit a été appliqué à ces données. Lors de l'application du modèle à cette partie de l'échantillon, les résultats laissaient beaucoup à désirer (Gini = 0,16).

Distributions


image
Nous avons commencé à trier l'échantillon de clients qui ont participé à la campagne et avons constaté que la distribution des données dans de nombreuses variables ne coïncidait pas avec la distribution des données des clients qui n'ont pas participé à la campagne.

Voici à quoi ressemblaient les distributions

NDA ne permet pas le marquage sur les essieux.

D'où l'explication des mauvais résultats. Ils ont essayé de construire un modèle sur cette partie des clients qui ont participé à la campagne (environ 5 000 - réponse = 8%). Le résultat est mauvais (pas assez de données - indicateurs de mauvaise qualité - Gini ~ 0,3).

Les problèmes


En conséquence, plusieurs hypothèses ont été émises sur le maigre résultat de simulation:

  1. Différentes variables cibles (rappelez-vous que nous apprenons à déterminer la propension à acheter un produit de prêt, et nous prédisons la réponse à la communication ).
  2. L'échantillon de clients qui ont participé à la campagne n'a pas été généré de manière aléatoire, c'est pourquoi la distribution des prédicteurs peut différer de la distribution dans la population générale de tous les clients des banques.
    • dans l'échantillon de clients qui n'ont pas participé à la campagne, il y a des clients qui ne peuvent pas demander de prêt
    • les clients participant à la campagne n'ont pratiquement aucun produit de prêt: seulement 2% ont des entrées dans l'historique des paiements de prêt, contre 19% des clients qui n'ont pas participé à la campagne.
  3. Il n'y a pas suffisamment de données sur les résultats de la campagne pour les utiliser pour construire le modèle.

Résolution de problèmes


  1. Il est toujours nécessaire au tout début de déterminer les critères corrects pour évaluer le résultat.
    • Les variables cibles doivent être identiques.
    • Les données sur lesquelles ils se proposent d'étudier, et sur lesquels ils se proposent de tester le résultat, devraient provenir d'une population générale.
  2. Il est nécessaire de discuter à l'avance de la portée du projet (et qu'ils s'appliquent à la formation et aux échantillons d'essai).
  3. Le manque de données est soit un changement de tâche (suffisant) soit l'attente de nouvelles communications.

Résumé


Les arguments ci-dessus ont été présentés à des collègues de la banque et la tâche a été décidée à refaire.

Dans le nouvel énoncé du problème, nous devions prévoir la réponse à la campagne régulière. Cependant, cette fois, nous avions plus tôt les données de communication pour la même campagne. Le résultat a été un projet réussi (il a été possible d'augmenter la réponse de plus de 2 fois).

Conclusions


En conséquence, nous revenons aux bases de la modélisation:

  • Il est toujours nécessaire de comprendre si ce que nous modélisons coïncide avec ce que le client attend de nous. Dans ce cas, afin de prédire la réponse aux communications, il était nécessaire de disposer de données de communication.
  • Les données doivent provenir de la même population. Si le modèle est formé sur les mêmes modèles et dans l'échantillon de test pour rencontrer d'autres modèles, il y a peu de chances d'obtenir un score de bonne qualité sur l'échantillon de test.

Source: https://habr.com/ru/post/fr416159/


All Articles