Cómo nos encargaron comparar un erizo con una serpiente

Hola Habr! En este artículo, nosotros, consultores de la práctica de análisis del departamento de soporte de ventas, consideraremos la importancia de evaluar correctamente la calidad del modelado para resolver problemas analíticos. Como parte de nuestro trabajo, a menudo tenemos que resolver el problema de construir modelos predictivos basados ​​en datos de clientes. Al mismo tiempo, no solo una descripción del problema analítico puede provenir de los clientes, sino también un procedimiento para evaluar la calidad de los modelos desarrollados. Y a veces sucede que el cliente ofrece comparar el erizo con la serpiente. En la mayoría de los casos, esto se puede encontrar cuando los datos se dividen previamente en muestras de entrenamiento y prueba, porque la recopilación de datos para ambas muestras puede variar ligeramente.

Esta es precisamente la situación que tuvimos en uno de los casos en que el cliente quería probar la "fuerza" de las comunicaciones específicas.



Declaración del problema.


El banco realizó una campaña única, dentro de la cual telefoneó a parte de sus clientes (~ 10 mil clientes) y ofreció comprar un producto de préstamo específico. Al final de la campaña, se recopilaron datos sobre la respuesta a las comunicaciones. El banco nos describió no solo la tarea en sí, que debe resolverse, sino que también indicó cómo y con qué datos se debe construir el modelo, así como también cómo verificar la calidad.

Lo que se requería de nosotros:

  • Construya un modelo para predecir la respuesta de comunicación.
  • Para construir el modelo, use datos de clientes que no participaron en la campaña. Para esto, el banco nos proporcionó datos anónimos para todos los clientes, excluyendo de la muestra a aquellos clientes que participaron en una campaña única.
  • Como evento objetivo al construir el modelo, utilice el hecho de solicitar un producto de préstamo, que se propuso como parte de la campaña.

Se suponía que la calidad del modelo construido se verificaría en los clientes que participaron en la campaña. Es decir Si el modelo predice que el cliente está dispuesto a comprar un producto de préstamo y que el cliente recibió una respuesta positiva de los resultados de la comunicación, entonces se considera que el modelo predijo correctamente la respuesta.

Primeras preocupaciones


Ya en la etapa de discusión del método de evaluación de la calidad, se expresó preocupación por la incorrección de este método de evaluación. Hay dos razones para la incorrección.

En primer lugar, diferentes variables objetivo en la etapa de construcción del modelo y en la etapa de evaluación de su calidad. Se construye un modelo para predecir el hecho de solicitar un producto de préstamo sin ninguna comunicación, y la calidad se verifica por los resultados de aplicar el modelo a la tarea de pronosticar la respuesta a la comunicación .

En segundo lugar, los clientes que participaron en la campaña podrían ser muy diferentes de todos los clientes (ya que es razonable suponer que los clientes fueron seleccionados para participar en la campaña de acuerdo con algunos criterios).

A pesar de las preocupaciones, acordamos intentar construir un modelo con el enunciado del problema actual. Sin embargo, solicitamos una parte de los datos con los resultados de la llamada del cliente para su uso como una muestra independiente (prueba).

Modelado


Mientras esperábamos parte de los datos con los resultados de la llamada, creamos el modelo en clientes que no participaron en la campaña (~ 200 mil clientes, alrededor del 5% compraron un producto de préstamo). Se obtuvieron buenos resultados (Gini ~ 0.75 en las muestras de entrenamiento, validación y prueba).

Más tarde, se cargaron datos por parte de los clientes que participaron en la campaña. El modelo previamente construido se aplicó a estos datos. Al aplicar el modelo a esta parte de la muestra, los resultados dejaron mucho que desear (Gini = 0.16).

Distribuciones


imagen
Comenzaron a clasificar la muestra de clientes que participaron en la campaña y descubrieron que la distribución de datos en muchas variables no coincidía con la distribución de datos de los clientes que no participaron en la campaña.

Así es como se veían las distribuciones

NDA no permite marcar en los ejes.

De ahí la explicación de los malos resultados. Intentaron construir un modelo sobre esa parte de los clientes que participaron en la campaña (aproximadamente 5 mil - respuesta = 8%). El resultado es malo (datos insuficientes, indicadores de baja calidad, Gini ~ 0.3).

Los problemas


Como resultado, se hicieron varias suposiciones del escaso resultado de la simulación:

  1. Diferentes variables objetivo (recuerde que estamos aprendiendo a determinar la propensión a comprar un producto de préstamo y predecimos la respuesta a la comunicación ).
  2. La muestra de clientes que participaron en la campaña no se generó al azar, por lo que la distribución de predictores en ella puede diferir de la distribución en la población general de todos los clientes del banco.
    • En la muestra de clientes que no participaron en la campaña, hay clientes que no pueden solicitar un préstamo.
    • Los clientes que participan en la campaña prácticamente no tienen productos de préstamo: solo el 2% tiene entradas en el historial de pagos de préstamos, en comparación con el 19% de los clientes que no participaron en la campaña.
  3. No hay suficientes datos sobre los resultados de la campaña para usarlos para construir el modelo.

Resolución de problemas


  1. Siempre es necesario al principio determinar los criterios correctos para evaluar el resultado.
    • Las variables objetivo deben ser las mismas.
    • Los datos sobre los que proponen estudiar, y sobre los que proponen probar el resultado, deben ser de una población general.
  2. Es necesario discutir el alcance del proyecto por adelantado (y que se apliquen a las muestras de capacitación y prueba).
  3. La falta de datos es un cambio en la tarea (para ser suficiente) o la expectativa de nuevas comunicaciones.

Resumen


Los argumentos anteriores se presentaron a colegas del banco y se decidió rehacer la tarea.

En la nueva declaración del problema, se nos solicitó predecir la respuesta a la campaña regular. Sin embargo, esta vez teníamos datos de comunicaciones para la misma campaña anterior. El resultado fue un proyecto exitoso (fue posible aumentar la respuesta en más de 2 veces).

Conclusiones


Como resultado, volvemos a los conceptos básicos del modelado:

  • Siempre es necesario comprender si lo que modelamos coincide con lo que el cliente quiere de nosotros. En este caso, para predecir la respuesta a las comunicaciones, era necesario tener datos de comunicaciones.
  • Los datos deben ser de la misma población. Si el modelo será entrenado en los mismos patrones y en la muestra de prueba para encontrar otros patrones, entonces hay pocas posibilidades de obtener un puntaje de buena calidad en la muestra de prueba.

Source: https://habr.com/ru/post/es416159/


All Articles