La priorización de la reserva lleva a la elección entre estrategias. Cada uno tiene sus métricas. Hay un requisito para elegir el más importante. La puntuación ML es una solución cuando no existe linealidad y la economía no es lineal. Ver introducción
aquí . Se consideran dos grupos. Primero (I) corresponde a la conversión web {tasa de rebote, microconversión, tiempo, profundidad}. El segundo (II) corresponde a la atracción de nuevos visitantes del canal orgánico {visitas, espectadores, vistas}. La función objetivo es una cantidad de ofertas comerciales por día. La tarea es reducir la dimensión para obtener la estrategia simple óptima. En este caso, los canales B2B en línea / fuera de línea no se pueden separar: el mercado es escaso y los nuevos clientes pueden tener alguna información sobre 'la marca' de ambos canales. Por lo tanto, la evaluación estadística está más cerca de la realidad que el seguimiento directo de CJM en este caso.
En el ejemplo de votación de conjunto dado, están involucradas las técnicas de reducción de dimensiones y objetivos. Se consideran dos grupos de métricas. Las características y el objetivo se normalizan al intervalo [0,1]. Se utilizan datos relativamente pequeños con muestreo diario: cuatro años de registro. Las métricas web se analizan desde la plataforma analítica a través de Python API. Los datos de ventas se reciben de CRM. La matriz de correlación muestra que no existe una correlación significativa entre las ofertas convertidas y las métricas web: no se puede aplicar la regresión lineal.

Se utiliza un conjunto de estimadores de votación no lineales: KNeighboursclassifier, Decision Tree, Ada Boost, Gradient Boosting, Support Vector Classifier, Naive Bayes y Multi-layer Perceptron con tres capas ocultas. La hiper sintonización se aplica solo a KNeighboursclassifier. Se consideran los modelos lineales {high bias} y no lineales {high varnce}. Los modelos son comparables en relación con la precisión / dispersión. Dispersión más pequeña significa mayor estabilidad. Al principio, utilizamos todas las métricas como características de entrada. Ofrece una dispersión de 0,11 de la precisión del modelo y una mediana de precisión del 96%:

El segundo experimento supone el desecho de métricas para disminuir la dimensión. La métrica se lanza si su eliminación proporciona una reducción mínima de precisión. Finalmente queda una métrica: número de sesiones. En este caso, la precisión sigue siendo del 96%, pero la dispersión de los modelos de conjunto es menor: 0,01.

Conclusión: otras características no proporcionan información adicional. El tráfico tiene la mayor importancia para la predicción y corresponde a un modelo de predicción más estable. El método propuesto puede generalizarse en la toma de decisiones cuando la no linealidad es inevitable.
Aquí se da un poco de paz del código de Jupyter.
Gracias por el karma