La priorisation du backlog conduit au choix entre les stratégies. Chacun a ses métriques. Il est nécessaire de choisir le plus important. La notation ML est une solution lorsque la non-linéarité existe et que l'économie est non linéaire. Voir l'introduction
ici . Deux groupes sont considérés. Le premier (I) correspond à la conversion Web {taux de rebond, micro-conversion, temps, profondeur}. La seconde (II) correspond à l'attraction de nouveaux visiteurs de la chaîne organique {visites, téléspectateurs, vues}. La fonction cible est un certain nombre d'offres commerciales par jour. La tâche consiste à réduire la dimension pour obtenir la stratégie simple optimale. Dans ce cas, les canaux B2B en ligne / hors ligne ne peuvent pas être séparés: le marché est mince et les nouveaux clients peuvent avoir des informations sur la «marque» des deux canaux. Par conséquent, l'évaluation statistique est plus proche de la réalité que le suivi CJM direct dans ce cas.
Dans l'exemple donné de vote d'ensemble, le regroupement des techniques de réduction des cibles et des dimensions est impliqué. Deux groupes de métriques sont considérés. Les caractéristiques et la cible sont normalisées à l'intervalle [0,1]. Des données relativement petites avec échantillonnage quotidien sont utilisées: quatre ans d'enregistrement. Les métriques Web sont analysées à partir de la plateforme analytique via l'API Python. Les données de vente sont reçues de CRM. La matrice de corrélation montre qu'il n'y a pas de corrélation significative entre les offres converties et les métriques Web: une régression linéaire ne peut pas être appliquée.

Un ensemble d'estimateurs de vote non linéaire est utilisé: KNeighborsClassifier, Decision Tree, Ada Boost, Gradient Boosting, Support Vector Classifier, Naive Bayes et Multi-layer Perceptron avec trois couches cachées. L'hyper-réglage est appliqué à KNeighborsClassifier uniquement. Les modèles linéaires {biais élevé} et non linéaires {variance élevée} sont considérés. Les modèles sont comparables en termes de précision / diffusion. Une diffusion plus petite signifie une stabilité plus élevée. Au début, nous utilisons toutes les métriques comme fonctionnalités d'entrée. Il donne la diffusion de 0,11 de la précision du modèle et de la médiane de précision de 96%:

La deuxième expérience suppose que les mesures de rejet conséquentes réduisent la dimension. La métrique est lancée si son retrait donne un abaissement minimal de la précision. Enfin, une métrique est laissée - nombre de sessions. Dans ce cas, la précision est toujours de 96%, mais la diffusion des modèles d'ensemble est plus faible: 0,01.

Conclusion: aucune information supplémentaire n'est donnée par d'autres fonctionnalités. Le trafic a la plus haute importance pour la prédiction et correspond à un modèle de prédiction plus stable. La méthode proposée peut être généralisée dans la prise de décision lorsque la non-linéarité est inévitable.
Un peu de paix du code Jupyter est donné
ici .
Merci pour Karma