
Dans l'article précédent, nous avons examiné les questions de qualité des données (
"Sur la qualité des données et les erreurs courantes dans leur collecte" sur Habré).
Aujourd'hui, je veux continuer à parler de la qualité des données et discuter de leur collecte: comment hiérarchiser correctement lors du choix d'une source, comment et quelles données collecter, évaluer la valeur des données pour une entreprise, etc.
Collectionne tout
Avez-vous décidé d'améliorer la conception et le paiement des marchandises sur le site?
Excellent, mais comment se déroule le processus de formation d'un panier par l'acheteur? À quel moment fait-il le choix final de la marchandise: avant de l'ajouter au panier ou avant de payer pour l'achat?
Chaque site peut être différent, mais comment se comporte votre client?
Si vous avez des informations sur la commande, vous pouvez les analyser et déterminer le vecteur de mise à jour, ce qui sera pratique non seulement pour vous, mais aussi pour les utilisateurs.

Collectez toutes les données que vous atteignez. Vous ne saurez jamais avec une certitude absolue laquelle vous pouvez avoir besoin, et il n'y a qu'une seule possibilité de collecte.
Plus vous collectez de données, plus vous disposez d'informations sur les utilisateurs et, plus important encore, vous pouvez comprendre et prévoir le contexte de leurs actions.
Le contexte permet de mieux comprendre votre client, ses désirs et ses intentions, et mieux vous connaissez votre client, mieux vous pourrez réaliser ses besoins personnels, ce qui signifie accroître la fidélité et augmenter les chances de retour d'un client.
Aujourd'hui, la collecte de toutes les données n'est plus si rare, surtout dans les projets en ligne. Dans une entreprise qui maximise la collecte de données et sait comment travailler avec eux, presque toutes les activités seront menées sur leur base: marketing, ventes, personnel, mises à jour et améliorations, et livraisons.
Chaque direction a des sources de données internes et externes dans différents formats et différentes qualités.
C'est bon pour le travail des analystes et la prise de décision, mais cela pose également le problème du stockage de ce tableau de données et de son traitement. Chaque action augmente le fardeau financier et l'effet positif de la possession de données peut devenir un «mal de tête».
Pour décider de l'opportunité de collecter et de traiter certaines données, il est nécessaire de comprendre leurs caractéristiques de base. Parcourons-les brièvement:
Le volumeUn indicateur qui affecte les coûts financiers de stockage et de modification des données et les coûts de temps de leur traitement. Et bien qu'avec une augmentation du volume de données, le prix du stockage d'une unité diminue, mais étant donné le nombre croissant de sources, la charge financière peut devenir irrationnelle.
VariétéUn ensemble diversifié de sources de données donne une image plus complète et aide à mieux évaluer le contexte des actions des utilisateurs, mais le revers de la médaille est la variété des formats et le coût de leur intégration dans votre système d'analyse. Il n'est pas toujours possible de collecter toutes les données ensemble, et si possible, ce n'est pas toujours nécessaire.
La vitesseDe combien de données avez-vous besoin pour traiter par unité de temps?
Rappelez-vous la récente élection présidentielle américaine - grâce au traitement rapide des messages Twitter, on pouvait comprendre l'humeur des électeurs pendant le débat et ajuster leur cours.
Les géants du travail avec des données, comme Facebook et Google, nécessitent énormément de temps pour atteindre les résultats d'aujourd'hui, mais grâce à cela, ils disposent désormais de données sur chaque utilisateur et peuvent prédire leurs actions.
Un problème commun avec les travailleurs de données est les ressources limitées, principalement les ressources financières et humaines.
Dans la plupart des entreprises, les analystes doivent fixer des priorités strictes dans le choix des sources de données, et abandonner ainsi certaines d'entre elles.
En outre, il est nécessaire de prendre en compte les intérêts des entreprises, ce qui signifie évaluer le retour sur investissement dans le travail avec les données et l'impact possible des données sur l'entreprise.
Priorités et sélection des sources de données
Avec des ressources limitées pour travailler avec ces données, les spécialistes doivent prioriser et choisir entre les sources.
Qu'est-ce qui est guidé par cela et comment déterminer la valeur des données pour une entreprise?
L'objectif principal du travail des analystes est de fournir les informations nécessaires aux autres unités de manière rapide et de qualité. Ces informations ont un impact direct sur la performance et les services de l'entreprise.
Chaque département ou unité a son propre type de données "principal".
Ainsi, pour le service client, les contacts du client et les données de ses réseaux sociaux sont importants, et pour le service marketing, l'historique des achats et le plan d'actions.
Il s'avère donc que chaque équipe a son propre ensemble de «données très importantes» et ces données sont nettement plus importantes et plus nécessaires que celles des autres unités.
C'est juste en raison de l'importance et de la nécessité des données, le problème des ressources limitées ne disparaît pas, ce qui signifie que nous devons établir des priorités et agir en conséquence. Le principal facteur de priorisation des données est le retour sur investissement, mais n'oubliez pas l'accessibilité, l'exhaustivité et la qualité.
Voici une liste de certains indicateurs qui peuvent aider à établir des priorités:
Liste des options de priorisationÉlevéRaison: Les données sont nécessaires immédiatement.
Explication: Si une unité a un besoin urgent de données avec des délais strictement limités, ces données sont fournies en premier.
ÉlevéRaison: les données ajoutent de la valeur.
Explication: les données augmentent les bénéfices ou réduisent les coûts en fournissant un retour sur investissement élevé.
ÉlevéRaison: différentes équipes ont besoin des mêmes données.
Explication: En répondant aux besoins de plusieurs équipes en matière de données, vous augmentez le retour sur investissement.
ÉlevéRaison: données à court terme ou en streaming.
Explication: Certaines interfaces et certains protocoles offrent une «fenêtre» limitée dans le temps pour la collecte de données; dépêchez-vous.
MoyenneMotif: module complémentaire pour un ensemble de données existant qui améliore leur qualité.
Explication: Les nouvelles données complètent celles existantes et améliorent la compréhension du contexte des actions.
MoyenneMotif: Le code de traitement des données peut être réutilisé.
Explication: L' utilisation d'un code bien connu réduit le retour sur investissement et le nombre d'erreurs possibles.
MoyenneRaison: les données sont facilement accessibles.
Explication: Si les données sont précieuses, mais qu'elles sont faciles à obtenir, allez-y.
MoyenneRaison: l' API pratique vous permet de collecter des données pour les périodes passées.
Explication: Si les données ne sont pas requises hier et que vous pouvez toujours y accéder, ne leur donnez pas une priorité trop élevée.
FaibleMotif: Les analystes ont accès aux données ou à d'autres moyens de les obtenir.
Explication: Si les analystes ont déjà accès aux données, il y a peut-être des tâches plus prioritaires.
FaibleRaison: mauvaise qualité des données.
Explication: des données médiocres peuvent être inutiles et parfois nuisibles.
FaibleRaison: vous devez extraire des pages Web.
Explication: Le traitement de ces données peut être assez complexe et nécessiter des efforts excessifs.
FaibleMotif: faible probabilité d'utilisation des données.
Explication: Des données qu'il serait bon d'avoir, mais sinon, alors d'accord.
Mais, possédant ces données, il est possible
de voler les vaches !
Comme nous le voyons, toutes les données ne sont pas importantes à fournir "en ce moment", ce qui signifie qu'il est nécessaire de prioriser et de suivre en fonction d'eux.
Il est important de maintenir un équilibre entre l'acquisition de nouvelles données et leur valeur pour l'entreprise.
Relation de données
Vous obtenez des données importantes des ventes, du marketing, des logisticiens et des commentaires des clients, mais la plus grande valeur des données survient après l'établissement de relations entre différents types de données.
Par exemple, considérons Diana et sa commande. Récemment, elle a commandé un ensemble de mobilier de jardin, comparant sa commande avec des données analytiques, on voit qu'elle a passé 30 minutes sur le site et regardé 20 ensembles différents. Cela signifie qu'elle a choisi des meubles déjà sur le site, ne sachant pas à l'avance ce qu'elle commanderait.
Nous regardons d'où il vient - les résultats de recherche.
Si nous avions des informations sur les autres achats de Diana, nous découvririons qu'elle a souvent acheté des articles ménagers au cours du dernier mois.
Les achats fréquents en ligne et l'utilisation de moteurs de recherche pour trouver des magasins en ligne indiquent une faible fidélité à la marque, ce qui signifie qu'il sera difficile de la persuader de racheter.
Ainsi, en recevant chaque nouveau niveau d'information, un portrait individuel de l'utilisateur est compilé, selon lequel vous pouvez en apprendre davantage sur sa vie, ses attachements, ses habitudes et prédire son comportement.
Nous ajoutons des informations de la commande et comprenons qu'il s'agit d'une femme, et à l'adresse de livraison, nous voyons qu'elle vit dans le secteur privé.
En continuant à analyser, vous pouvez trouver des informations sur sa maison et son terrain, prévoir ses besoins et faire une offre préventive.
Avec une analyse correcte des données, l'offre peut fonctionner et nous persuaderons le client de racheter, ainsi que d'augmenter sa fidélité grâce à une approche individuelle.
Offrir des remises pour inviter un ami du réseau social nous donnera accès à sa liste d'amis et aux informations de compte, puis il sera possible de poursuivre une approche marketing individuelle auprès du client et de faire de la publicité ciblée pour elle, mais cela ne sera probablement pas rentable.
Collecte et achat de données
Aujourd'hui, il existe de nombreuses façons de collecter des données, l'une des plus courantes étant l'API. Mais en plus de collecter des données, elles doivent être mises à jour, et ici tout dépend déjà du volume.
Il est plus opportun de remplacer de petites quantités de données (jusqu'à 100 000 lignes) par de nouvelles, mais avec de grands tableaux, une mise à jour partielle est déjà pertinente: en ajouter de nouveaux et supprimer les valeurs obsolètes.
Les tableaux de certaines données sont si énormes qu'il sera trop coûteux de les traiter pour l'entreprise, dans de tels cas, ils font une sélection et, sur la base de ces données, ils effectuent des analyses. Souvent, un «
échantillonnage aléatoire simple » est pratiqué, mais généralement les données collectées avec son aide ne sont pas représentatives et sont comparables à lancer une pièce.
Une question importante: collecter des données brutes ou agrégées?
Certains fournisseurs de données fournissent des collections déjà compilées, mais elles présentent plusieurs inconvénients. Par exemple, ils peuvent ne pas avoir les valeurs nécessaires ou souhaitées qui augmenteraient la valeur des analyses basées sur ces données pour l'entreprise, mais vous ne pourrez pas les collecter ou les compléter. Les données collectées par des agrégateurs tiers sont pratiques pour l'archivage et le stockage, et elles permettent également d'économiser considérablement du temps et des ressources humaines.
Mais s'il est possible de collecter des données brutes, il est préférable de les sélectionner - elles sont plus complètes et vous pouvez les agréger vous-même en fonction de vos besoins et de vos besoins commerciaux, puis travailler avec elles selon vos besoins.
De nombreuses entreprises collectent indépendamment des données et utilisent également des sources ouvertes. Mais dans certains cas, ils sont obligés de payer des tiers pour obtenir les données nécessaires. Parfois, le choix des lieux d'acquisition de données peut être limité, dans d'autres cas non, mais indépendamment de cela, lors du choix d'une source de données et de la décision de son acquisition, plusieurs facteurs doivent être notés:
PrixTout le monde aime les données gratuites - à la fois la gestion et l'analyse, mais parfois des informations de haute qualité ne sont disponibles que pour de l'argent. Dans ce cas, la rationalité de l'acquisition doit être pesée et le coût et la valeur des données comparés.
La qualitéLes données sont propres, peuvent-elles être fiables?
ExclusivitéLes données sont-elles préparées individuellement pour vous ou sont-elles accessibles à tous? Allez-vous gagner un avantage sur vos concurrents si vous les utilisez?
ÉchantillonnageEst-il possible d'obtenir un échantillon pour évaluer la qualité des données avant l'acquisition?
Mises à jourQuelle est la durée de vie des données, à quelle vitesse expirent-elles, seront-elles mises à jour et à quelle fréquence?
FiabilitéQuelles sont les limites des interfaces d'acquisition de données, quelles autres restrictions peuvent vous être imposées?
La sécuritéSi les données sont importantes, seront-elles cryptées et dans quelle mesure les protocoles sont-ils fiables? N'oubliez pas non plus la sécurité de leur transfert.
Conditions d'utilisationLicence ou autres restrictions. Qu'est-ce qui peut ne pas vous permettre de tirer pleinement parti des données?
FormatEst-il pratique de travailler avec le format des données acquises? Est-il possible de les intégrer dans votre système?
La documentationSi la documentation vous est fournie, c'est bien, mais sinon, vous devriez vous renseigner sur la méthode de collecte des données pour évaluer leur valeur et leur fiabilité.
Le volumeS'il y a beaucoup de données, pouvez-vous assurer leur stockage et leur traitement? Les données précieuses ne seront pas toujours volumineuses et vice versa.
Niveau de détailCes données conviennent-elles au niveau d'analyse dont vous avez besoin?
Ce n'est pas tout, mais les questions principales et incontestablement importantes que vous devez vous poser avant d'acheter des données auprès de fournisseurs.
Sur ce, je terminerai l'article sur la collecte de données.
Si l'information vous a été utile, je me ferai un plaisir de vous faire part de vos commentaires.
Peut-être êtes-vous en désaccord avec quelque chose ou souhaitez-vous partager vos méthodes et meilleures pratiques? Je vous invite à commenter et j'espère une discussion fascinante et utile.
Merci à tous pour votre attention et bonne journée!
Source d'information
Publié par Karl Anderson
Culture analytique. De la collecte de données aux résultats commerciaux
Création d'une organisation pilotée par les données
ISBN: 978-5-00100-781-4
Editeur: Mann, Ivanov et Ferber