
En el artículo anterior, examinamos cuestiones de calidad de datos (
"Sobre la calidad de los datos y los errores comunes en su recopilación" en Habré).
Hoy quiero continuar la discusión sobre la calidad de los datos y discutir su recopilación: cómo priorizar correctamente al elegir una fuente, cómo y qué datos recopilar, evaluar el valor de los datos para una empresa y más.
Colecciona todo
¿Ha decidido mejorar el diseño y el pago de bienes en el sitio?
Excelente, pero ¿cómo va el proceso de formar una canasta por parte del comprador? ¿En qué momento hace la elección final de los bienes: antes de agregarlos a la cesta o antes de pagar la compra?
Cada sitio puede ser diferente, pero ¿cómo se comporta su cliente?
Si tiene información sobre cómo realizar un pedido, puede analizarla y determinar el vector de actualización, que será conveniente no solo para usted, sino también para los usuarios.

Recopila todos los datos que alcances. Nunca sabrá con absoluta certeza cuáles de ellos puede necesitar, y solo hay una posibilidad de recolección.
Cuantos más datos recopile, más información tendrá sobre los usuarios y, lo que es más importante, podrá comprender y predecir el contexto de sus acciones.
El contexto ayuda a comprender mejor a su cliente, sus deseos e intenciones, y cuanto mejor conozca a su cliente, mejor podrá darse cuenta de sus necesidades personales, lo que significa aumentar la lealtad y aumentar la probabilidad de que un cliente regrese.
Hoy en día, recopilar absolutamente todos los datos ya no es tan raro, especialmente común en proyectos en línea. En una empresa que maximiza la recopilación de datos y sabe cómo trabajar con ellos, casi todas las actividades se llevarán a cabo sobre la base de: marketing, ventas, personal, actualizaciones y mejoras, y entregas.
Cada dirección tiene fuentes de datos internas y externas en varios formatos y diferentes calidades.
Esto es bueno para el trabajo de los analistas y la toma de decisiones, pero también plantea el problema de almacenar esta matriz de datos y procesarla. Cada acción aumenta la carga financiera y el efecto positivo de poseer datos puede convertirse en un "dolor de cabeza".
Para decidir sobre la conveniencia de recopilar y procesar ciertos datos, es necesario comprender sus características básicas. Vamos a recorrerlos brevemente:
VolumenUn indicador que afecta los costos financieros de almacenar y modificar datos y los costos de tiempo para procesarlos. Y aunque con un aumento en el volumen de datos, el precio de almacenar una unidad disminuye, pero dado el creciente número de fuentes, la carga financiera puede volverse irracional.
VariedadUn conjunto diverso de fuentes de datos proporciona una imagen más completa y ayuda a evaluar mejor el contexto de las acciones del usuario, pero la otra cara de la moneda es la variedad de formatos y el costo de integrarlos en su sistema de análisis. No siempre es posible recopilar todos los datos juntos, y si es posible, no siempre es necesario.
Velocidad¿Cuántos datos necesita procesar por unidad de tiempo?
Recordemos las recientes elecciones presidenciales de los EE. UU.: Gracias al rápido procesamiento de los mensajes de Twitter, se pudo entender el estado de ánimo de los votantes durante el debate y ajustar su curso.
Los gigantes de trabajar con datos, como Facebook y Google, requieren una gran cantidad de tiempo para lograr los resultados de hoy, pero gracias a esto ahora tienen datos sobre cada usuario y pueden predecir sus acciones.
Un problema común con los trabajadores de datos son los recursos limitados, principalmente los recursos financieros y humanos.
En la mayoría de las empresas, los analistas tienen que establecer prioridades estrictas para elegir las fuentes de datos y, por lo tanto, abandonar algunas de ellas.
Además, es necesario tener en cuenta los intereses de las empresas, lo que significa evaluar el retorno de la inversión al trabajar con datos y el posible impacto de los datos en la empresa.
Prioridades y selección de fuentes de datos.
Con recursos limitados para trabajar con estos datos, los especialistas tienen que priorizar y elegir entre las fuentes.
¿Qué se guía por esto y cómo determinar el valor de los datos para una empresa?
El objetivo principal del trabajo de los analistas es proporcionar la información necesaria a otras unidades de manera oportuna y de calidad. Esta información tiene un impacto directo en el rendimiento y los departamentos de la empresa.
Cada departamento o unidad tiene su propio tipo de datos "principal".
Entonces, para el departamento de servicio al cliente, los contactos del cliente y los datos de sus redes sociales son importantes, y para el departamento de marketing, el historial de compras y el mapa de acción.
Entonces resulta que cada equipo tiene su propio conjunto de "datos muy importantes" y estos datos son definitivamente más importantes y más necesarios que los de otras unidades.
Eso es solo por la importancia y la necesidad de los datos, el problema con recursos limitados no desaparece, lo que significa que debemos priorizar y actuar de acuerdo con ellos. El factor principal para priorizar los datos es el ROI, pero no se olvide de la accesibilidad, integridad y calidad.
Aquí hay una lista de algunos indicadores que pueden ayudar a priorizar:
Lista de opciones para priorizarAltaMotivo: los datos se necesitan de inmediato.
Explicación: Si una unidad tiene una necesidad urgente de datos con plazos estrictamente limitados, dichos datos se proporcionan primero.
AltaMotivo: los datos agregan valor.
Explicación: Los datos aumentan las ganancias o reducen los costos al proporcionar un ROI alto.
AltaMotivo: diferentes equipos requieren los mismos datos.
Explicación: Al satisfacer las necesidades de datos de varios equipos, aumenta el ROI.
AltaMotivo: a corto plazo o transmisión de datos.
Explicación: Algunas interfaces y protocolos proporcionan una "ventana" de tiempo limitado para la recopilación de datos; date prisa.
MediaMotivo: Complemento para un conjunto de datos existente que mejora su calidad.
Explicación: Los nuevos datos complementan los existentes y mejoran la comprensión del contexto de las acciones.
MediaMotivo: El código de procesamiento de datos puede ser reutilizado.
Explicación: El uso de código conocido reduce el ROI y la cantidad de posibles errores.
MediaMotivo: los datos son de fácil acceso.
Explicación: si los datos son valiosos, pero obtenerlos es fácil, adelante.
MediaMotivo: La conveniente API le permite recopilar datos de períodos pasados.
Explicación: Si ayer no se requieren datos y siempre puede acceder a ellos, no les dé demasiada prioridad.
BajoMotivo: los analistas tienen acceso a los datos u otras formas de obtenerlos.
Explicación: Si los analistas ya tienen acceso a los datos, entonces quizás haya más tareas prioritarias.
BajoMotivo: mala calidad de los datos.
Explicación: los datos deficientes pueden ser inútiles y, a veces, perjudiciales.
BajoMotivo: necesita extraer de las páginas web.
Explicación: El procesamiento de dichos datos puede ser bastante complejo y requerir un esfuerzo excesivo.
BajoMotivo: baja probabilidad de utilizar datos.
Explicación: Datos que sería bueno tener, pero si no, entonces está bien.
Pero, al poseer estos datos, ¡es posible
robar a las vacas !
Como vemos, no todos los datos son importantes para proporcionar "en este momento", lo que significa que es necesario priorizar y seguir de acuerdo con ellos.
Es importante mantener un equilibrio entre la adquisición de nuevos datos y su valor para la empresa.
Relación de datos
Obtiene datos importantes de ventas, marketing, logística y comentarios de los clientes, pero el mayor valor de los datos surge después del establecimiento de relaciones entre diferentes tipos de datos.
Por ejemplo, considere a Diana y su orden. Recientemente, ordenó un conjunto de muebles de jardín, comparando su pedido con datos analíticos, vemos que pasó 30 minutos en el sitio y observó 20 conjuntos diferentes. Esto significa que ella eligió los muebles que ya están en el sitio, sin saber de antemano qué pediría.
Miramos de dónde vino: resultados de búsqueda.
Si tuviéramos información sobre las otras compras de Diana, descubriríamos que a menudo compraba artículos para el hogar durante el último mes.
Las compras en línea frecuentes y el uso de motores de búsqueda para encontrar tiendas en línea indican baja lealtad a la marca, lo que significa que será difícil persuadirlo para que vuelva a comprar.
Por lo tanto, al recibir cada nuevo nivel de información, se compila un retrato individual del usuario, según el cual puede aprender sobre su vida, apegos, hábitos y predecir su comportamiento.
Agregamos información del pedido y entendemos que se trata de una mujer, y en la dirección de entrega vemos que ella vive en el sector privado.
Continuando con el análisis, puede encontrar información sobre su casa y terreno, predecir sus necesidades y hacer una oferta preventiva.
Con el análisis correcto de los datos, la oferta puede funcionar y convenceremos al cliente para que vuelva a comprar, así como para aumentar su lealtad debido a un enfoque individual.
Ofrecer descuentos por invitar a una amiga de la red social nos dará acceso a su lista de amigos e información de la cuenta, luego será posible continuar un enfoque de marketing individual para el cliente y hacer publicidad dirigida para ella, pero es poco probable que sea rentable.
Recolección de datos y compra
Hoy en día, hay muchas formas de recopilar datos, una de las más comunes es la API. Pero además de recopilar datos, deben actualizarse, y aquí todo ya depende del volumen.
Es más conveniente reemplazar pequeñas cantidades de datos (hasta 100 mil filas) por nuevas, pero con matrices grandes una actualización parcial ya es relevante: agregar nuevas y eliminar valores obsoletos.
Los conjuntos de algunos datos son tan grandes que será demasiado costoso procesarlos para la empresa, en tales casos, hacen una selección y, sobre la base, realizan análisis. A menudo se practica un "
muestreo aleatorio simple ", pero generalmente los datos recopilados con su ayuda no son representativos y son comparables a lanzar una moneda.
Una pregunta importante: ¿para recopilar datos brutos o agregados?
Algunos proveedores de datos proporcionan colecciones ya compiladas, pero tienen varios inconvenientes. Por ejemplo, es posible que no tengan los valores necesarios o deseados que aumentarían el valor de los análisis basados en estos datos para la empresa, pero no podrá recopilarlos ni complementarlos. Los datos recopilados por agregadores externos son convenientes para el archivo y el almacenamiento, y también ahorran significativamente tiempo y recursos humanos.
Pero si es posible recopilar datos sin procesar, entonces es mejor seleccionarlos: son más completos y puede agregarlos usted mismo de acuerdo con sus necesidades y necesidades comerciales, y luego trabajar con ellos según lo necesite.
Muchas empresas recopilan datos de forma independiente y también utilizan los disponibles en fuentes abiertas. Pero en algunos casos, se ven obligados a pagar a terceros para obtener los datos necesarios. A veces, la elección de las ubicaciones de adquisición de datos puede ser limitada, en otros casos no, pero independientemente de esto, al elegir una fuente de datos y tomar una decisión sobre su adquisición, se debe prestar atención a varios factores:
PrecioTodo el mundo ama los datos gratuitos, tanto de gestión como de análisis, pero a veces la información de alta calidad solo está disponible por dinero. En este caso, debe sopesar la racionalidad de la adquisición y comparar el costo y el valor de los datos.
CalidadLos datos están limpios, ¿se puede confiar?
Exclusividad¿Los datos se preparan individualmente para usted o están disponibles para todos? ¿Ganarás una ventaja sobre tus competidores si los usas?
Muestreo¿Es posible obtener una muestra para evaluar la calidad de los datos antes de la adquisición?
Actualizaciones¿Cuál es la vida útil de los datos, con qué rapidez caducan, se actualizarán y con qué frecuencia?
Fiabilidad¿Cuáles son las limitaciones de las interfaces de adquisición de datos, qué otras restricciones se le pueden imponer?
SeguridadSi los datos son importantes, ¿se cifrarán y qué tan confiables son los protocolos? Además, no se olvide de la seguridad de su transferencia.
Términos de usoLicencias u otras restricciones. ¿Qué puede no permitirle aprovechar al máximo los datos?
Formato¿Qué tan conveniente es trabajar con el formato de los datos adquiridos? ¿Es posible integrarlos en su sistema?
La documentaciónSi se le proporciona documentación, es bueno, pero si no, debe preguntar sobre el método de recopilación de datos para evaluar su valor y confiabilidad.
VolumenSi hay muchos datos, ¿puede asegurar su almacenamiento y procesamiento? Los datos valiosos no siempre serán voluminosos, y viceversa.
Nivel de detalle¿Estos datos son adecuados para el nivel de análisis que necesita?
Esto no es todo, sino las preguntas principales e indudablemente importantes que debe hacer antes de comprar datos de proveedores.
Sobre esto terminaré el artículo sobre recolección de datos.
Si la información le fue útil, me complacerá recibir sus comentarios.
Tal vez no esté de acuerdo con algo o quiera compartir sus métodos y mejores prácticas. Los invito a comentar y espero una discusión fascinante y útil.
¡Gracias a todos por su atención y que tengan un buen día!
Fuente de información
Publicado por Karl Anderson
Cultura analítica. Desde la recopilación de datos hasta los resultados comerciales
Crear una organización basada en datos
ISBN: 978-5-00100-781-4
Editorial: Mann, Ivanov y Ferber