Hola a todos!
En Halloween, asistí a una conferencia en Budapest ( Data Crunch ) y escuché varias presentaciones interesantes. Uno de ellos era de Uber, quien habló sobre los enfoques en los que organizaron su plataforma de gestión de datos. Este informe no fue tanto técnico como administrativo y de comestibles.
Uber hace un uso extensivo de los datos que recopila como resultado de las interacciones con pasajeros y conductores. Calculan el costo del viaje, evalúan el flujo de personas, cambian los algoritmos de precios, dan recomendaciones a los conductores sobre cómo pueden ganar más dinero y todo esto en función de los datos recopilados. En una empresa así, todo el trabajo con datos no puede concentrarse en manos de un grupo de analistas y DS, porque de lo contrario, tendrán que contratar a demasiados y, además, no siempre están inmersos en el contexto empresarial.
Desde el principio, la compañía tomó el camino de construir una plataforma de gestión de datos que permitiera el uso de herramientas analíticas bastante avanzadas para una amplia gama de usuarios. Identificaron 4 grupos principales:
- Usuarios ordinarios: conocen SQL básico, básicamente solo necesitan tablas de datos, paneles)
- Gerentes regionales: conocen un poco más de SQL, miran los datos en diferentes secciones, existe una gran necesidad de cortar y cortar
- Analistas de datos: SQL avanzado, construir paneles, investigar, buscar información en los datos
- Ciencia de datos: el nivel máximo de comprensión de trabajar con datos, construir modelos, realizar experimentos, pruebas A / B, etc.
Al margen, también aprendí de ellos que, de hecho, hay un quinto nivel: los gerentes superiores que utilizan principalmente informes y paneles de alto nivel.
Curiosamente, en Uber, las personas que trabajan de alguna manera con datos deben conocer SQL al menos al nivel mínimo.
Como ejemplo del producto que crearon sobre la base de su plataforma, citaron la automatización de las pruebas A / B. La compañía gasta una gran cantidad de A / B y asigna a cada Científico de Datos, para que organice un experimento y luego evalúe las pruebas, una vez más, no es un lujo permitido. Por lo tanto, les gustaría dar a los usuarios comunes la oportunidad de interpretar y usar A / B correctamente y sin errores, sin cargar el Data Scientist.
La construcción de este producto comenzó con un trabajo profundo con Data Scientist, como Si estos tipos no están seguros de que todo se considere correcto, entonces no saldrá ningún producto de datos. De hecho, comenzaron a automatizar el lanzamiento y la evaluación de las pruebas A / B, dando a Data Scientist una herramienta para facilitarles la vida. Después de eso, crearon una interfaz en esta herramienta que mostraría los resultados de la prueba en una forma simple (qué se lanzó, qué diferencia, si la diferencia es significativa). Al mismo tiempo, ocultaron "bajo el capó" la cantidad máxima de matices inherentes a las pruebas A / B para que el usuario no necesitara profundizar en las matemáticas y las estadísticas.
Curiosamente, la mayoría de las personas con las que hablé sobre los descansos para tomar café dijeron que no tienen pruebas A / B en su práctica, que usan mucha investigación cualitativa e intuición al tomar decisiones. Entonces, como en otros lugares, una vez que piensas, ¡debes cortar!