El autor del material mantuvo una serie de conversaciones con expertos en el campo del análisis y procesamiento de datos y llegó a conclusiones sobre las perspectivas y las direcciones del desarrollo de los científicos de datos.La teoría y los métodos de procesamiento de datos han simplificado la solución de varios problemas en el campo de la tecnología. Esto incluye la optimización de los resultados de búsqueda de Google, recomendaciones en LinkedIn, la formación de encabezados en Buzzfeed. Sin embargo, trabajar con datos puede afectar significativamente a muchos sectores de la economía: desde el comercio minorista, las telecomunicaciones, la agricultura hasta la atención médica, el transporte de mercancías y los sistemas penales.
Sin embargo, los términos "ciencia de datos", "teoría y métodos de análisis de datos" y "científico de datos" no se entienden completamente. En la práctica, se utilizan para describir una amplia gama de métodos de trabajo con información.
¿Qué hacen realmente los expertos en ciencia de datos? Como anfitrión del podcast
DataFramed, tuve la gran oportunidad de entrevistar a más de 30 expertos en análisis de datos de una amplia gama de industrias y disciplinas académicas. Entre otras cosas, siempre pregunté en qué consiste exactamente su trabajo.
La ciencia de datos es un campo realmente vasto. Mis invitados abordaron nuestras conversaciones desde varias posiciones y puntos de vista. Describieron una variedad de actividades, incluidos los marcos de desarrollo de productos en línea a gran escala en booking.com y Etsy, los métodos utilizados por Buzzfeed para resolver el problema de los bandidos multibrazos en la optimización de los títulos de los materiales y el impacto que el aprendizaje automático tiene en las decisiones comerciales de airbnb.
El último ejemplo fue expresado por Robert Cheng, especialista en análisis de datos de Airbnb. Cuando trabajó en Twitter, la compañía se centró en el crecimiento. Ahora en Airbnb, Cheng está desarrollando modelos masivos de aprendizaje automático.
Los enfoques para la aplicación de la teoría del análisis y el procesamiento de datos pueden ser muy diferentes, y la elección de una solución depende no solo de la industria, sino también del tipo de negocio y sus tareas.
Sin embargo, a pesar de la diversidad, una serie de temas comunes son claramente visibles en todas las entrevistas.
¿Qué hacen los expertos en ciencia de datos?
Sabemos cómo funciona la ciencia de datos, al menos en la industria de la tecnología. Los investigadores primero establecen una base sólida en forma de información recopilada para realizar un trabajo analítico exhaustivo. En la siguiente etapa, ellos, entre otras cosas, usan experimentos en línea para un progreso sostenible en la solución del problema. Como resultado, se crean métodos de aprendizaje automático y productos especializados que procesan los datos necesarios para comprender mejor su negocio y tomar mejores decisiones. Es decir, la esencia de los métodos de procesamiento de datos en el campo de la tecnología se reduce a la construcción de infraestructura, la realización de pruebas y el aprendizaje automático para tomar decisiones y crear productos de información.
Se están dando grandes pasos en otros sectores no tecnológicos.
En una de las reuniones, Ben Skrainka, un especialista en procesamiento de datos en Convoy, y yo examinamos el uso efectivo de los métodos de procesamiento de información para innovar en la industria de transporte de carga de América del Norte. Y Sandy Griffith, de Flatiron Health, habló sobre el importante papel que juega el análisis de datos en el estudio del cáncer. Junto con Drew Conway, hablamos sobre su empresa Alluvium, que "utiliza inteligencia artificial y aprendizaje automático para identificar patrones útiles basados en flujos de datos a gran escala generados durante la operación de sistemas industriales". Mike Tamir, actual jefe del departamento de conducción autónoma de Uber, habló sobre trabajar en Takt, donde Tamir ayudó a las compañías Fortune 500 a introducir métodos de análisis y procesamiento de datos. Entre otras cosas, compartió su experiencia en el desarrollo de un sistema de recomendación para Starbucks.
El análisis de datos no es solo la perspectiva de automóviles autónomos e inteligencia artificial
Muchos invitados de mi podcast se mostraron escépticos sobre la generalización del fetiche de la IA por parte de los medios populares (por ejemplo: el artículo de VentureBeat "Un dios de la IA será creado para 2042, quién escribirá su biblia. ¿Lo adorarán?") Y la exageración que rodea la máquina y la profundidad aprendizaje Por supuesto, ambas áreas son enfoques poderosos con ejemplos importantes de aplicaciones prácticas. Pero esa emoción siempre debe tratarse con una parte de escepticismo saludable. Casi todos mis invitados notaron que los investigadores reales en estas áreas se ganan la vida recolectando y filtrando datos, creando tableros e informes, haciendo visualización de datos y análisis estadísticos. Además, deben poder transmitir la esencia de los resultados a los actores clave y convencer a los tomadores de decisiones.
El conjunto de habilidades exigidas por la profesión del científico de datos cambia y se renueva constantemente (y tener experiencia trabajando con capacitación en profundidad no es el requisito principal)
En una conversación con Jonathan Nolis, uno de los principales analistas de datos de Seattle que trabaja con compañías de Fortune 500, discutimos la siguiente pregunta: "¿Cuál de las dos habilidades es más importante para un profesional de datos es la capacidad de usar modelos complejos de profundidad entrenamiento o la capacidad de dibujar buenas diapositivas en PowerPoint? Nolis argumentó a favor de este último, creyendo que una explicación accesible de los resultados del análisis sigue siendo un elemento clave para trabajar con la información.
Otro tema popular es la variabilidad de un conjunto de habilidades básicas. La relevancia de algunos de ellos puede cambiar en el futuro previsible. El rápido desarrollo de herramientas comerciales y de análisis de datos abiertos ha llevado al hecho de que ahora estamos presenciando una transición masiva hacia la automatización de muchas tareas rutinarias, como la limpieza de datos y su preparación inicial. Hasta ahora, era
común cuando el 80% del valioso tiempo del investigador se dedicaba a la búsqueda simple, el filtrado y la estructuración de datos, y solo el 20% a su análisis. Pero es poco probable que este estado de cosas persista. Hoy, la automatización incluso ha alcanzado los procesos de aprendizaje automático y profundo. En particular, en un podcast separado que está completamente dedicado a tales problemas, Randal Olson, un especialista líder en análisis y procesamiento de datos en Life Epigenetics, habló sobre esto.
Según los resultados de la entrevista, la abrumadora mayoría de mis invitados cree que la capacidad de crear y utilizar infraestructuras de aprendizaje profundo no es en absoluto clave. En cambio, indican la capacidad de aprender sobre la marcha y la capacidad de explicar correctamente cálculos analíticos complejos a los participantes clave en el proceso, lejos de los problemas técnicos. Por lo tanto, los especialistas decididos en el campo del procesamiento y análisis de datos deben prestar un poco más de atención a la presentación correcta del material que a los métodos de procesamiento de información. Los nuevos métodos van y vienen, pero el pensamiento crítico y las habilidades profesionales cuantificables numéricamente siempre serán relevantes.
La especialización es cada vez más importante.
A pesar de la falta de una carrera profesional clara y el apoyo insuficiente para los profesionales novatos, ya estamos observando la aparición de algunas áreas de especialización. Emily Robinson describió la diferencia entre los científicos de tipo A y B. Según ella, el tipo A incluye analistas cuyas actividades están cerca de las estadísticas tradicionales, pero los representantes del tipo B se dedican principalmente a la creación de modelos de aprendizaje automático.
Jonathan Nolis divide la ciencia de datos en tres componentes. El primer componente es el análisis empresarial, que se reduce a "tomar los datos de la empresa y proporcionarlos a las personas adecuadas" en forma de paneles, informes y correos electrónicos. El segundo es la teoría de la decisión, que tiene como objetivo "tomar datos y ayudar a la empresa a tomar la mejor decisión con su ayuda". El tercer componente es el aprendizaje automático, donde los especialistas buscan responder la pregunta "¿Cómo podemos aplicar conscientemente modelos analíticos de información en un proyecto real?" A pesar del hecho de que muchos especialistas avanzados en sus actividades cubren las tres áreas, las carreras profesionales concretas ya han comenzado a tomar forma, como es el caso de los ingenieros de aprendizaje automático.
Cuestiones éticas y morales: un desafío serio
Probablemente adivine que los representantes de la profesión analítica encuentran una cantidad considerable de incertidumbres en su camino. Cuando le pregunté a Hillary Mason en el primer episodio de nuestra conversación si hay otras dificultades que enfrenta la comunidad profesional, ella respondió: “¿Realmente cree que carecemos de las pautas morales, las prácticas estándar y la terminología simplificada en esta etapa de desarrollo? ? "
Los tres puntos son realmente importantes, y los dos primeros problemas preocupan a casi todos los invitados del podcast DataFramed. ¿Qué papel jugará la moral en condiciones en las que los algoritmos desarrollados por analistas de información nos dictan cómo interactuar con el mundo exterior?
Como dijo en una entrevista Omuju Miller, jefe de especialistas en aprendizaje automático de GitHub:
Es necesario formular una comprensión de los valores morales básicos, desarrollar un esquema para entrenar especialistas y hacer algo así como un juramento hipocrático. Y necesitamos licencias reales para castigar o despojar la práctica de un especialista que ha ido más allá de la ética. Debe quedar claro que nosotros, como industria, nos oponemos a tales actos. Y, por supuesto, es necesario ayudar de alguna manera a aquellos que cometen violaciones graves y a aquellos que se desvían de las reglas de ignorancia para ayudar a mejorar porque no pasaron la capacitación necesaria.
El tema actual es las consecuencias graves, dañinas e inmorales del uso de la ciencia de datos, como fue el caso con la calificación de riesgo de reincidencia de COMPAS, "que se usó para predecir e identificar futuros delincuentes" y, según
ProPublica , resultó ser "parcial contra las personas negras". a los estadounidenses ".
Poco a poco estamos de acuerdo en que los estándares éticos deben nacer dentro de la comunidad de analistas profesionales, así como obtener el apoyo de legisladores, movimientos sociales y otras partes interesadas. En parte, se hace especial hincapié en la capacidad de interpretación de los modelos en comparación con las soluciones modernas que funcionan según el principio de una caja negra. Es decir, es necesario crear modelos que puedan explicar por qué hicieron este o aquel pronóstico. El aprendizaje profundo hace frente a muchas tareas, pero es famoso por su inexplicabilidad. Investigadores, desarrolladores y analistas de datos dedicados están progresando en esta dirección a través de proyectos como
Lime para explicar cómo funcionan los modelos de aprendizaje automático.
La revolución masiva en el análisis de datos en las industrias humanas y la sociedad acaba de comenzar. Todavía no está claro si la profesión de especialista en análisis de datos seguirá siendo el
trabajo más atractivo del siglo XXI , si se centrará más o simplemente se convertirá en un conjunto de habilidades que los investigadores deberían tener. Como dijo Hilary Mason: “¿Existirá la ciencia de datos en 10 años? "Recuerdo un mundo en el que ella no estaba, y no me sorprendería si esta profesión enfrentará el mismo destino que la profesión de un webmaster".
