Fuerte "caffe" para el desayuno y los hackathons: por qué es importante para el desarrollo de la comunidad de Data Science

Soy científico de datos en el equipo de Data Lake Platform en Raiffeisenbank. Hace tres años, el banco no tenía una línea de Big Data, y ahora tenemos una plataforma separada para trabajar con Big Data y una comunidad en desarrollo activo. A medida que se desarrolla la cultura basada en datos, enfrentamos muchas preguntas: técnicas, de comunicación y más.

En el artículo quiero decir cómo nuestra comunidad Raiffeisen Data University ayuda a resolver algunos de ellos.



Problemas de escalabilidad


Hace un par de años, todos los científicos de datos vivían por separado, cada uno en sus propias tareas, nadie pensaba en ninguna comunidad. Hay cada vez más ideas que requieren conocimiento en el campo del análisis de datos, así como unidades con científicos de datos en el estado.
Varias dificultades comenzaron a aparecer:

  • Comunicación entre DS:
    • no se sabe con qué casos comerciales trabajan ahora los colegas;
    • cada equipo está aserrando su propia bicicleta para implementar la misma funcionalidad.

  • Lado técnico:
    • la búsqueda de datos de entrada para modelar es opaca;
    • el código no se reproduce en datos nuevos;
    • los recursos del clúster no se utilizan de manera óptima;
    • El proceso de salida de un modelo a un producto no está unificado.

  • Interacción con clientes comerciales:
    • No todos los clientes tienen una idea de lo que se puede resolver
      aprendizaje automático, cuáles son las limitaciones y cómo configurar la tarea.

¿De qué lado abordar estos problemas y comenzar la ruta de desarrollo hacia una empresa madura basada en datos? Puede idear diferentes estrategias: reunir a todos los Científicos de Datos en un departamento grande o agregar Jefe a todos los equipos y contratar a otro Jefe Jefe que construya un vector de desarrollo. Decidimos ir por el otro lado.

Así nació la idea de Raiffeisen Data University - RDU. Esta no es una universidad en su comprensión estándar, es un mecanismo flexible que ayuda a los científicos de datos a resolver sus problemas a través de la organización de diversas actividades. ¿Cómo tiene éxito?

Todo ingenioso es simple


Primero, era necesario presentar y sincronizar personas de diferentes divisiones comerciales. Lo más simple que viene a la mente es organizar una reunión.

El primero tuvo lugar hace unos dos años, se reunió con científicos de datos de diferentes departamentos, que luego no sabían sobre la existencia del otro. Ahora los mitaps se han convertido en algo común. Nos encontramos con nuevos colegas en ellos, compartimos casos resueltos o lo que está en el proceso. Puede lanzar sus ideas al orador, hacer preguntas difíciles sobre las métricas o la calidad de los datos. O puede organizar un taller sobre herramientas prácticas que se incluyeron en su proyecto. Se plantea una variedad de temas específicos: cómo se organiza el modelo CI / CD en el producto, la arquitectura del modelo del caso resuelto, la declaración del problema desde el negocio y la complejidad de la solución, y muchos otros. Anteriormente, todo se llevaba a cabo en una audiencia secreta, donde solo permitían a aquellos que habían pasado el rito de iniciación.

Ahora ya hemos acumulado una experiencia útil que se puede compartir. Los mitaps internos nos ayudan a resolver las dificultades técnicas y de comunicación. Y junto con el proyecto ML REPA , se celebró la primera reunión abierta para todos.

Fuerte "caffe" para el desayuno


Las mitapas requieren algo de preparación y ocurren aproximadamente una vez al mes o dos. Y algo nuevo e interesante sucede todo el tiempo, por eso nos reunimos en el desayuno de Data Science para mantener las comunicaciones. El número de participantes varía y se despertó a tiempo .

En el desayuno, además de los beneficios y las emociones positivas de hablar con personas de ideas afines, obtienes una gran cantidad de información útil sobre nuevas bibliotecas y algoritmos, resuelves tu problema con la arquitectura de la aplicación o descubres qué recursos pronto se incluirán en el clúster. El beneficio de tales reuniones cortas a veces no es menor que el de los grandes mitaps.

Mejora de la tasa de aprendizaje


"¡Incluso más ganancias, aún más conocimiento!" Lo deseamos abiertamente. Así que había un elemento competitivo: brechas, como las llamamos. Se inspiraron en la idea del entrenamiento de aprendizaje automático en Yandex, personalizándose según sus necesidades y capacidades. La competencia de datos abiertos comienza durante aproximadamente tres semanas:

  • en la primera semana todos nos reunimos y presentamos posibles ideas para una solución (muy similar a los talleres deportivos de DMIA);
  • en la segunda semana, una reunión intermedia: analizamos quién tiene algún tipo de enchufes, estamos motivados para decidir más;
  • seguido de una sesión informativa, anuncio de los ganadores, una discusión sobre lo que pasó y lo que no.

En el marco de una competencia, tratamos de concentrarnos en un tema: datos sucios, series de tiempo, análisis de texto. Todos eligen herramientas que les interesa probar, pero que aún dudan, o lo que debería brindar los máximos resultados en la clasificación. La parte más genial fue sobre el aprendizaje por refuerzo: había que entrenar a su agente para interactuar con el entorno de Atari. En resumen, los organizadores de la competencia nos dieron una batalla entre bots y personas en tres juegos: Packman, Break Out, Space Invaders.
Como resultado, la gente ganó en Packman por un amplio margen, en el resto: la humanidad perdió ante Skynet.



Descubre el científico de datos


Los gerentes tampoco se quedaron solos. Un hackathon interno de un día para todos aquellos que están conectados con la analítica, pero que no comprenden bien cómo se organizan los datos, es una buena oportunidad para sumergirse rápidamente en la cocina de las tareas de Data Science. Al comienzo del día, se realiza una conferencia de revisión sobre conceptos, algoritmos y las métricas más comunes en problemas de clasificación y regresión. Después de esto, se considera un caso real, que los participantes están invitados a resolver en nuestros datos. El tiempo para una solución es de aproximadamente 4 horas, por lo tanto, para que todo funcione, se envía un Data Scientist para ayudar a cada equipo.

Estuve en uno de estos hackatones como manos que implementarán las ideas propuestas por los gerentes, así como el razonamiento directo en una dirección constructiva. La tarea requería construir un modelo de salida de clientes sobre la base de datos reales durante seis meses (se especificó la condición de la salida), así como estimar qué efecto económico traería este modelo. Todo salió mal con nosotros durante la decisión, los códigos se rompieron de principio a comienzo; esto permitió que el equipo sintiera toda la complejidad de la creación de características, pero había muchas ideas que Data Scientist podría no haber adivinado de inmediato debido a la falta de experiencia empresarial. .

Gracias a tales eventos, los gerentes aprenden a evaluar de manera más objetiva los plazos para completar las tareas de DS, aprender sobre las dificultades y la importancia de la métrica de calidad establecida originalmente. Y Data Scientist le permite comprender la visión de la tarea a través de los ojos del gerente, para determinar qué puntos deben resaltarse inmediatamente al comienzo de la colaboración.

Los más fuertes sobrevivirán


Pero lo más interesante suele suceder en septiembre, cuando el equipo de DS se va para un hackathon de dos días en la naturaleza, en un lugar muy pintoresco con una infraestructura conveniente. Los organizadores invitan a mentores externos con experiencia al hackathon. El año pasado, Emeli Dral y Alexander Gushchin prepararon una tarea para determinar el género de una película a partir de un diálogo. Casi 40 mil diálogos de la muestra de capacitación, 20 géneros diferentes de 438 películas: se trataba de películas con subtítulos en inglés.

Escuchamos una breve excursión sobre el tema de PNL: métodos de preprocesamiento de texto, enfoques de aprendizaje simples y más complicados utilizando DL; Hablamos por separado sobre el trabajo en equipo en proyectos de ML: cómo organizar el código y cómo ahorra tiempo. Mientras escuchan las presentaciones, los más activos ya han descargado texto rápido e incrustaciones de guantes en sus computadoras portátiles.

Después de la conferencia, comenzó una competencia en el formato kaggle inclass con clasificación pública / privada. Nos dividimos en equipos: la combinación máxima para que el equipo ni siquiera tuviera dos personas del mismo departamento. Hubo 24 horas para todo sobre todo.

Alguien inició un servidor doméstico remoto, alguien se apresuró a implementar el entorno en las nubes, incluso hubo quienes arrastraron la unidad del sistema con ellos, ¡lo intentaron lo mejor que pudieron! Durante el día, los equipos generaron una amplia variedad de ideas para resolver: desde el uso de Elastic Search para encontrar textos similares hasta los resultados vidriados de conjuntos de modelos que no pueden reproducirse con sobriedad al día siguiente.

Para resumir y comparar el trabajo de los modelos, además de calificar en una tabla de clasificación privada, decidimos organizar una demostración interactiva: vea cómo funcionan los modelos envueltos en servicios. Los organizadores abordaron esto con humor e incluyeron un fragmento de la película "El quinto elemento", donde el texto parece ser algo terrible, pero de hecho hay una escena divertida con Chris Tucker . La mayoría de las modelos cometieron un error al respecto y predijeron un thriller, drama, pero no comedia.



Como resultado, el conjunto de modelos lineales, potenciados con características hechas a mano sobre la base de la agrupación y otras transformaciones chamánicas ganó, las neuronas estaban presentes en las soluciones 2 y 3 del lugar. Además de los premios geniales (el premio principal es un viaje a NIPS u otra conferencia genial), regresas del hackathon con nuevos amigos que has probado en la batalla, que compartirán conocimientos y habilidades contigo. Al final, ni siquiera quería salir de este lugar con una naturaleza pintoresca y una compañía acogedora.

En lugar de una conclusión


En este artículo, compartí los desafíos de convertirse en una cultura de ciencia de datos en una empresa y cómo Raiffeisen Data University ayuda a los científicos de datos en el camino.

Por supuesto, no todos los problemas se han resuelto, pero ahora tenemos una comunidad de datos más cohesiva y madura que hace un par de años, y estamos listos para resolver los nuevos desafíos que enfrentamos.

Es muy interesante si hubo problemas similares en su trabajo, ¿quién los resolvió y cómo?
¿Quizás alguien compartirá trucos de la vida de su experiencia? ;)

Source: https://habr.com/ru/post/469203/


All Articles