Cuatro formas de Yandex Data Analysis School

Yandex ha estado entrenando expertos en ciencia de datos desde 2007. Los estudiantes valoran la Escuela de Análisis de Datos por la relevancia de los programas y cursos de capacitación, pero no siempre entienden lo que les espera después de su finalización. ¿Trabaja con datos en Yandex o en otra gran empresa? Pero cual?



Inicialmente, la escuela tenía dos departamentos: informática y análisis de datos. En 2014, cuando Big Data se puso de moda, apareció una tercera especialización: Big Data. Este año, para que los estudiantes entiendan de inmediato sus perspectivas, llevamos a cabo una reforma de los departamentos: ahora la capacitación se llevará a cabo en el marco de cuatro pistas profesionales. Nuestra primera prioridad es informarle al alumno sobre posibles vías de desarrollo y ayudarlo a comprender qué cursos ayudarán a lograr el objetivo.

Las pistas profesionales no se resaltaron por casualidad: estas son cuatro formas en que los graduados ingresan con mayor frecuencia después de graduarse de ShAD (y algunas ya durante sus estudios). Para cada uno de estos cuatro caminos, encontramos un graduado que lo eligió y habló con ellos para comprender qué cursos fueron más útiles para el trabajo futuro y cómo eligieron su vocación profesional.

Científico de datos (Nikita Popov, graduada de 2016):

“Científico de datos, como ahora se llama a los analistas de todas las tendencias. En Yandex, estamos acostumbrados a creer que un científico de datos es una persona que domina el aprendizaje automático y las estadísticas y, lo más importante, en la práctica puede extraer información útil de una gran cantidad de datos.

Actualmente estoy trabajando en el equipo de métricas de búsqueda. Estamos trabajando para evaluar la calidad de nuestra búsqueda, para elegir qué dirección mover y cuál de los muchos experimentos en curso realmente aumentará la "felicidad del usuario". Ingresé al equipo a través de una pasantía justo después del final del SHAD. La escuela de análisis de datos me ha dado una base excelente: el aprendizaje automático y los cursos de modelos probabilísticos son exactamente lo que uso todos los días hábiles.

Al llegar al SHAD, todavía no entendía lo que quería hacer, y entré en la empresa con mis compañeros de clase, pero desde los primeros seminarios se hizo evidente que el SHAD era increíblemente interesante. Fue allí donde me di cuenta de lo que quería hacer. Creo que todo científico de datos debe estar bien versado en varios métodos de aprendizaje automático, conocer sus ventajas, desventajas y alcance, ser capaz de encontrar dependencias en los datos y sacar las conclusiones correctas basadas en ellos. A pesar de que trabajo como analista, muchas veces tengo que lidiar con el desarrollo. Recientemente agregué un servicio para el cual desarrollé tanto un frontend, un backend como los algoritmos mismos: un científico de datos debería ser capaz de hacer todo ".

Desarrollador de aprendizaje automático (Zhenya Zakharov, graduado de 2018):

"Incluso en la universidad, me gustaban las tareas, donde las matemáticas juegan un papel importante, pero el resultado puede ser" tocado ". Mi trabajo actual cumple bastante bien estas dos condiciones: implementamos varios algoritmos, modificándolos simultáneamente para que funcionen más rápido, más alto y más fuerte con nuestros datos. Uno de los indicadores clave para nosotros es la productividad. Hay muchos datos y el algoritmo debería poder predecir y aprender rápidamente en un tiempo razonable.

Tenía mucha programación en la universidad, pero los cursos de ShAD difieren en tareas algorítmicamente más complejas, con un mayor énfasis en el rendimiento y la limpieza del código.

SHAD me dio un buen conjunto de habilidades básicas que uso todos los días: aprendizaje automático en sus diversas formas, estadísticas aplicadas, algoritmos y una idea de cómo debería verse el código industrial. El proyecto del curso Big Data resultó ser muy relevante, donde mi equipo y yo escribimos un aumento de gradiente, tratando de atrapar a LigthGBM en velocidad, lo cual no logramos, pero aun así logramos alcanzar un tiempo comparable ".

Especialista en infraestructura de Big Data (Vlad Bidzila, graduado de 2017):

“Desde la escuela secundaria, quería participar profesionalmente en la programación. Ingresé al SHAD cuando estaba en mi tercer año en la universidad. Abrió ante mí un valiente mundo nuevo de aprendizaje automático y minería de datos, sistemas altamente eficientes con un montón de algoritmos en la unión de las matemáticas y la programación aplicadas.

Durante varios años, trabajé en Yandex en el equipo de calidad del ranking de búsqueda de videos. Los cursos avanzados de C ++ y Python de ShAD me ayudaron a involucrarme rápidamente en el flujo de trabajo, desde escribir programas académicos en la universidad hasta serios códigos de producción en la empresa.

Recientemente, he estado trabajando en el servicio de tecnologías informáticas distribuidas. Estamos desarrollando el sistema YT MapReduce: habr.com/company/yandex/blog/311104 . Aquí, el conocimiento y las habilidades adquiridas en ShAD también resultaron ser extremadamente útiles: un curso sobre algoritmos clásicos y estructuras de datos inculcó una cultura algorítmica, desarrolló la capacidad de escribir rápidamente código eficiente y limpio con un número mínimo de errores y una estructura comprensible, para comprender soluciones algorítmicas complejas; un curso sobre algoritmos para trabajar con grandes volúmenes de datos demostró las dificultades que surgen al procesar una matriz de datos que no cabe en la memoria de la computadora, y los métodos para lidiar con estas dificultades, proporcionaron una comprensión de los patrones básicos para construir algoritmos en la memoria externa y algoritmos de transmisión, y desarrollaron prácticas básicas habilidades de escritura; El curso sobre computación paralela y distribuida introdujo las construcciones básicas de programación multiproceso y distribuida, aplicada en todas partes y en todas partes del sistema desarrollado.

Además, vale la pena señalar que, gracias a ShAD, pude conocer profundamente los cursos matemáticos aplicados, que a menudo quedan fuera del programa universitario clásico: la teoría de la información y la complejidad computacional, las matemáticas discretas avanzadas, el análisis estadístico, la optimización combinatoria y convexa. Este conocimiento combina las matemáticas teóricas y la industria de TI de alta tecnología ".

Especialista en Análisis de Datos en Ciencias Aplicadas (Nikita Kazeev, graduada 2015):

“Estoy trabajando en la aplicación de métodos de aprendizaje automático para los problemas de física fundamental en el CERN como estudiante graduado en la HSE y la Universidad Sapienza de Roma.

Le gustaba la física de la escuela, fue ganador de un premio de la Olimpiada de toda Rusia, fue a FOPF MIPT. En gran parte debido a consideraciones idealistas: si no haces ciencia, ¿entonces qué? Pero siempre atraído por las computadoras. El trabajo de Bachelor se dedicó al modelado por computadora de plasma no ideal, y tenía muchos algoritmos y C ++.

En el cuarto año, ingresé al SHAD, y un año después fui invitado al emergente grupo de proyectos educativos y científicos internacionales en Yandex. Ahora se ha transformado en un laboratorio conjunto de Yandex y HSE - LAMBDA. No solo hacemos cosas con nuestras manos, sino que también enseñamos a los físicos el aprendizaje automático, así que enseñé en Oxford. En nuestra escuela de verano, pero aún así;)

¿Cuál de los ShAD es útil? Muchas cosas

  • Curso de algoritmos: una cultura de programación general y, de repente, algoritmos. Fue divertido en dos horas acelerar el simulador físico diez veces simplemente agregando kd tree en lugar de una búsqueda exhaustiva.
  • Aprendizaje automático, aprendizaje profundo: pan y mantequilla, especialmente, de repente, la parte teórica. En física de alta energía, uno tiene que lidiar con problemas no estándar en los que importar xgboost no es suficiente.
  • Adaptación del dominio: ¿cómo combinar consideraciones físicas y aprendizaje automático para crear un algoritmo que se capacitará en datos simulados y se aplicará a datos reales? ¿Qué pasa si la muestra de entrenamiento está sucia, pero hay pesos negativos que la limpian? ¿Cómo medir la precisión de restaurar la distribución GANom?
  • Gran procesamiento de datos: tuve que usar Hadoop.
  • Un curso de producto reciente: trabajamos como parte de una colaboración de 1,000 personas, y muchos de nuestros resultados no son un descubrimiento científico puro, sino una herramienta diseñada para otras personas. Por ejemplo, el proyecto con el que comencé como aprendiz, el índice de búsqueda de eventos que registra el detector, terminó no siendo necesario, a diferencia del sistema de monitoreo con el cual se monitorea la calidad de los datos del detector en este momento.

En general, estarás en Ginebra, ven a visitarnos, es interesante aquí :) ".

Source: https://habr.com/ru/post/es422761/


All Articles