Cómo estudié ciencia de datos

Mi nombre es Azat Bulyakkulov. Trabajo como analista de riesgos en la empresa fintech ID Finance. Comencé con análisis, creando informes para los departamentos de riesgo, marketing y finanzas. En nuestra empresa relativamente pequeña, tuve que interactuar con todos los departamentos. Como resultado, logré obtener una experiencia profesional diversa. Participé en el cálculo de reservas para finanzas, comparé el desempeño en pruebas A / B, clientes segmentados para mercadeo, etc. En menos de un año de trabajo, me uní al desarrollo de tarjetas de puntaje. Y me di cuenta de que quiero comprender mejor el análisis y el procesamiento de datos.

imagen


Utilizamos regresiones logísticas clásicas para predecir los valores predeterminados de los clientes. Una de las fuentes de nuestros datos son las transacciones financieras, a las cuales, si lo desea, los clientes nos brindan acceso. Trabajar con ellos requería un enfoque creativo, ya que se podía extraer mucha información útil de este almacén de datos. Como más tarde aprendí, este proceso se llama ingeniería de características. Me capturó, me interesé aún más en la ciencia de datos.

Al trabajar con otros departamentos, vi que el alcance para aplicar ML es enorme. El hecho de que estábamos desarrollando en el pesado SAS-e no jugó el menor papel en mi interés en DS. No tiene la interfaz más conveniente y la funcionalidad incompleta. Quería trabajar con una herramienta más flexible.

Me di cuenta de que el autoestudio de la ciencia de datos, por ejemplo, en Coursera, requiere una fuerte voluntad y autodisciplina, que no tengo lo suficiente. Por lo tanto, comencé a mirar no hacia cursos en línea, sino hacia cursos "en vivo" con conferencias, debates y tareas.

Informé a mi supervisor en el trabajo sobre la dirección en la que quiero desarrollar. La gerencia vino a conocerme y me ofreció pagar los cursos, y luego ir al departamento de ciencia de datos dentro de la explotación.

Entonces, comencé a elegir cursos. Curiosamente, los cursos en línea prevalecen en el mercado educativo de DS. Incluso en Moscú no hay una gran selección de cursos serios que no estén al estilo de "le enseñaremos ciencia de datos en 21 días". Comprendí que la formación de calidad debería durar al menos seis meses. No consideré Yandex SHAD, ya que requiere una inmersión total y actividades diarias. Trabajando a tiempo completo, sería difícil absorber y procesar material educativo de manera de alta calidad. Mirando hacia el futuro, diré que en el curso elegido tuve problemas con el tiempo para estudiar, sin mencionar el curso gratuito. Como resultado, paré en el curso de Data Scientist de una de las escuelas populares que duró seis meses: 5 meses de entrenamiento intensivo + un mes para escribir un diploma.

Sobre el curso


La formación cuesta alrededor de 200,000 rublos. Hubo muchas clases, 3 veces por semana durante 3 horas. Después de aproximadamente 2 de cada 3 clases, había tarea. El programa era clásico e incluía los métodos básicos de aprendizaje automático, sistemas de recomendación, reconocimiento de imágenes, visión artificial, procesamiento del lenguaje natural (PNL), series de tiempo. Además, había varios hackatones y un diploma para aquellos que entregarían la cantidad mínima requerida de tarea.

imagen

Las clases se llevaron a cabo en Baumanskaya, 30 personas se inscribieron en el grupo, pero caminaron constantemente 15-20. Practicaba dos veces por la noche entre semana y sábados de 10:00 a 13:00. Es curioso que personas de diferentes campos, no necesariamente relacionadas con TI, vinieran a los cursos. Sí, había desarrolladores front / backend, pero la mitad del curso estaba relacionado con productos / negocios o análisis de riesgos. Y para casi todos, estos cursos significaron un cambio de profesión. Algunos vinieron porque ahora hay una cierta exageración en torno a la ciencia de datos, otros están aburridos con sus actividades actuales, mientras que otros planean usar DS en su trabajo. Casi todos pagaron la capacitación por su cuenta, por lo que el nivel de interés fue bastante alto.

Mis impresiones


Todo comenzó con conocimientos básicos y habilidades de programación en python, visualización de datos. Luego cambiamos a galope y comenzamos a seguir un método de aprendizaje automático en una lección: árboles cruciales, regresión lineal / logística, bosques aleatorios, refuerzos. Personalmente, creo que lleva más tiempo aprender estos métodos clásicos.

Lo que me gusto


  • Estudiamos casi todos los métodos y enfoques modernos de aprendizaje automático.
  • Hubo un bloque separado en ingeniería de características, hasta 3 lecciones. Esta es información útil, pero, desafortunadamente, el profesor no leyó esta parte de la mejor manera.
  • Parte de la tarea era de la competencia de Kaggle. Después de enviar los resultados, puede ver su posición. Después de eso, hubo una motivación para mejorar su modelo, ajustar sus parámetros y no solo hacer la tarea en el "infierno".
  • Hubo cursos en profundidad sobre sistemas de recomendación, PNL y visión por computadora, cada uno con 6-8 clases. Y, en mi opinión, había los mejores profesores.
  • Después de bloqueos en la visión por computadora y series de tiempo, hubo 2 hackatones.

Esto resultó ser un ejercicio muy útil. La necesidad de obtener un resultado aceptable en un mínimo de tiempo activa y carga el cerebro al máximo. Además, cuando trabajas en equipo, ves los enfoques de otras personas.

  • En mi cuenta personal había una calificación de estudiante, donde vi el progreso de mis compañeros en la tarea. Eso fue útil. Desde el receso me acerqué a los "nerds" y les pregunté cómo hicieron esta o aquella tarea.
  • La ventaja de las conferencias "en vivo" son las preguntas durante la lección.
  • En la audiencia, siguiendo las instrucciones del profesor, hicimos pequeños ejercicios inmediatamente en Python.
  • Comunidad estudiantil: comunicación con los compañeros de clase, intercambio de opiniones, fue interesante escuchar a otros sobre su motivación y áreas de interés para ellos.

Lo que no le gustó


  • Alta densidad en la descripción general de los métodos principales: solo una lección por método.
  • En general, me gustaría 2 clases por semana, no 3. Personalmente, para mí, estudiar fue difícil, comí casi todo mi tiempo libre. Parte de mis compañeros de clase, para mi envidia, podía estudiar en el trabajo.
  • Por razones desconocidas, la unidad fue transferida a través de PNL y conducida a visión artificial (CV). Como resultado, en PNL, tuvimos que usar redes neuronales, que se describieron con más detalle solo en términos de CV.
  • Había profesores con habilidades pedagógicas extremadamente bajas. Además, no revisaron la tarea a tiempo.

imagen
El alcance de la ciencia de datos se ha expandido recientemente.

Total


Tuve 5 meses de entrenamiento intensivo, donde me sumergí lo suficiente en el mundo de ML. Aprendí a escribir procesamiento de datos en Python, a visualizarlos, a construir varios modelos. También generó texto utilizando redes neuronales, imágenes clasificadas.
Creo que tuve una buena experiencia para comenzar. Mi mentor de diploma dijo que nuestro conocimiento es extraído por un científico de datos intermedio y la experiencia por un junior. Bueno, ya veremos en un par de meses. Desde que me mudé al departamento de ciencia de datos de nuestra empresa durante dos semanas.

Source: https://habr.com/ru/post/es424345/


All Articles