Habr, hola! Continuamos una serie de entrevistas con ex alumnos de Newprolab en las que hablan sobre su historia de pasar a la ciencia de datos. Las historias son diferentes y serán interesantes para aquellos que están pensando en cambiar sus trayectorias profesionales o sobre cómo los nuevos conocimientos pueden ayudar a resolver los problemas actuales. Recientemente nos reunimos con Yana Charuyskaya, propietaria del producto en MTS. Yana contó cómo llegó a Big Data, cómo creció profesionalmente, recordó su proyecto favorito, que le dio a sus amigos, además de su conocimiento y experiencia. Ella habló sobre la atmósfera de trabajo en MTS, sobre los proyectos que su equipo está haciendo, sobre su sueño, planes para el futuro, etc.
- Yana, cuéntame un poco sobre ti y tus antecedentes.- Mi nombre es Yana Charuyskaya, soy dueña de producto en MTS. Estoy interesado en el campo de Big Data y lo he estado haciendo durante aproximadamente dos años. Si brevemente sobre mi historia: me gradué de la Escuela Superior de Economía en Informática Empresarial, estudié durante 6 años, luego estudié durante un año como psicólogo. Durante cuatro años trabajé en consultoría de TI, tres de ellos se dedicaron al almacenamiento de datos, data marts, informes de gestión de edificios principalmente para grandes bancos. El último año en consultoría ha sido en aprendizaje automático y análisis predictivo. Ahora trabajo en MTS como gerente de producto, tengo un equipo de 6 personas y está creciendo, contrataré a otros 7 en el futuro cercano. En general, la compañía también se está expandiendo, ahora MTS tiene más de 150 especialistas en Big Data y hay muchas más vacantes abiertas (planeamos aumentar El personal es casi 2 veces!). Mi equipo y yo estamos desarrollando varios productos al mismo tiempo, en el momento en que se encuentran en diferentes etapas de implementación: hay productos que están en la etapa de I + D, algunos están en la etapa de producción.
- ¿Por qué y en qué momento decidiste vincular tu trabajo con Big Data?- En algún momento se puso de moda e interesante, pero para mí era un área difícil e incomprensible. Por supuesto, fui a la universidad con el lenguaje de programación C # y comprendí un poco sus fundamentos teóricos, pero nunca me programé. Después de conseguir un trabajo en consultoría de TI, escribí muchos scripts en SQL. Pero, ¿qué es Python, redes neuronales, qué es escribir programas en algún lenguaje de programación o construir modelos predictivos? Todo esto para mí fue un extraño conjunto de palabras que realmente quería entender. Fue un desafío para mí y quería intentarlo. Todo comenzó con el hecho de que encontré en Internet algunos sitios en Python, comencé a entrenar y resolver problemas simples. Decidí, parece que de alguna manera resulta, pero faltaba algo. Me encontré un tutor de Python, con quien escribimos código para resolver un sistema arbitrario de ecuaciones lineales utilizando el método Gauss. Recuerdo que resolvimos este problema durante aproximadamente un mes; Es cierto, resultó mal para mí, tal vez el profesor no era muy, no lo sé, pero al final lo decidí por mi cuenta.
Después de la experiencia infructuosa de la tutoría, comencé a considerar opciones para asistir a cursos, encontré el programa
"Especialista en
Big Data" en Internet, me alegré mucho de que esto fuera justo lo que necesitaba: durante tres meses para hacer aprendizaje automático y una gran oportunidad para familiarizarme con una gran cantidad de sistemas para desplegar big data. Para mí, la capacitación en línea definitivamente no es la opción más adecuada, es importante para mí no sentarme solo en casa frente a la computadora, sino estar en compañía de personas que se dedican a una tarea, debe haber algún elemento de competencia para que pueda hacerlo mejor que la suya colega Por lo tanto, elegí Newprolab para mí y no me arrepiento de eso.
En ese momento estaba desarrollando un almacén de datos, para mí era un poco aburrido, quería mudarme a una nueva área, pero el jefe dijo que en ese momento no había tal posibilidad, sin embargo, sugirió que cerrara completamente la analítica en un banco grande. Durante la aprobación del programa, me di cuenta de que todavía quería hacer aprendizaje automático, estaba como entrevistando, buscando trabajo, recibí dos ofertas. Me acerco al líder con ellos y le digo que me voy porque quiero estudiar Data Science. Entonces solo él me brindó esa oportunidad dentro de la empresa. Una de las condiciones para mudarse a otra área fue el abandono de su equipo de analistas. Me dejaron solo, fue difícil. En su mayor parte, estaba involucrado en preventas, es decir, para hacer un modelo, primero tenía que encontrar un cliente, vender este modelo, fabricarlo, protegerlo y cobrar por él. Pero estas son algunas actividades que se realizan una sola vez, no obtendrá un equipo para ello, no había mucha experiencia. Los productos eran en su mayoría comerciales, prácticamente no utilizamos soluciones de código abierto, por lo que ni Python ni Spark eran necesarios para mí, los modelos se construyeron principalmente utilizando soluciones comerciales para construir modelos de respuesta clásicos. Debido al hecho de que quería obtener más experiencia en el campo de la ciencia de datos, crear productos interesantes y trabajar en un gran equipo de especialistas, decidí buscar trabajo nuevamente.
- Hablaremos más sobre cómo te involucraste en MTS. Dígame cómo puede y debe mantener buenos especialistas y ¿vale la pena hacerlo?- Por supuesto, vale la pena, y es aún mejor no sostenerlo, sino crear todas las condiciones para
ellos querían quedarse! No hay muchos buenos especialistas en el mercado de big data, por lo que dedico mucho tiempo a mantener una atmósfera amigable dentro del equipo. Nos comunicamos mucho, compartimos ideas, impresiones. También vamos juntos a conferencias y jugamos juegos intelectuales (por ejemplo, "¿Qué? ¿Dónde? ¿Cuándo?"). Intento darles a todos los rompecabezas interesantes y ver su descarga para que no haya exceso de trabajo.
- ¿Y qué dificultades encontraste profesionalmente al principio, qué desafíos tuviste que superar?- El mayor desafío fue el lenguaje de programación, porque soy más matemático, y la programación es una lógica diferente: asignación de variables, creación de clases, herencia, polimorfismo, etc. El hecho de que la programación no es mía, decidí por mí mismo en HSE. Una de las mayores dificultades fue superar la barrera psicológica de que también puedo escribir código, y esto no es un problema para mí. En general, no hubo muchas dificultades, hubo muchas preguntas. Es bueno que haya tenido muchos amigos que respondieron todas estas preguntas: tanto mis compañeros de clase en Newprolab como futuros amigos a quienes conocí en varias conferencias sobre ciencia de datos y Big Data. Y también Open Data Science en Slack, donde puede hacer cualquier pregunta, y desayunos de Data Science, a los que puede venir y discutir cualquier problema. En general, me parece que las dificultades, si las hay, se superan fácilmente, porque Data Science ahora se está desarrollando activamente y los muchachos están muy abiertos y listos para ayudar.
Hablo mucho con personas, incluidos los recién llegados al campo de la ciencia de datos, que dudan si entrar o no en el campo. Han estado trabajando en algún campo toda su vida, están interesados en la ciencia de datos, pero tienen dudas de si vale la pena cambiar algo, tienen miedo. Creo que si quieres cambiar tu vida e ir a tu sueño, entonces esto es bastante real. Comencé con un promotor, trabajé en Auchan, publicité yogures, luego me convertí en tutor de matemáticas, estuve en tutoría durante tres años (y tal vez más), pero me di cuenta de que genera algún tipo de ingreso, pero no siempre. Fui a trabajar en una empresa de leasing como economista, no había TI allí, Excel estaba allí en el mejor de los casos, tampoco escribíamos macros, el trabajo era aburrido para mí y estaba muy preocupado de que fuera degradante. Traté de encontrarme en otra área (de hecho, más relacionada con mi educación). Entré en consultoría, estuve en instalaciones de almacenamiento. Luego, los repositorios se cansaron y nuevamente me enfrenté a la elección de a dónde ir después. Con tales pasos graduales, conectados con los cambios en mi actividad profesional, llegué a Big Data, del cual no me arrepiento en absoluto. Estaba listo para gastar mis recursos, mi tiempo, para comprender esta área. Creo que si hay motivación, puedes superar fácilmente todos los obstáculos y lograr lo que deseas. Una vez más, no hay que tener miedo.
- Una excelente posición de vida y su historia es un gran ejemplo del hecho de que todo es posible si se desea. Volviendo a aquellos que quieren ir a Data Science, ¿qué piensan, además del miedo, qué más puede detener? Hablas mucho con la gente, tal vez ellos compartieron contigo.- Lo principal: "No tengo experiencia, no estoy preparado, no sé nada". De inmediato te lo diré por mi propia experiencia: fui a los cursos de Newprolab, estudié allí durante dos semanas y ya tenía dos ofertas en el campo de la ciencia de datos por buenos salarios. ¡Dos ofertas, y todavía estaba estudiando! Ni siquiera trabajé en esta área, enseñé un poco de Python y justo ahora comencé a tomar cursos. Llegué al empleador y le dije que estaba estudiando ahora en el programa, terminaré el 8 de junio, estoy motivado para desarrollar en esta área, tengo experiencia relevante en almacenes de datos. Las empresas estaban listas para llevarme. Ahora el mercado es muy estrecho, hay muy pocos científicos de datos, por lo que las empresas suelen llevar a las personas a crecer. Si ven potencial en ti, están listos para desarrollarlo.
Después de todo, hay muchos recursos de capacitación diferentes:
Coursera ,
EdX ,
Udacity , para impulsar su conocimiento. Incluso si no conoce las estadísticas, no conoce el álgebra lineal, las matemáticas, un lenguaje de programación, no sabe nada, para cada uno de sus ignorantes hay un cierto curso que puede escuchar de forma rápida y rápida para descubrir todo, el deseo y el deseo principal están aquí. Y no existe tal cosa como "No tengo experiencia", lo principal es la motivación, los recursos y la energía. Y creo que habrá tiempo si lo quieres.
Según Data Science, ahora muchos cursos en línea se han divorciado, en todas partes aparece publicidad contextual en algunos cursos y luego en otros. Y su costo es bastante grande, pero veo y escucho a la compañía proveedora de los cursos por primera vez. En general, esto, por supuesto, es una exageración, y creo que hay muchos cursos de baja calidad que prácticamente no dan nada.
- Según sus observaciones: ¿qué habilidades blandas y duras a menudo no son suficientes para que tanto los principiantes como los científicos de datos con experiencia se conviertan en especialistas realmente altamente calificados? ¿Qué debo buscar?- Muy a menudo no hay suficientes habilidades prácticas para implementar modelos a nivel de toda la empresa, es importante comprender el área temática y priorizar correctamente el trabajo. No debe dedicar mucho tiempo a una tarea, cuyos resultados no tendrán un efecto positivo para la empresa. También se alienta a los científicos de datos a desarrollar sus habilidades de comunicación para presentar los resultados de sus productos tanto internamente a colegas como externamente. En cuanto a las habilidades difíciles, me gustaría que los candidatos comprendan mejor la terminología, comprendan los fundamentos matemáticos de la construcción de modelos y conozcan los casos de uso de modelos para diversos tipos de tareas de aprendizaje automático. La creatividad y la imaginación también son muy importantes para desarrollar nuevos enfoques para resolver un problema (ya sea agregando métricas a un almacén de datos, cambiando su estructura de cierta manera o usando otra clase de modelos).
- Cuéntame más sobre los proyectos en el campo de la ciencia de datos que has realizado.- Primero, te contaré brevemente lo que hice al consultar. Teníamos proyectos en varios campos, el departamento no era muy grande y nos dedicamos a diversas tareas. Mi primera tarea estaba relacionada con el modelo de respuesta para un producto de préstamo en un gran banco ruso. El modelo fue exitoso, dio un resultado positivo, lo hice usando una solución comercial; Gracias a la implementación de este modelo, pude realizar todo el trabajo en la coordinación de los requisitos comerciales, la construcción y producción del modelo, así como evaluar su calidad y ponerlo en el calendario. Como mi empresa anterior se especializa principalmente en el sector bancario, construimos modelos para bancos, pero también probamos otras áreas (por ejemplo, seguros y venta minorista). En ese momento, no solo participé en estos proyectos como científico de datos, sino también como gerente. Me parece que el área temática no puede limitarse, en cualquier área temática puede resolverlo rápidamente. Estoy muy contento de que la consultoría de TI me haya dado tanta flexibilidad.
- ¿Quizás hay algún proyecto o varios proyectos que le complace recordar especialmente?- Sí, hay uno: mi primer proyecto en un gran banco ruso, teníamos un equipo muy amigable, construimos un almacén de datos desde cero, participamos en su desarrollo, apoyamos, elaboramos informes sobre él. Fue un producto muy bueno. Ganamos mucha experiencia, hemos formado un excelente equipo. Durante mucho tiempo hemos estado dispersos en diferentes compañías, pero aún mantenemos relaciones activamente. Probablemente nos encontramos en este banco.
- bien. Pasemos a MTS. ¿Por qué exactamente ellos? ¿Qué se le ofreció hacer tan interesante? ¿Qué tareas enfrentan usted y su equipo ahora?- En primer lugar, un gran equipo de Big Data me atrajo a MTS, un grupo de especialistas con los que puede consultar en cualquier momento, que no estaba en consultoría de TI, pero me faltaba muchísimo. Teníamos un líder muy experimentado y varios científicos de datos, está claro que su experiencia no fue suficiente para resolver ningún problema. Hablando en términos generales, teníamos un conjunto estándar de tareas que hicimos, y tratamos de no desviarnos de este conjunto de tareas, porque no teníamos la experiencia. Estoy muy contento de haber elegido MTS, ahora tenemos más de 150 personas y todavía queremos crecer en un 70% para fin de año. Esto es genial, me gusta comunicarme y compartir experiencias, creo que la sangre nueva definitivamente no dolerá.
En segundo lugar, aquí hay una amplia gama de tecnologías, utilizamos código abierto: Python, Spark, Hive, Kafka, todas las palabras de moda populares en el campo de Big Data. Incluso tenemos una solución comercial, pero no la tocamos y no construimos modelos allí. Es genial que logré familiarizarme con esta pila en el programa Newprolab y consolidar mi conocimiento posteriormente en MTS.
Además, por supuesto, tareas interesantes, productos interesantes. Los clientes son principalmente nacionales, pero se presentan algunos productos. Nuestro equipo tiene varias áreas: estratégica, está vinculada a la implementación de modelos que actualmente no nos aportan dinero; Hay proyectos comerciales que este año deberían mostrar un resultado financiero. Trabajo en el equipo de I + D, nos dedicamos a la venta de productos que en el futuro ayudarán a MTS a mejorar.
Mi equipo y yo tenemos tres productos en este momento. El primero es una evaluación de la calidad del servicio para nuestros suscriptores en varios puntos de contacto, incluido el pronóstico de NPS (índice de lealtad del cliente - nota del autor) a nivel de cada suscriptor. Tenemos encuestas que realizamos mensualmente para todos nuestros suscriptores a fin de comprender si están listos para recomendar la marca MTS o no. 0 - no está listo para recomendar a nadie, 10 - listo y activamente haciéndolo. Recopilamos estas estimaciones y predecimos la calificación que el suscriptor nos daría si hubiera aprobado la encuesta, y también vemos las razones que podrían afectar esta calificación; Podemos ayudar rápidamente a solucionarlos. Este es el primer producto.
El segundo producto está relacionado con el análisis de voz. Aquí, hasta ahora solo I + D, una de las tareas del análisis de voz es reconocer el habla en texto mediante llamadas a un centro de contacto para analizar y clasificar automáticamente las llamadas. Por el momento, esto lo hace el operador, y el tema de los mensajes puede no ser siempre lo suficientemente preciso.
Probablemente te cuente sobre el tercer producto más adelante en alguna conferencia de Big Data.
El equipo es muy bueno, tratamos de mantener un ambiente de trabajo en casa para que todos se sientan cómodos. Intento escuchar a cada miembro del equipo, todos comparten sus ideas. Me parece que las ideas de equipo son las más importantes al desarrollar un producto. En general, también estamos tratando de implementar las ideas más locas.
- Da un ejemplo de ideas locas.- Me parece que nuestro producto por voz comenzó así. Hicimos NPS, analizamos las calificaciones de nuestros suscriptores y luego alguien preguntó: "¿Por qué no podemos analizar las llamadas de voz al centro de llamadas?" De hecho, ¿por qué no? Advertimos a nuestros suscriptores que podemos grabar y analizar. Nosotros mismos no los escuchamos, pero gracias al procesamiento automático, podemos extraer los temas de las llamadas desde allí para mejorar la calidad del servicio al cliente.
Es difícil para mí dar ejemplos específicos: cualquier momento de trabajo en el que los chicos quieran probar algo, intentar implementar algo y optimizar en algún lugar. También probamos varias soluciones, muchos proveedores vienen a nosotros y ofrecen las últimas tecnologías. Pasamos pilotos con ellos, miramos los resultados.
- Definitivamente, además de MTS, consideró algunas otras opciones. ¿Qué es crítico para usted al elegir un empleador?- La apertura de la empresa es importante para mí; Me gusta poder consultar con mis colegas, con mi líder, compartir mis temores, sé que él comprenderá y podrá dar consejos prácticos. La reputación de la empresa es importante para mí. Por supuesto, estoy listo para ir a una startup si tienen una idea interesante, pero, en general, la reputación de la empresa es importante para mí. Me gusta trabajar en MTS, somos el operador más grande de Rusia. Creo que las oportunidades de desarrollo también son importantes, y MTS fomenta la participación en varias conferencias, tanto como orador y como oyente. , , .
. , , Confluence Jira. , - , , , . , , .
— « » , «Deep Learning» – . : / , , , / / ?— , . , . ; , , , , , . , , , - , - . , , , ( , ). , , , , . , , . , , , , , , ( ).
«Deep Learning», , . , , — . , . Keras , . , Xception, , . - , , , Python, . , , , . .
— ? ? ?— Product Owner, . -, . , , , , . . . , , , - , - , . , . , , . , .
-, . , .
Newprolab :
«Data Engineer» , «Deep Learning», « ». , , ; ; , . , , .
— , Big Data / Data Science , . , , ?— . , , , : , . ,
arxiv.org . Data Science , , . , , , , , , , , : Newprolab, , , , data scientist' data engineer'.
— - ?— , , . . , , , - , . , , . , , .
— . , - , -, ?— Data Science , . ODS , , Slack. , – , , . . -, github,
stackoverflow , arxiv.org.