Habr, hola! Continuamos una serie de entrevistas con ex alumnos de Newprolab en las que hablan sobre su historia de mudarse al campo de trabajar con big data. Las historias son diferentes y serán interesantes para aquellos que están pensando en cambiar sus trayectorias profesionales o sobre cómo los nuevos conocimientos pueden ayudar a resolver los problemas actuales. Conozca a Oleg Khomyuk, Jefe de I + D en Lamoda.
Oleg habló sobre su trayectoria profesional, valores, por qué eligió Lamoda, y no una compañía en el Valle, sobre los proyectos actuales, su equipo, sobre los proyectos más exitosos y sin éxito, sobre la actitud hacia la ciencia de datos y mucho más.
- Oleg, ¿cómo fue tu camino profesional a Jefe de I + D en Lamoda?- Me parece que cualquier camino profesional es el resultado de varias razones y, a veces, accidentes. Entre estas razones, se pueden distinguir varias principales: características del pensamiento, valores de la vida y, en general, cómo una persona entiende qué es el éxito. Esta comprensión del éxito es el mismo vector que utilizamos como brújula, eligiendo un camino profesional.
En este sentido, todo resultó simplemente para mí: la escuela claramente mostró habilidades para las ciencias exactas, participó constantemente en competiciones, incluso logró tomar el 3er lugar en el noveno grado en la Olimpiada regional de matemáticas entre los escolares. Y en general, siempre fue muy interesante resolver acertijos, buscar patrones, todavía me gustan las tareas de ingenio.
También me gustaba estudiar en la universidad: me gradué de MSTU. N.E. Bauman con honores en "Instrumentación Optoelectrónica", nos enseñaron a diseñar sofisticados, desde el punto de vista de la física y la microelectrónica, equipos: cámaras termográficas, cámaras digitales, telescopios, incluso miras de francotiradores, sistemas de orientación y dispositivos de visión nocturna. Debo decir que esta es una profesión increíblemente interesante, y nuestro personal docente fue estelar. Dicha ingeniería real se encuentra en la unión de varios campos del conocimiento. A veces es una lástima que no funcionó sobre este tema.
- ¿Por qué no lo hizo?- En los últimos cursos me decepcionó un poco lo que estaba haciendo. Resultó que la demanda de una profesión en el país es baja, todo es muy local, los mejores ingenieros trabajan principalmente en laboratorios de institutos, las fábricas raras pueden implementar proyectos de ingeniería, equipos obsoletos, etc. Hubo, por supuesto, algunos éxitos, pero el alcance no era el mismo que imaginé al comienzo de mis estudios. Este factor se complementó con tasas bajas para los investigadores, fue posible participar en el transporte privado y ganar más. Por supuesto, todavía había opciones para ganar dinero, trabajando no oficialmente para las empresas japonesas, naturalmente sin derechos de propiedad intelectual.
En algún momento, mis amigos me invitaron a trabajar en un proveedor de Internet bastante grande cerca de Moscú, y acepté. Estaba bastante listo para aprender cosas nuevas, la educación técnica da mucho alcance en este sentido.
Allí adquirí nuevas habilidades técnicas, me familiaricé con el tema de la gestión de calidad y, en general, toqué las prácticas mundiales a este respecto. Existe un estándar de gestión de calidad, incluso una serie de estándares ISO 9000, que ofrecen algunas prácticas para organizar procesos en una empresa, teniendo como axioma la relación entre la calidad del producto final y qué tan bien la empresa gestiona internamente sus procesos. La idea principal es que si hace todo dentro del marco del estándar, entonces la calidad de sus productos está mejorando constantemente, ya que mide, piensa, planifica, y nuevamente mide cada proceso que puede afectar esta calidad. Esta actividad cíclica de mejora continua incluso tiene un nombre: el ciclo de Deming. Este tema me atrapó de alguna manera, como la administración, pero es muy matemático.
Como resultado, trabajé allí durante aproximadamente 2 años, haciendo varias cosas, incluida la gestión de un departamento pequeño, procesos de construcción, hablando mucho con el departamento de calidad.
El siguiente fue Yandex. En algún momento, vi que estaban contratando gerentes de proyecto en el departamento de calidad de búsqueda. La vacante en sí no estaba tan enganchada, la tarea de prueba estaba más interesada: describa el problema de búsqueda existente de Yandex y descubra cómo resolverlo. Bueno, el disparador en mi cabeza para la palabra "calidad" funcionó, probablemente. Trabajé en la tarea durante 10 horas seguidas, resultaron ser varias páginas. Como resultado, me contactaron, pidieron una entrevista e hicieron una oferta, que acepté con gusto.
Mientras trabajaba en Yandex, específicamente para mí, todo encajó, vi cómo los grandes datos, las matemáticas, los algoritmos, el enfoque en el usuario, sus necesidades trabajan juntos como un solo mecanismo y le permiten crear productos innovadores, por un lado, y ganar dinero. por el otro Me parece que le quité a Yandex este deseo formado de hacer productos basados en datos y participar en el aprendizaje automático. Desde entonces, comenzó a desarrollarse activamente en esta dirección.
- Era 2011, el tema de big data aún no era muy popular, no había ningún programa. ¿Dónde estudiaste, leíste todo?- Por supuesto, el contenido disponible no era suficiente, y todos teníamos mucha hambre de conocimiento. Pero Coursera ya estaba allí y, por cierto, ShAD también. Escuché las conferencias de Vorontsov 15 veces y no entendí nada. Muchos pasaron por esto, fue una época interesante.
En general, comencé a alejarme un poco del tema de búsqueda de información, me gustó trabajar con datos, me atrajo una nueva área relacionada con el aprendizaje automático y en 2012 abandoné la empresa.
- ¿Y qué después de Yandex?Después de Yandex fue "Consultant Plus". Ya más conscientemente eligió la dirección asociada con el análisis de datos. Solo los datos de las acciones de los usuarios comenzaban a recopilarse a gran escala, así que me uní a esta actividad y comencé a hacer proyectos.
En general, fue un momento interesante, ahora hay muchas bibliotecas disponibles para el aprendizaje automático, por ejemplo, xgboost, y escribimos nuestro aumento de gradiente en los árboles en C ++, ahora, por supuesto, no todos los equipos pueden permitírselo, y no hay necesidad - Todo ya está realizado. Tal historia
- ¿Escribiste por tu cuenta o ya tenías un equipo?- El equipo ya estaba, sí, además de talentos. En el segundo año de mi trabajo en Consultant Plus, un talentoso estudiante de VMK se unió a nosotros, quien en un par de meses escribió su implementación de impulso y comenzó a entrenar modelos.
En ese momento, ya teníamos el objetivo de formar un equipo completo de científicos de datos, sentíamos que había muchas nuevas oportunidades en los datos. Entonces, la oportunidad de tomar dos graduados de ShAD, que probablemente conocían a un jefe más que yo, y desarrolladores para construir repositorios, apareció con mucho éxito. Todos lo intentaron, trabajaron principalmente en el clúster Hadoop, aunque para los estándares modernos no había mucha información.
En la cima de nosotros, probablemente, había 9 personas en total, estaban resolviendo buenos problemas. Por ejemplo, buscaban ráfagas de interés de los usuarios en varios temas, esto ayudó a los autores a abordar de manera más óptima la elección de aquellos en los que tiene sentido escribir material nuevo.
Después de eso trabajé para Ezhome, una startup en Palo Alto. Por cierto, Mitya Kataev me recomendó allí, con quien estudiamos juntos
en el programa Big Data Specialist . Su conocido, Kirill Klokov, que trabajaba en Ezhome como director de desarrollo, solo estaba buscando un científico de datos en el equipo. La idea principal de la empresa es la creación de la experiencia Uber para servicios a domicilio; Como punto de partida, se eligió un servicio para el cuidado del área local, comenzando por cortar el césped, terminando con la limpieza, la plantación de plantas y árboles. Como resultado, comencé a trabajar allí como Data Scientist, realmente quería probar suerte en una startup, y quería trabajar con mis manos. Periódicamente experimento este picor analítico, quiero hacer algo significativo por mí mismo, aunque durante bastante tiempo me he centrado principalmente en los procesos organizacionales. Solía esperar que algún día la picazón disminuya, pero no, hasta el día de hoy estoy tratando de "sentarme en dos sillas", es decir, desarrollarme como gerente y como especialista.
- ¿Incluso ahora?"Incluso ahora". Aunque en este momento, por supuesto, no hay suficiente tiempo para mucho: un gran equipo, muchas tareas de gestión, me retrasé el fin de semana, ya que ahora hay muchas oportunidades para esto, por ejemplo, kaggle. También quiero hacer algo con mis propias manos, pero tengo muchachos en mi equipo que son claramente mejores que yo en su campo. Pero, en mi opinión, para una gestión de proyectos efectiva en el campo del análisis de datos, el gerente debe tener habilidades difíciles. Estoy constantemente aprendiendo. En este momento, por ejemplo, decidí pasar por una especialización en programación, para no olvidar lo que estaba sucediendo.
- Volviendo a Ezhome: ¿por qué necesitaban un científico de datos? ¿Qué tareas enfrentaste?Esta es una buena pregunta. Al principio pregunté qué resultado se esperaba de mí. La respuesta estaba en el espíritu: "nosotros mismos todavía no entendemos exactamente, intentemos". Pero rápidamente se encontró una buena tarea: en ese momento había un cuello de botella en la atracción de nuevos clientes, porque cada nueva solicitud era procesada por una persona, medía un sitio desde una imagen satelital, intentaba comprender cuánto debería costar el servicio de dicho sitio. Hubo un modelo lineal experto que se ocupó de esta evaluación. Está claro que se quería mejorar la calidad del pronóstico y no se puede determinar cómo tener en cuenta un mayor número de parámetros de manera experta. Aquí es donde el aprendizaje automático fue útil. Comenzamos a predecir el tiempo que el jardinero pasará usando los parámetros del sitio. Los parámetros de los sitios fueron tomados de fuentes abiertas, y los "maestros" fueron tomados de datos históricos. Entonces ya había una pequeña base de clientes activos en una suscripción a servicios semanales.
Como resultado, la tarea se disparó, los datos estaban disponibles para la mayoría de las llamadas entrantes, fue posible formular precios individuales sobre la marcha. Automatización clásica: los robots funcionan, la gente se relaja. Luego me invitaron a ir a la oficina central en el Valle por un tiempo, aproximadamente un mes y medio.
Antes de eso, trabajé remotamente, allí casi todo el equipo era remoto: Estados Unidos, India, Grecia, Polonia, Rusia. El equipo fue muy bueno, fue un placer trabajar. Logré hacer muchas tareas geniales, al final me ofrecieron el puesto de analista líder del equipo. Hicimos algunas mejoras en la infraestructura, lo que nos permitió aumentar la cantidad de proyectos que realizamos a veces. Luego propusieron unirse con otro equipo que estaba desarrollando software para construir rutas para los empleados: 5 mil clientes, 150 jardineros, cómo sortearlos de la manera óptima. Fue muy emocionante, y ahora me parece que las tareas que están más relacionadas con la informática que con los datos también son muy interesantes.
- En paralelo con Lamoda, estaba considerando varias propuestas, ¿por qué se hizo la elección a favor de Lamoda? ¿Qué fue crítico para ti?- Sí, hubo varias propuestas. ¿Qué me enganchó en Lamoda? Una estrategia clara, expectativas claras de mi parte, confianza y un plan de recursos realista en finanzas, es decir, me propusieron una tarea clara: "estamos aquí ahora, necesitamos estar aquí, queremos desarrollar I + D, estamos listos para invertir X, esperamos tal y tal efecto económico" . Eso es todo. No hay razonamiento sobre cómo las naves espaciales ararán las extensiones del universo o que los robots reemplazarán a todos. Además de una historia honesta sobre cómo le está yendo a la empresa. Todo era transparente, claro, y esto, en general, me sobornó porque tenía la sensación de que me unía a un equipo de personas que estaban realmente orientadas a los resultados y entendían lo que querían. Además, me dieron carta blanca para desarrollar esta área. Para mí fue una especie de desafío personal, nunca tuve la oportunidad de reunir un equipo tan grande. Ahora 17 personas, y todavía estamos creciendo.
- Esta no es la primera compañía en la que construye un departamento de I + D desde cero, forma un equipo. ¿Cuáles son los primeros 5 pasos que da al unirse a una empresa?- El departamento de I + D estaba en Lamoda y antes que yo, en 7 años, incluso varios equipos y líderes fueron reemplazados. Además, reunimos alrededor de la mitad del equipo actual en el interior. Así que no realmente desde cero.
¿Los primeros cinco pasos en una nueva empresa? El algoritmo, creo, no es específico para I + D; en principio, este puede ser el caso si vienes a una nueva empresa al menos a algún tipo de posición de liderazgo.
Primero, debe comprender la estrategia actual de la empresa, comprender cuáles son los objetivos de la empresa, qué KPI medirá los logros.
El segundo es describir cómo, teniendo en cuenta su competencia o función en la empresa, puede influir en estos KPI, debería haber algún conjunto de herramientas e ideas disponibles. Describa las necesidades de la empresa y el estado objetivo, es decir, a lo que generalmente queremos llegar, y luego evalúe las herramientas disponibles. El aprendizaje automático es solo uno de ellos, y no es óptimo para cada tarea.
El tercer punto: debe auditar el estado actual: personas, competencias, procesos, datos, productos, infraestructura, especialmente infraestructura.
En general, solo en el cuarto paso después de la auditoría del estado actual es posible describir una estrategia adicional para la transición del estado actual al objetivo. Esencialmente, se trata de mucho trabajo, incluidas muchas consultas con las partes interesadas y las partes interesadas, en función de las cuales se deben desarrollar varios posibles escenarios de desarrollo. En mi práctica, fue útil hacer al menos 3: conservador, realista y agresivo en términos de costos de recursos. Entonces todo es más fácil: después de elegir una estrategia, hacemos una hoja de ruta, especificamos la estimación de recursos y nos ponemos a trabajar.
- ¿Qué es la ciencia de datos para ti?- Data Science es mi herramienta favorita. Este es un campo extremadamente emocionante, es como las matemáticas y la física, otra forma de explorar el mundo que te rodea. Esta fue la primera vez que lo sentí especialmente claro en Yandex, cuando nos dedicamos al análisis de consultas de búsqueda, entendimos qué tienen los usuarios, cómo los resuelven, qué está sucediendo en el mundo. Es decir, puede mirar el mundo a través de un pequeño clic en los datos con los que trabaja. Esto es interesante y, en mi opinión, no es diferente de otras formas de conocimiento, solo otro "canal", considera que este es el séptimo sentimiento. Lo mismo sucedió en "Consultant Plus": analizamos qué usuarios resuelven problemas cuando buscan decisiones judiciales, es decir, qué excita específicamente a las personas, qué disputas tienen que deben resolverse en los tribunales. Si hablamos de los datos que analizamos en Lamoda, esto no es menos emocionante. Especialmente cuando descubres que las blusas y faldas se compran en diferentes colores en lugar de lo mismo. Una curiosa observación con la que puedes llegar más lejos en la vida. Puedes aprender mucho sobre el mundo que te rodea a través de los datos. Por lo tanto, digo que esta es mi herramienta favorita. Y aquí está, por un lado, una herramienta cognitiva y, por otro lado, una herramienta activa, con la ayuda de la cual puedes crear algo nuevo.
- Si toma un negocio, ¿qué papel le asigna a los datos en el negocio?- Lo más importante aquí es no sucumbir al bombo publicitario. Si hablamos de negocios, entonces los datos, por supuesto, deberían funcionar. Los resultados del análisis de datos deben ser rentables o reducir costos. Si no lo hacen, entonces algo salió mal en alguna parte. Al mismo tiempo, la cultura basada en datos no necesita ser tomada literalmente, podemos tomar decisiones sin depender de los datos, esto es normal. Además, en algunos casos esto es lo único que se puede hacer.
- Dime, ¿qué proyectos estás haciendo en Lamoda? ¿Cuál es el proyecto más exitoso implementado por su equipo?- Probablemente, lo primero que vale la pena mencionar es la plataforma para las pruebas A / B, de hecho, un servicio que divide a los usuarios en grupos y gestiona el encendido / apagado de las características experimentales. ¿Por qué es esto importante para nosotros? Porque, en general, esta área en sí misma, relacionada con el aprendizaje automático, no puede existir sin una prueba constante de varias hipótesis e ideas. No podemos saber de antemano que a nuestros usuarios les gustará más o menos. Cualquier idea nueva debe ser probada. Amazon proporciona estadísticas interesantes, dicen que el 70% de las ideas que prueban pierden la prueba. Esto debe tratarse con calma, incluso si el indicador es más alto. Esto significa que para lanzar 5 proyectos exitosos por trimestre, es necesario hacer ± 17. Por lo tanto, una plataforma confiable para realizar experimentos controlados es la base sin la cual es absolutamente imposible avanzar en términos de desarrollo de productos. Dados nuestros ambiciosos planes, era necesario realizar alguna actualización a este sistema. La primera versión se hizo antes que yo, la actualizamos significativamente: ahora puede realizar más experimentos al mismo tiempo, antes de que hubiera algunas limitaciones en este sentido.
- ¿Qué otras direcciones?- Busque, y aquí hay diferencias con los grandes jugadores como Yandex y Google, porque podemos resolver muy bien nuestra área temática, es bastante limitada en comparación con la "búsqueda universal en Internet". Es imposible hacer una ontología de todo, describir todas las relaciones, pero en un área específica pequeña puede tomar muy buenas decisiones que funcionarán. Estamos haciendo nuestra lingüística para un motor de búsqueda que podría tener en cuenta algunas relaciones implícitas entre diferentes entidades. , , , , , , . , Tommy Hilfiger Tommy Jeans, . , — , — - . , , Lamoda.
, , , — . . , , , , .
, , , .
— , .— . , . , , , , — . , , . , . , , .
— ? ? ?— , : , , , , -. , -, . , . -, , , . .
4-6 . , . , - . . - , , – .
— Amazon 70% , Lamoda?— , . , , . , – success, learning. . — . , , , , . - .
— , ? learning'e, .— , . , . , , , . , , learning, , . ( , ) , , , . , , , .
— ? , , , . , ?— , : , , . , , , . , , .
— , , Newprolab Lamoda, . , , , ?— , , , , , , . ( Newprolab — . .), , - . . , Newprolab , . - , , , . , . 3 10 , , . . , , , , , .
— , , , , , , , .— , , 4 , , Coursera, , . , , , . , , , , , , .
— « » , , . , ?— – - . , , - , . - , . , . ? : - , . , . , , , , , , . , . , , , , - . , , .
— , -. , ? ?— , «» «», , , , - . , - , . . , , , . , Lamoda . - , .
— , ?— Slack ODS, , , . , , , , , , .
— , , . , , ?— , : , . , , data science, . , , - .
— , , .— , . . , , . , , - - , . — , , , , . , - - . , , , , , , , - , .
, — , , , . , , . : , , , . Ezhome — : data scientist, -, , . , - . , . , .
, , , .