Habr, olá! Continuamos uma série de entrevistas com ex-alunos do Newprolab, nos quais eles falam sobre sua história de mudança para o campo de trabalho com big data. As histórias são diferentes e serão interessantes para quem está pensando em mudar de carreira ou em como o novo conhecimento pode ajudar a resolver os problemas atuais. Conheça Oleg Khomyuk, chefe de pesquisa e desenvolvimento da Lamoda.
Oleg falou sobre sua carreira, valores, por que escolheu Lamoda, e não uma empresa no Vale, sobre projetos atuais, sua equipe, sobre os projetos mais bem-sucedidos e malsucedidos, sobre a atitude em relação à ciência de dados e muito mais.
- Oleg, como foi seu caminho profissional para chefe de pesquisa e desenvolvimento em Lamoda?- Parece-me que qualquer trajetória profissional é resultado de várias razões e, às vezes, de acidentes. Entre essas razões, podemos destacar várias principais: características do pensamento, valores da vida e, em geral, como uma pessoa entende o que é sucesso. Essa compreensão do sucesso é o próprio vetor que usamos como bússola, escolhendo um caminho profissional.
Nesse sentido, tudo acabou bem para mim: a escola mostrava claramente habilidades para ciências exatas, participava constantemente de competições e até conseguiu o 3º lugar na 9ª série na Olimpíada regional de matemática entre os alunos. E, no geral, sempre foi muito interessante resolver quebra-cabeças, procurar padrões, ainda gosto de tarefas de engenhosidade.
Também gostei de estudar na universidade: me formei no MSTU. N.E. Bauman com honras em "Instrumentação Optoeletrônica", fomos ensinados a projetar bastante sofisticado, do ponto de vista da física e da microeletrônica, equipamentos: termovisores, câmeras digitais, telescópios, até sniper mira, sistemas de retorno e dispositivos de visão noturna. Devo dizer que esta é uma profissão incrivelmente interessante, e nossa equipe de professores foi estelar. Essa engenharia real está na junção de vários campos do conhecimento. Às vezes, é uma pena que não tenha dado certo sobre esse tópico.
- Por que não?- Nos últimos cursos, fiquei um pouco decepcionado com o que estava fazendo. Verificou-se que a demanda por uma profissão no país é baixa, tudo é muito local, os melhores engenheiros trabalham principalmente em laboratórios de institutos, fábricas raras são capazes de implementar projetos de engenharia, equipamentos desatualizados e assim por diante. Obviamente, houve alguns sucessos, mas o escopo não era o mesmo que eu imaginava no início dos meus estudos. Esse fator foi complementado por baixas taxas para os pesquisadores, foi possível realizar transporte privado e ganhar mais. Obviamente, ainda havia opções para ganhar dinheiro, trabalhando não oficialmente para empresas japonesas, naturalmente sem direitos de propriedade intelectual.
Em algum momento, meus amigos me convidaram para trabalhar em um provedor de Internet bastante grande perto de Moscou, e eu concordei. Eu estava pronto para aprender coisas novas, o ensino técnico dá muito espaço nesse sentido.
Lá, adquiri novas habilidades técnicas, familiarizei-me com o tópico de gerenciamento da qualidade e, geralmente, toquei em práticas mundiais a esse respeito. Existe um padrão de gerenciamento de qualidade, mesmo uma série de padrões ISO 9000, que oferecem algumas práticas para organizar processos em uma empresa, tomando como axioma a relação entre a qualidade do produto final e o quão bem a empresa gerencia internamente seus processos. A idéia principal é que, se você fizer tudo dentro da estrutura do padrão, a qualidade de seus produtos estará constantemente melhorando, porque você mede, pensa, planeja, mede novamente todos os processos que podem afetar essa qualidade. Essa atividade cíclica de melhoria contínua ainda tem um nome - o ciclo de Deming. De alguma forma, fui capturado por esse tópico, como gerenciamento, mas é muito matemático.
Como resultado, trabalhei lá por cerca de 2 anos, fazendo várias coisas, incluindo gerenciamento de um pequeno departamento, construção de processos, conversando bastante com o departamento de qualidade.
Em seguida foi Yandex. Em algum momento, vi que eles estavam contratando gerentes de projeto no departamento de qualidade da pesquisa. A vaga em si não era tão viciada, a tarefa de teste estava mais interessada: descreva o problema de pesquisa Yandex existente e descubra como resolvê-lo. Bem, o gatilho na minha cabeça para a palavra "qualidade" funcionou, provavelmente. Eu trabalhei na tarefa por 10 horas seguidas, resultando em várias páginas. Como resultado, eles entraram em contato comigo, ligaram para uma entrevista e fizeram uma oferta, que aceitei com prazer.
Enquanto eu trabalhava no Yandex, especificamente para mim, tudo se encaixou. Vi como grandes dados, matemática, algoritmos se concentram no usuário, suas necessidades funcionam juntas como um único mecanismo e permitem criar produtos inovadores, por um lado, e ganhar dinheiro por outro. Parece-me que tirei da Yandex esse desejo formado de fabricar produtos com base em dados e participar de aprendizado de máquina. Desde então, ele começou a se desenvolver ativamente nessa direção.
- Em 2011, o tópico big data ainda não era muito popular, não havia programas. Onde você estudou, leu tudo?- É claro que o conteúdo disponível não era suficiente e todos estávamos com muita fome de conhecimento. Mas o Coursera já estava lá e, a propósito, a ShAD também. Ouvi as palestras de Vorontsov 15 vezes e não entendi nada. Muitos passaram por isso, foi uma era interessante.
Em geral, comecei a me afastar um pouco do tópico de busca de informações, gostei de trabalhar com dados, fui atraído por uma nova área relacionada ao aprendizado de máquina e, em 2012, saí da empresa.
- E depois do Yandex?Depois que Yandex foi "Consultant Plus". Já conscientemente escolheu a direção associada à análise de dados. Apenas os dados das ações do usuário estavam começando a ser coletados em larga escala, então entrei nessa atividade e comecei a fazer projetos.
Em geral, foi um momento interessante, agora existem muitas bibliotecas disponíveis para aprendizado de máquina, por exemplo, xgboost, e escrevemos nosso aumento de gradiente nas árvores em C ++. Agora, é claro, nem todas as equipes podem pagar por isso, e não há necessidade - tudo já está realizado. Que história.
- Você escreveu por conta própria ou já tinha um time?- A equipe já estava, sim, além de talentos. No segundo ano do meu trabalho na Consultant Plus, um talentoso aluno da VMK se juntou a nós, que em alguns meses escreveu sua implementação de reforço e começou a treinar modelos.
Naquela época, já tínhamos como objetivo formar uma equipe inteira de cientistas de dados, sentimos que havia muitas novas oportunidades nos dados. Então, a oportunidade de ter dois graduados no ShAD, que provavelmente conheciam mais do que eu, e desenvolvedores de construção de repositórios, apareceu com muito sucesso. Todos tentaram, trabalharam principalmente no cluster Hadoop, embora pelos padrões modernos não houvesse muitos dados.
No auge de nós, provavelmente, havia 9 pessoas no total, eles resolveram bons problemas. Por exemplo, eles estavam procurando explosões de interesse do usuário em vários tópicos, o que ajudou os autores a abordar de maneira mais otimizada a escolha daqueles em que faz sentido escrever um novo material.
Depois disso, trabalhei na Ezhome, uma startup em Palo Alto. A propósito, Mitya Kataev me recomendou lá, com quem estudamos juntos
no programa Big Data Specialist . Seu conhecido, Kirill Klokov, trabalhando na Ezhome como diretor de desenvolvimento, estava apenas procurando um cientista de dados na equipe. A principal idéia da empresa é a criação da experiência do Uber para serviços domésticos; Como ponto de partida, foi escolhido um serviço para o cuidado da área local - a partir do corte dos gramados, terminando com a limpeza, o plantio de plantas e árvores. Como resultado, comecei a trabalhar lá como cientista de dados, realmente queria tentar minha mão em uma startup e queria trabalhar com minhas mãos. Periodicamente, sinto essa coceira analítica; quero fazer algo significativo pessoalmente, embora, durante algum tempo, tenha me concentrado principalmente nos processos organizacionais. Eu esperava que um dia a coceira diminuísse, mas não, até hoje eu estou tentando "sentar em duas cadeiras", ou seja, desenvolver tanto como gerente quanto como especialista.
- agora mesmo?"Mesmo agora." Embora, no momento, é claro, não haja tempo suficiente para muita coisa: uma equipe grande, muitas tarefas de gerenciamento, estou atrasada no fim de semana, já que agora existem muitas oportunidades para isso - kaggle, por exemplo. Também quero fazer algo com minhas próprias mãos, mas tenho na minha equipe caras que são claramente melhores do que eu em seu campo. Mas, na minha opinião, para um gerenciamento eficaz de projetos no campo da análise de dados, o gerente deve ter habilidades fortes. Estou constantemente aprendendo. No momento, por exemplo, decidi fazer uma especialização em programação, para não esquecer o que estava acontecendo.
- Voltando ao Ezhome: por que eles precisavam de um cientista de dados? Que tarefas você enfrentou?- Esta é uma boa pergunta. No começo, perguntei que resultado é esperado de mim. A resposta estava no espírito: "nós mesmos ainda não entendemos exatamente, vamos tentar". Mas rapidamente foi encontrada uma boa tarefa: naquela época havia um gargalo na atração de novos clientes, porque cada novo aplicativo era processado por uma pessoa, media um site a partir de uma imagem de satélite, tentava entender quanto deveria custar para atender a um site. Havia um modelo linear especialista que tratava dessa avaliação. É claro que se desejava melhorar a qualidade da previsão e como você pode levar em consideração um número maior de parâmetros com habilidade, não é possível determinar. É aqui que o aprendizado de máquina foi útil. Começamos a prever o tempo que o jardineiro gastará usando os parâmetros do site. Os parâmetros dos sites foram retirados de fontes abertas e os "professores" foram retirados de dados históricos. Já havia uma pequena base de clientes ativos em uma assinatura de serviços semanais.
Como resultado, a tarefa foi disparada, os dados estavam disponíveis para a maioria das chamadas recebidas, foi possível formular preços individuais em tempo real. Automação clássica - robôs trabalham, as pessoas relaxam. Então fui convidado a ir à sede do Vale por um tempo, cerca de um mês e meio.
Antes disso, trabalhei remotamente, quase toda a equipe era remota: EUA, Índia, Grécia, Polônia, Rússia. A equipe foi muito legal, foi um prazer trabalhar. Consegui realizar muitas tarefas interessantes, no final me ofereceram a posição de análise de líderes de equipe. Fizemos algumas melhorias na infraestrutura, o que nos permitiu aumentar o número de projetos que realizamos às vezes. Em seguida, propuseram se unir a outra equipe que desenvolvia software para criar rotas para os funcionários: 5 mil clientes, 150 jardineiros, como contorná-los da maneira ideal. Foi muito emocionante, e agora me parece que as tarefas que são mais sobre ciência da computação do que sobre dados também são muito interessantes.
- Paralelamente a Lamoda, você estava considerando várias propostas, por que a escolha foi feita em favor de Lamoda? O que foi crítico para você?- Sim, houve várias propostas. O que me fisgou em Lamoda? Uma estratégia clara, expectativas claras para mim, confiança e um plano realista de recursos financeiros, ou seja, eles estabelecem uma tarefa clara para mim: “estamos aqui agora, precisamos vir aqui, queremos desenvolver P&D, estamos prontos para investir X, estamos esperando esse e tal efeito econômico” . Só isso. Não há raciocínio sobre como as naves espaciais explorarão as extensões do universo ou que os robôs substituirão todos. Além disso, uma história honesta sobre o desempenho da empresa. Tudo era transparente, claro, e isso, em geral, me subornou porque eu tinha a sensação completa de que estava me juntando a uma equipe de pessoas realmente orientadas para resultados e que entendiam o que queriam. Além disso, eles me deram carta branca para desenvolver essa área. Para mim, foi algum tipo de desafio pessoal, nunca tive a oportunidade de montar uma equipe tão grande. Agora 17 pessoas, e ainda estamos crescendo.
- Esta não é a primeira empresa em que você constrói um departamento de P&D do zero, monta uma equipe. Quais são os 5 primeiros passos que você toma ao ingressar em uma empresa?- O departamento de P&D estava em Lamoda e, diante de mim, em 7 anos até várias equipes e líderes foram substituídos. Além disso, reunimos cerca de metade da equipe atual. Então, não realmente do zero.
Os cinco primeiros passos de uma nova empresa? Acho que o algoritmo não é específico para P&D; em princípio, esse pode ser o caso se você vier a uma nova empresa para pelo menos algum tipo de posição de liderança.
Primeiro, você precisa entender a estratégia atual da empresa, entender quais são os objetivos da empresa, quais KPIs medirão as conquistas.
O segundo é descrever como, levando em consideração sua competência ou função na empresa, você pode influenciar esses KPIs; deve haver algum conjunto de ferramentas e idéias disponíveis. Descreva as necessidades dos negócios e o estado de destino, ou seja, o que geralmente queremos chegar e avalie as ferramentas disponíveis. O aprendizado de máquina é apenas um deles e não é ideal para todas as tarefas.
O terceiro ponto - você precisa auditar o estado atual - pessoas, competências, processos, dados, produtos, infraestrutura, especialmente infraestrutura.
Em geral, somente na quarta etapa após a auditoria do estado atual é possível descrever uma estratégia adicional para a transição do estado atual para o destino. Essencialmente, isso é muito trabalho, incluindo muitas consultas com partes interessadas, partes interessadas, com base nas quais vários cenários possíveis de desenvolvimento precisam ser desenvolvidos. Na minha prática, foi útil tornar pelo menos 3 - conservador, realista e agressivo em termos de custos de recursos. Então tudo fica mais fácil: depois de escolher uma estratégia, fazemos um roteiro, especificamos a estimativa de recursos e começamos a trabalhar.
- O que é ciência de dados para você?- A ciência de dados é minha ferramenta favorita. Este é um campo extremamente emocionante, é como matemática e física, outra maneira de explorar o mundo ao seu redor. Foi a primeira vez que senti isso de forma clara no Yandex, quando estávamos envolvidos na análise de consultas de pesquisa, entendemos quais usuários tinham necessidades, como as resolviam, o que está acontecendo no mundo. Ou seja, você pode olhar o mundo através de um pequeno clique nos dados com os quais trabalha. Isso é interessante e, na minha opinião, não difere de outras maneiras de conhecer, apenas mais um "canal", considere esse o sétimo sentimento. O mesmo aconteceu no “Consultant Plus”: analisamos quais usuários resolvem problemas quando procuram decisões em tribunais, ou seja, o que excita especificamente as pessoas, quais disputas eles têm e que precisam ser resolvidos em juízo. Se falarmos sobre os dados que analisamos na Lamoda, isso não é menos emocionante. Especialmente quando você descobre que blusas e saias são compradas em cores diferentes e não na mesma. Uma observação curiosa com a qual você pode ir mais longe na vida. Você pode aprender muito sobre o mundo ao seu redor através de dados. Portanto, digo que esta é minha ferramenta favorita. E aqui está ele, por um lado, uma ferramenta cognitiva e, por outro lado, uma ferramenta ativa, com a ajuda dela, você pode criar algo novo.
- Se você assume um negócio, que papel você atribui aos dados nos negócios?- A coisa mais importante aqui é não sucumbir ao hype. Se falamos de negócios, os dados, é claro, devem funcionar. Os resultados da análise de dados devem ser rentáveis ou reduzir custos. Caso contrário, algo deu errado em algum lugar. Ao mesmo tempo, a cultura orientada a dados não precisa ser tomada literalmente, podemos tomar decisões sem depender de dados, isso é normal. Além disso, em alguns casos, essa é a única coisa a fazer.
- Diga-me, que projetos você está fazendo na Lamoda? Qual é o projeto de maior sucesso implementado por sua equipe?- Provavelmente a primeira coisa que vale a pena mencionar é a plataforma para testes A / B - na verdade, um serviço que divide os usuários em grupos e gerencia a ativação / desativação de recursos experimentais. Por que isso é importante para nós? Porque, em geral, essa área em si, relacionada ao aprendizado de máquina, não pode existir sem testes constantes de várias hipóteses e idéias. Não podemos saber com antecedência que nossos usuários vão gostar mais ou menos. Qualquer nova idéia deve ser testada. A Amazon fornece estatísticas interessantes, eles dizem que 70% das idéias testadas perdem o teste. Isso deve ser tratado com calma, mesmo que o indicador seja mais alto. Isso significa que, para liberar 5 projetos bem-sucedidos por trimestre, é necessário realizar ± 17. Portanto, uma plataforma confiável para a realização de experimentos controlados é a base sem a qual é absolutamente impossível avançar em termos de desenvolvimento de produtos. Dados nossos planos ambiciosos, foi necessário fazer alguma atualização para esse sistema. A primeira versão foi feita antes de mim; nós a atualizamos significativamente: agora você pode executar mais experimentos ao mesmo tempo, antes que houvesse algumas limitações nesse sentido.
- Que outras direções?- Pesquise, e aqui existem diferenças entre os grandes players, como Yandex e Google, porque podemos trabalhar muito bem nossa área de assunto, é bastante estreita em comparação com a "pesquisa universal na Internet". É impossível fazer uma ontologia de tudo, descrever todos os relacionamentos, mas em uma pequena área específica você pode tomar decisões muito boas que funcionarão. Estamos fazendo nossa lingüística para um mecanismo de pesquisa que possa levar em consideração algumas relações implícitas entre diferentes entidades. , , , , , , . , Tommy Hilfiger Tommy Jeans, . , — , — - . , , Lamoda.
, , , — . . , , , , .
, , , .
— , .— . , . , , , , — . , , . , . , , .
— ? ? ?— , : , , , , -. , -, . , . -, , , . .
4-6 . , . , - . . - , , – .
— Amazon 70% , Lamoda?— , . , , . , – success, learning. . — . , , , , . - .
— , ? learning'e, .— , . , . , , , . , , learning, , . ( , ) , , , . , , , .
— ? , , , . , ?— , : , , . , , , . , , .
— , , Newprolab Lamoda, . , , , ?— , , , , , , . ( Newprolab — . .), , - . . , Newprolab , . - , , , . , . 3 10 , , . . , , , , , .
— , , , , , , , .— , , 4 , , Coursera, , . , , , . , , , , , , .
— « » , , . , ?— – - . , , - , . - , . , . ? : - , . , . , , , , , , . , . , , , , - . , , .
— , -. , ? ?— , «» «», , , , - . , - , . . , , , . , Lamoda . - , .
— , ?— Slack ODS, , , . , , , , , , .
— , , . , , ?— , : , . , , data science, . , , - .
— , , .— , . . , , . , , - - , . — , , , , . , - - . , , , , , , , - , .
, — , , , . , , . : , , , . Ezhome — : data scientist, -, , . , - . , . , .
, , , .