A Yandex treina especialistas em ciência de dados desde 2007. Os alunos valorizam a Escola de Análise de Dados pela relevância de programas e cursos de treinamento, mas eles nem sempre entendem o que os espera após sua conclusão. Trabalha com dados no Yandex ou em outra grande empresa? Mas qual?

Inicialmente, a escola possuía dois departamentos: ciência da computação e análise de dados. Em 2014, quando o big data entrou em moda, apareceu uma terceira especialização - big data. Este ano, para que os alunos entendam imediatamente suas perspectivas, realizamos uma reforma dos departamentos: agora o treinamento será realizado no âmbito de quatro faixas profissionais. Nossa primeira prioridade é informar o aluno sobre possíveis caminhos de desenvolvimento e ajudar a entender quais cursos ajudarão a atingir a meta.
As faixas profissionais não foram destacadas por acaso - essas são as quatro maneiras pelas quais os graduados costumam entrar depois de se formar no ShAD (e alguns já estão em seus estudos). Para cada um desses quatro caminhos, encontramos um graduado que o escolheu e conversamos com eles para entender quais cursos eram mais úteis para trabalhos futuros e como eles escolheram sua vocação profissional.
Cientista de dados (Nikita Popov, 2016 graduada):
“Cientista de dados - como analistas de todas as faixas são agora chamados. Nós da Yandex estamos acostumados a acreditar que um cientista de dados é uma pessoa fluente em aprendizado de máquina e estatística e, o mais importante, na prática, pode extrair informações úteis de uma enorme quantidade de dados.
Atualmente, estou trabalhando na equipe de métricas de pesquisa. Estamos trabalhando para avaliar a qualidade de nossa pesquisa, para escolher qual direção seguir e qual das muitas experiências em andamento realmente aumentará a "felicidade do usuário". Entrei na equipe através de um estágio logo após o final do SHAD. A escola de análise de dados me deu uma excelente base: aprendizado de máquina e cursos de modelo probabilístico são exatamente o que eu uso todos os dias úteis.
Chegando ao SHAD, ainda não entendi o que queria fazer e entrei na empresa com meus colegas de classe, mas já desde os primeiros seminários ficou claro que o SHAD era incrivelmente interessante. Foi lá que eu percebi o que queria fazer. Eu acho que todo cientista de dados deve ser bem versado em vários métodos de aprendizado de máquina, conhecer seus prós, contras e escopo, ser capaz de encontrar dependências nos dados e tirar as conclusões certas com base neles. Apesar de trabalhar como analista, muitas vezes tenho que lidar com o desenvolvimento. Recentemente, adicionei um serviço para o qual desenvolvi um front-end, um back-end e os próprios algoritmos - um cientista de dados deve ser capaz de fazer tudo. ”
Desenvolvedor de Machine Learning (Zhenya Zakharov, graduado em 2018):
“Mesmo na universidade, gostei principalmente das tarefas, nas quais a matemática desempenha um papel significativo, mas o resultado pode ser“ tocado ”. Meu trabalho atual atende muito bem a essas duas condições: implementamos vários algoritmos, modificando-os simultaneamente para trabalhar mais rápido, mais alto e mais forte com nossos dados. Um dos principais indicadores para nós é a produtividade. Há muitos dados, e o algoritmo deve ser capaz de prever e aprender rapidamente em um período de tempo razoável.
Eu tinha muita programação na universidade, mas os cursos ShAD se distinguem por tarefas algoritmicamente mais complexas, uma ênfase maior no desempenho e limpeza de código.
O SHAD me deu um bom conjunto de habilidades básicas que eu uso todos os dias: aprendizado de máquina em suas várias formas, estatísticas aplicadas, algoritmos e uma idéia de como o código industrial deve parecer. O projeto do curso de Big Data acabou sendo muito relevante, onde os caras e a equipe escreveram um aumento de gradiente, tentando pegar o LigthGBM em velocidade, o que não pegamos, mas ainda conseguimos obter um tempo comparável. ”
Especialista em infraestrutura de Big Data (Vlad Bidzila, 2017 graduado):
“No ensino médio, eu queria estar profissionalmente envolvido em programação. Entrei no SHAD quando estava no meu terceiro ano na universidade. Ele abriu diante de mim um admirável mundo novo de aprendizado de máquina e mineração de dados, sistemas altamente eficientes com vários algoritmos na junção de matemática aplicada e programação.
Durante vários anos, trabalhei na Yandex na equipe de qualidade do ranking de pesquisa de vídeos. Os cursos avançados de C ++ e Python da ShAD me ajudaram a me envolver rapidamente no fluxo de trabalho - desde a criação de programas acadêmicos na universidade até o código de produção sério na empresa.
Recentemente, tenho trabalhado no serviço de tecnologias de computação distribuída. Estamos desenvolvendo o sistema YT MapReduce:
habr.com/company/yandex/blog/311104 . Aqui, o conhecimento e as habilidades adquiridas no ShAD também se mostraram extremamente úteis: um curso sobre algoritmos e estruturas de dados clássicos instilou uma cultura algorítmica, desenvolveu a capacidade de escrever rapidamente códigos eficientes e limpos com um número mínimo de bugs e uma estrutura compreensível, para entender soluções algorítmicas complexas; um curso sobre algoritmos para trabalhar com grandes volumes de dados demonstrou as dificuldades que surgem ao processar uma matriz de dados que não se encaixa na memória do computador e métodos para lidar com essas dificuldades, fornecendo uma compreensão dos padrões básicos para a construção de algoritmos na memória externa e algoritmos de streaming, além de desenvolver práticas práticas básicas habilidades de escrita; O curso sobre computação paralela e distribuída introduziu as construções básicas da programação multithread e distribuída, aplicada em todos os lugares do sistema desenvolvido.
Além disso, vale ressaltar que, graças ao ShAD, eu pude me familiarizar profundamente com os cursos de matemática aplicados, que geralmente são deixados de fora do programa universitário clássico: a teoria da informação e a complexidade computacional, matemática discreta avançada, análise estatística, otimização combinatória e convexa. Esse conhecimento combina matemática teórica e a indústria de TI de alta tecnologia. ”
Especialista em Análise de Dados em Ciências Aplicadas (Nikita Kazeev, 2015 graduado):
“Estou trabalhando na aplicação de métodos de aprendizado de máquina para os problemas de física fundamental do CERN como estudante de graduação na HSE e na Universidade Sapienza de Roma.
Ele gostava de física na escola, foi um vencedor da Olimpíada de Toda a Rússia e foi para o FOPF MIPT. Em grande parte devido a considerações idealistas - se você não faz ciência, então o que? Mas sempre atraído por computadores. O trabalho de bacharel foi dedicado à modelagem computacional de plasma não ideal e possuía muitos algoritmos e C ++.
No quarto ano, entrei no SHAD e, um ano depois, fui convidado para o grupo emergente de projetos científicos e educacionais internacionais em Yandex. Agora, ele se transformou em um laboratório conjunto da Yandex e do HSE - LAMBDA. Nós não apenas fazemos as coisas com as mãos, mas também ensinamos o aprendizado de máquinas aos físicos, então eu meio que ensinei em Oxford. Na nossa escola de verão, mas ainda assim;)
Qual dos ShAD é útil? Muitas coisas.
- Curso de algoritmos: uma cultura geral de programação e, de repente, algoritmos. Foi divertido em duas horas acelerar dez vezes o simulador físico, simplesmente adicionando a árvore kd em vez de uma pesquisa exaustiva.
- Aprendizado de máquina, aprendizado profundo: pão e manteiga, especialmente, de repente, a parte teórica. Na física de alta energia, é preciso lidar com problemas não-padrão nos quais a importação xgboost não é suficiente.
- Adaptação de domínio: como combinar considerações físicas e aprendizado de máquina para criar um algoritmo que será treinado em dados simulados e aplicado a reais? E se a amostra de treinamento estiver suja, mas houver pesos negativos que a limpem? Como medir a precisão de restaurar a distribuição GANom?
- Processamento de big data: eu tive que usar o Hadoop.
- Um curso recente sobre produtos: trabalhamos como parte de uma colaboração de 1.000 pessoas e muitos de nossos resultados não são uma descoberta científica pura, mas uma ferramenta projetada para outras pessoas. Por exemplo, o projeto que iniciei como trainee - o índice de pesquisa de eventos que o detector registra - acabou não sendo necessário, diferentemente do sistema de monitoramento com o qual a qualidade dos dados do detector é monitorada no momento.
Em geral, você estará em Genebra, venha visitar, é interessante aqui :) ".