Quatre façons de l'école d'analyse de données Yandex

Yandex forme des experts en science des données depuis 2007. Les étudiants apprécient l'École d'analyse des données pour la pertinence des programmes de formation et des cours, mais ils ne comprennent pas toujours ce qui les attend après son achèvement. Vous travaillez avec des données dans Yandex ou dans une autre grande entreprise? Mais lequel?



Au départ, l'École avait deux départements: l'informatique et l'analyse des données. En 2014, lorsque le Big Data est devenu à la mode, une troisième spécialisation est apparue: le Big Data. Cette année, afin de faire comprendre immédiatement aux étudiants leurs perspectives, nous avons procédé à une réforme des départements: désormais la formation se déroulera dans le cadre de quatre filières professionnelles. Notre première priorité est d'informer l'étudiant sur les voies de développement possibles et d'aider à comprendre quels cours aideront à atteindre l'objectif.

Les parcours professionnels n'ont pas été mis en évidence par hasard - ce sont quatre façons que les diplômés choisissent le plus souvent après avoir obtenu leur diplôme de ShAD (et certains déjà pendant leurs études). Pour chacun de ces quatre parcours, nous avons trouvé un diplômé qui l'a choisi et discuté avec eux pour comprendre quels cours étaient les plus utiles pour les travaux futurs et comment ils ont choisi leur vocation professionnelle.

Data scientist (Nikita Popov, diplômé 2016):

«Data scientist - comme les analystes de toutes les bandes sont maintenant appelés. Chez Yandex, nous sommes habitués à croire qu'un scientifique des données est une personne qui maîtrise couramment l'apprentissage automatique et les statistiques et, surtout, dans la pratique, peut extraire des informations utiles d'une énorme quantité de données.

Je travaille actuellement sur l'équipe des statistiques de recherche. Nous travaillons pour évaluer la qualité de notre recherche, pour choisir la direction à prendre et laquelle des nombreuses expériences en cours augmentera vraiment le «bonheur de l'utilisateur». Je suis entré dans l'équipe grâce à un stage juste après la fin du SHAD. L'école d'analyse des données m'a donné une excellente base: les cours d'apprentissage automatique et de modèles probabilistes sont exactement ce que j'utilise tous les jours ouvrables.

En arrivant au SHAD, je ne comprenais toujours pas ce que je voulais faire, et je suis entré dans l'entreprise avec mes camarades de classe, mais dès les premiers séminaires, il est devenu clair que le SHAD était incroyablement intéressant. C'est là que j'ai réalisé ce que je voulais faire. Je pense que chaque scientifique des données doit être bien versé dans les différentes méthodes d'apprentissage automatique, connaître ses avantages, ses inconvénients et sa portée, être capable de trouver des dépendances dans les données et de tirer les bonnes conclusions en fonction de celles-ci. Malgré le fait que je travaille en tant qu'analyste, je dois très souvent faire face au développement. Récemment, j'ai ajouté un service pour lequel j'ai développé à la fois un frontend, un backend et les algorithmes eux-mêmes - un data scientist devrait être capable de tout faire. »

Développeur d'apprentissage machine (Zhenya Zakharov, diplômé 2018):

«Même à l'université, j'ai surtout aimé les tâches, où les mathématiques jouent un rôle essentiel, mais le résultat peut être touché.» Mon travail actuel remplit assez bien ces deux conditions: nous implémentons différents algorithmes, les modifiant simultanément pour travailler plus vite, plus haut, plus fort avec nos données. L'un des indicateurs clés pour nous est la productivité. Il y a beaucoup de données et l'algorithme devrait être capable de prédire et d'apprendre rapidement dans un délai raisonnable.

J'avais beaucoup de programmation à l'université, mais les cours ShAD se distinguent par des tâches algorithmiques plus complexes, une plus grande emphase sur les performances et la propreté du code.

SHAD m'a donné un bon ensemble de compétences de base que j'utilise tous les jours: l'apprentissage automatique sous ses différentes formes, les statistiques appliquées, les algorithmes et une idée de l'apparence du code industriel. Le projet du cours Big Data s'est avéré très pertinent, où les gars et l'équipe ont écrit un boost de gradient, essayant d'attraper LigthGBM en vitesse, ce que nous n'avons pas attrapé, mais avons quand même réussi à atteindre un temps comparable. »

Spécialiste de l'infrastructure Big Data (Vlad Bidzila, diplômé 2017):

«Depuis l'école secondaire, je voulais m'engager professionnellement dans la programmation. Je suis entré au SHAD alors que j'étais en troisième année à l'université. Il a ouvert devant moi un nouveau monde courageux d'apprentissage automatique et d'exploration de données, des systèmes très efficaces avec un tas d'algorithmes à la jonction des mathématiques appliquées et de la programmation.

Pendant plusieurs années, j'ai travaillé chez Yandex dans l'équipe qualité du classement de recherche vidéo. Les cours avancés de C ++ et Python de ShAD m'ont aidé à m'impliquer rapidement dans le flux de travail - de la rédaction de programmes académiques à l'université au sérieux code de production dans l'entreprise.

Récemment, je travaille au service des technologies informatiques distribuées. Nous développons le système YT MapReduce: habr.com/company/yandex/blog/311104 . Ici, les connaissances et les compétences acquises dans ShAD se sont également avérées extrêmement utiles: un cours sur les algorithmes classiques et les structures de données a inculqué une culture algorithmique, développé la capacité d'écrire rapidement du code efficace et propre avec un nombre minimum de bogues et une structure compréhensible, pour comprendre des solutions algorithmiques complexes; un cours sur les algorithmes pour travailler avec de grands volumes de données a démontré les difficultés qui se posent lors du traitement d'un tableau de données qui ne tient pas dans la mémoire de l'ordinateur, et les méthodes pour faire face à ces difficultés, a fourni une compréhension des modèles de base pour la construction d'algorithmes dans la mémoire externe et les algorithmes de streaming, et a développé des pratiques de base compétences en écriture; Le cours sur l'informatique parallèle et distribuée a présenté les constructions de base de la programmation multithread et distribuée, appliquées partout et partout dans le système développé.

En outre, il convient de noter que, grâce à ShAD, j'ai pu me familiariser profondément avec les cours de mathématiques appliquées, souvent exclus du programme universitaire classique: théorie de l'information et complexité du calcul, mathématiques avancées discrètes, analyse statistique, optimisation combinatoire et convexe. Ces connaissances combinent les mathématiques théoriques et l'industrie informatique de haute technologie. »

Spécialiste en analyse de données en sciences appliquées (Nikita Kazeev, diplômée 2015):

«Je travaille sur l'application des méthodes d'apprentissage automatique pour les problèmes de physique fondamentale au CERN en tant qu'étudiant diplômé au HSE et à l'Université Sapienza de Rome.

Il aimait la physique de l'école, a été lauréat de l'Olympiade panrusse, est allé au FOPF MIPT. En grande partie à cause de considérations idéalistes - si vous ne faites pas de science, alors quoi? Mais toujours attiré par les ordinateurs. Le travail de licence était consacré à la modélisation informatique du plasma non idéal, et il avait de nombreux algorithmes et C ++.

Au cours de la quatrième année, je suis entré au SHAD, et un an plus tard, j'ai été invité au groupe émergent de projets éducatifs et scientifiques internationaux à Yandex. Maintenant, il s'est transformé en laboratoire commun de Yandex et du HSE - LAMBDA. Nous faisons non seulement des choses avec nos mains, mais nous enseignons aussi l'apprentissage physique aux physiciens, alors j'ai en quelque sorte enseigné à Oxford. À notre école d'été, mais quand même;)

Lesquels des ShAD sont utiles? Beaucoup de choses.

  • Cours d'algorithmes: une culture générale de programmation et, tout à coup, des algorithmes. C'était amusant en deux heures d'accélérer le simulateur physique décuplé, en ajoutant simplement l'arbre kd au lieu d'une recherche exhaustive.
  • Apprentissage automatique, apprentissage profond: le pain et le beurre, en particulier, tout d'un coup, la partie théorique. En physique des hautes énergies, il faut faire face à des problèmes non standard dans lesquels l'importation xgboost ne suffit pas.
  • Adaptation du domaine: comment combiner les considérations physiques et l'apprentissage automatique pour créer un algorithme qui sera formé sur des données simulées et appliqué au réel? Que faire si l'échantillon d'entraînement est sale, mais qu'il y a des poids négatifs qui le nettoient? Comment mesurer la précision de la restauration de la distribution GANom?
  • Traitement du Big Data: j'ai dû utiliser Hadoop.
  • Un cours produit récent: nous travaillons dans le cadre d'une collaboration de 1000 personnes, et nombre de nos résultats ne sont pas une pure découverte scientifique, mais un outil conçu pour d'autres personnes. Par exemple, le projet avec lequel j'ai commencé en tant que stagiaire - l'index de recherche des événements que le détecteur enregistre - n'a finalement pas été nécessaire, contrairement au système de surveillance avec lequel la qualité des données du détecteur est actuellement surveillée.

En général, vous serez à Genève, venez visiter, c'est intéressant ici :) ".

Source: https://habr.com/ru/post/fr422761/


All Articles