Yandex bildet seit 2007 Data Science-Experten aus. Die Schüler schätzen die School of Data Analysis für die Relevanz von Schulungsprogrammen und Kursen, verstehen jedoch nicht immer, was sie nach Abschluss erwartet. Arbeiten Sie mit Daten in Yandex oder in einem anderen großen Unternehmen? Aber welches?

Anfangs hatte die Schule zwei Abteilungen: Informatik und Datenanalyse. Im Jahr 2014, als Big Data in Mode kam, erschien eine dritte Spezialisierung - Big Data. In diesem Jahr haben wir eine Reform der Abteilungen durchgeführt, damit die Studierenden ihre Perspektiven sofort verstehen: Jetzt findet die Ausbildung im Rahmen von vier Berufsfeldern statt. Unsere erste Priorität ist es, den Studenten über mögliche Entwicklungspfade zu informieren und zu verstehen, welche Kurse zur Erreichung des Ziels beitragen.
Professionelle Studiengänge wurden nicht zufällig hervorgehoben - dies sind vier Möglichkeiten, die Absolventen am häufigsten nach dem Abschluss des ShAD (und einige bereits während ihres Studiums) betreten. Für jeden dieser vier Wege haben wir einen Absolventen gefunden, der ihn ausgewählt und mit ihnen gesprochen hat, um zu verstehen, welche Kurse für die zukünftige Arbeit am nützlichsten sind und wie sie ihre berufliche Berufung gewählt haben.
Datenwissenschaftler (Nikita Popov, Absolvent 2016):
„Datenwissenschaftler - wie Analysten aller Art jetzt genannt werden. Wir bei Yandex sind es gewohnt zu glauben, dass ein Datenwissenschaftler eine Person ist, die fließend maschinelles Lernen und Statistik beherrscht und vor allem in der Praxis nützliche Informationen aus einer großen Datenmenge extrahieren kann.
Ich arbeite derzeit im Search Metrics-Team. Wir arbeiten daran, die Qualität unserer Suche zu bewerten, zu entscheiden, in welche Richtung wir uns bewegen möchten und welches der vielen laufenden Experimente das „Glück des Benutzers“ wirklich steigern wird. Ich bin gleich nach dem Ende des SHAD durch ein Praktikum ins Team gekommen. Die Schule für Datenanalyse hat mir eine hervorragende Basis gegeben: Maschinelles Lernen und probabilistische Modellkurse sind genau das, was ich jeden Arbeitstag benutze.
Als ich am SHAD ankam, verstand ich immer noch nicht, was ich tun wollte, und ich trat mit meinen Klassenkameraden in die Firma ein, aber schon bei den ersten Seminaren wurde klar, dass der SHAD unglaublich interessant war. Dort wurde mir klar, was ich tun wollte. Ich denke, dass jeder Datenwissenschaftler mit verschiedenen Methoden des maschinellen Lernens vertraut sein, ihre Vor- und Nachteile und ihren Umfang kennen, in der Lage sein sollte, Abhängigkeiten in den Daten zu finden und daraus die richtigen Schlussfolgerungen zu ziehen. Trotz der Tatsache, dass ich als Analyst arbeite, muss ich mich sehr oft mit Entwicklung befassen. Kürzlich habe ich einen Service hinzugefügt, für den ich sowohl ein Frontend als auch ein Backend und die Algorithmen selbst entwickelt habe - ein Datenwissenschaftler sollte in der Lage sein, alles zu tun. “
Entwickler für maschinelles Lernen (Zhenya Zakharov, Absolvent 2018):
„Auch an der Universität hat mir die Aufgabe am besten gefallen, bei der Mathematik eine wesentliche Rolle spielt, aber das Ergebnis„ berührt “werden kann. Meine aktuelle Arbeit erfüllt diese beiden Bedingungen ziemlich gut: Wir implementieren verschiedene Algorithmen und modifizieren sie gleichzeitig, um schneller, höher und stärker mit unseren Daten zu arbeiten. Einer der Schlüsselindikatoren für uns ist die Produktivität. Es gibt viele Daten, und der Algorithmus sollte in der Lage sein, in angemessener Zeit schnell vorherzusagen und zu lernen.
Ich hatte viel Programmierung an der Universität, aber die ShAD-Kurse unterscheiden sich in algorithmisch komplexeren Aufgaben, wobei der Schwerpunkt auf Leistung und Code-Sauberkeit liegt.
SHAD gab mir eine Reihe grundlegender Fähigkeiten, die ich jeden Tag benutze: maschinelles Lernen in seinen verschiedenen Formen, angewandte Statistiken, Algorithmen und eine Vorstellung davon, wie Industriecode aussehen sollte. Das Projekt des Big-Data-Kurses erwies sich als sehr relevant. Die Jungs und das Team schrieben ein Gradienten-Boosting und versuchten, LigthGBM in einer Geschwindigkeit zu fangen, die wir nicht fingen, aber dennoch eine vergleichbare Zeit erreichten. “
Spezialist für Big Data-Infrastruktur (Vlad Bidzila, Absolvent 2017):
„Von der High School an wollte ich mich professionell mit Programmieren beschäftigen. Ich trat in den SHAD ein, als ich in meinem dritten Jahr an der Universität war. Er eröffnete mir eine schöne neue Welt des maschinellen Lernens und Data Mining, hocheffiziente Systeme mit einer Reihe von Algorithmen an der Schnittstelle von angewandter Mathematik und Programmierung.
Ich habe mehrere Jahre bei Yandex im Qualitätsteam des Videosuchrankings gearbeitet. Die fortgeschrittenen C ++ - und Python-Kurse von ShAD haben mir geholfen, mich schnell in den Workflow einzubringen - vom Schreiben akademischer Programme an der Universität bis hin zu seriösem Produktionscode im Unternehmen.
Vor kurzem habe ich im Dienst verteilter Computertechnologien gearbeitet. Wir entwickeln das YT MapReduce-System:
habr.com/company/yandex/blog/311104 . Auch hier erwiesen sich die in ShAD erworbenen Kenntnisse und Fähigkeiten als äußerst nützlich: Ein Kurs über klassische Algorithmen und Datenstrukturen führte zu einer algorithmischen Kultur, entwickelte die Fähigkeit, schnell effizienten und sauberen Code mit einer minimalen Anzahl von Fehlern und einer verständlichen Struktur zu schreiben und komplexe algorithmische Lösungen zu verstehen. Ein Kurs über Algorithmen zum Arbeiten mit großen Datenmengen zeigte die Schwierigkeiten auf, die bei der Verarbeitung eines Datenarrays auftreten, das nicht in den Arbeitsspeicher des Computers passt, und Methoden zur Bewältigung dieser Schwierigkeiten, lieferte ein Verständnis der Grundmuster für die Erstellung von Algorithmen in externen Speichern und Streaming-Algorithmen und entwickelte grundlegende praktische Methoden Schreibfähigkeiten; Der Kurs über paralleles und verteiltes Rechnen führte in die Grundkonstruktionen der Multithread- und verteilten Programmierung ein, die überall und überall im entwickelten System angewendet werden.
Darüber hinaus ist es erwähnenswert, dass ich dank ShAD tiefgreifende Kenntnisse in angewandten mathematischen Kursen erlangen konnte, die im klassischen Universitätsprogramm häufig nicht berücksichtigt werden: Theorie der Information und rechnerische Komplexität, fortgeschrittene diskrete Mathematik, statistische Analyse, kombinatorische und konvexe Optimierung. Dieses Wissen verbindet theoretische Mathematik und die Hightech-IT-Branche. “
Spezialist für Datenanalyse in angewandten Wissenschaften (Nikita Kazeev, Absolvent 2015):
„Ich arbeite als Doktorand an der HSE und der Universität Sapienza in Rom an der Anwendung maschineller Lernmethoden für die Probleme der Grundlagenphysik am CERN.
Er liebte Physik von der Schule, war Preisträger der Allrussischen Olympiade, ging zu FOPF MIPT. Vor allem aus idealistischen Gründen - wenn Sie keine Wissenschaft betreiben, was dann? Aber immer von Computern angezogen. Die Bachelorarbeit widmete sich der Computermodellierung von nicht idealem Plasma und verfügte über viele Algorithmen und C ++.
Im vierten Jahr trat ich in den SHAD ein und ein Jahr später wurde ich zu der aufstrebenden Gruppe internationaler pädagogischer und wissenschaftlicher Projekte in Yandex eingeladen. Jetzt hat es sich in ein gemeinsames Labor von Yandex und der HSE - LAMBDA verwandelt. Wir machen nicht nur Dinge mit unseren Händen, sondern unterrichten auch Physiker in maschinellem Lernen, also unterrichtete ich in Oxford. In unserer Sommerschule aber trotzdem;)
Welcher der ShAD ist nützlich? Viele Dinge.
- Algorithmuskurs: eine allgemeine Programmierkultur und plötzlich Algorithmen. In zwei Stunden hat es Spaß gemacht, den physischen Simulator um das Zehnfache zu beschleunigen, indem einfach kd tree anstelle einer umfassenden Suche hinzugefügt wurde.
- Maschinelles Lernen, tiefes Lernen: Brot und Butter, besonders plötzlich der theoretische Teil. In der Hochenergiephysik muss man sich mit nicht standardmäßigen Problemen befassen, bei denen der Import von xgboost nicht ausreicht.
- Domänenanpassung: Wie können physikalische Überlegungen und maschinelles Lernen kombiniert werden, um einen Algorithmus zu erstellen, der auf simulierten Daten trainiert und auf reale Daten angewendet wird? Was ist, wenn das Trainingsmuster verschmutzt ist, aber negative Gewichte es reinigen? Wie kann die Genauigkeit der Wiederherstellung von Distribution GANom gemessen werden?
- Big Data-Verarbeitung: Ich musste Hadoop verwenden.
- Ein aktueller Produktkurs: Wir arbeiten im Rahmen einer Zusammenarbeit von 1.000 Personen. Viele unserer Ergebnisse sind keine rein wissenschaftliche Entdeckung, sondern ein Werkzeug, das für andere Personen entwickelt wurde. Zum Beispiel wurde das Projekt, mit dem ich als Auszubildender begonnen habe - der Suchindex für Ereignisse, die der Detektor registriert - nicht benötigt, im Gegensatz zu dem Überwachungssystem, mit dem die Qualität der Daten vom Detektor derzeit überwacht wird.
Im Allgemeinen werden Sie in Genf sein, kommen Sie zu Besuch, es ist hier interessant :) ".