Habr, hallo! Wir setzen eine Reihe von Interviews mit Newprolab-Alumni fort, in denen sie über ihre Geschichte des Einstiegs in die Arbeit mit Big Data sprechen. Die Geschichten sind unterschiedlich und werden für diejenigen interessant sein, die darüber nachdenken, ihren Karriereweg zu ändern oder wie neues Wissen zur Lösung aktueller Probleme beitragen kann. Treffen Sie Oleg Khomyuk, Leiter Forschung und Entwicklung bei Lamoda.
Oleg sprach ĂĽber seinen Karriereweg, seine Werte, warum er sich fĂĽr Lamoda und nicht fĂĽr ein Unternehmen im Tal entschieden hatte, ĂĽber aktuelle Projekte, sein Team, ĂĽber die erfolgreichsten und erfolglosesten Projekte, ĂĽber die Einstellung zur Datenwissenschaft und vieles mehr.
- Oleg, wie war Ihr beruflicher Weg zum Leiter Forschung und Entwicklung in Lamoda?- Es scheint mir, dass jeder berufliche Weg das Ergebnis mehrerer Gründe und manchmal Unfälle ist. Unter diesen Gründen können mehrere Hauptgründe unterschieden werden: Merkmale des Denkens, Lebenswerte und im Allgemeinen, wie eine Person versteht, was Erfolg ist. Dieses Verständnis von Erfolg ist genau der Vektor, den wir als Kompass verwenden, um einen professionellen Weg zu wählen.
In diesem Sinne stellte sich für mich alles ganz einfach heraus: Die Schule zeigte eindeutig Fähigkeiten für exakte Wissenschaften, nahm ständig an Wettbewerben teil und erreichte sogar den 3. Platz in der 9. Klasse bei der regionalen Mathematikolympiade unter Schulkindern. Und im Großen und Ganzen war es immer sehr interessant, Rätsel zu lösen, nach Mustern zu suchen, ich mag immer noch Aufgaben mit Einfallsreichtum.
Ich habe auch gerne an der Universität studiert: Ich habe mein Studium an der MSTU abgeschlossen. N.E. Bauman mit Auszeichnung in "Optoelektronische Instrumentierung" wurde uns beigebracht, aus physikalischer und mikroelektronischer Sicht Geräte zu entwickeln: Wärmebildkameras, Digitalkameras, Teleskope, sogar Scharfschützenvisiere, Zielsuchsysteme und Nachtsichtgeräte. Ich muss sagen, dass dies ein unglaublich interessanter Beruf ist und unser Lehrpersonal hervorragend war. Ein solches reales Engineering befindet sich an der Schnittstelle mehrerer Wissensbereiche. Manchmal ist es etwas schade, dass es bei diesem Thema nicht geklappt hat.
- Warum nicht?- In den letzten Kursen war ich etwas enttäuscht von dem, was ich tat. Es stellte sich heraus, dass die Nachfrage nach einem Beruf im Land gering ist, alles sehr lokal ist, die besten der besten Ingenieure hauptsächlich in Institutslabors arbeiten, seltene Fabriken in der Lage sind, Ingenieurprojekte, veraltete Geräte usw. durchzuführen. Es gab natürlich einige Erfolge, aber der Umfang war nicht der gleiche, den ich mir zu Beginn meines Studiums vorgestellt hatte. Dieser Faktor wurde durch niedrige Raten für Forscher ergänzt, es war möglich, private Transporte zu betreiben und mehr zu verdienen. Natürlich gab es immer noch Möglichkeiten, Geld zu verdienen, da sie nicht ganz offiziell für japanische Unternehmen arbeiteten, natürlich ohne Rechte an geistigem Eigentum.
Irgendwann luden mich meine Freunde ein, bei einem ziemlich großen Internetanbieter in der Nähe von Moskau zu arbeiten, und ich stimmte zu. Ich war ziemlich bereit, neue Dinge zu lernen, technische Ausbildung bietet in diesem Sinne viel Spielraum.
Dort habe ich neue technische Fähigkeiten erworben, mich mit dem Thema Qualitätsmanagement vertraut gemacht und allgemein die diesbezüglichen Praktiken der Welt angesprochen. Es gibt einen solchen Qualitätsmanagementstandard, sogar eine Reihe von ISO 9000-Standards, die einige Methoden zur Organisation von Prozessen in einem Unternehmen anbieten, wobei die Beziehung zwischen der Qualität des Endprodukts und der internen Verwaltung der Prozesse durch das Unternehmen als Axiom herangezogen wird. Die Hauptidee ist, dass sich die Qualität Ihrer Produkte ständig verbessert, wenn Sie alles im Rahmen des Standards tun, da Sie jeden Prozess messen, denken, planen, tun und erneut messen, der diese Qualität beeinflussen kann. Diese zyklische Aktivität der kontinuierlichen Verbesserung hat sogar einen Namen - den Deming-Zyklus. Ich war irgendwie von diesem Thema fasziniert, wie das Management, aber es ist sehr mathematisch.
Infolgedessen habe ich dort ungefähr 2 Jahre lang gearbeitet und verschiedene Dinge getan, darunter die Leitung einer kleinen Abteilung, den Aufbau von Prozessen und viele Gespräche mit der Qualitätsabteilung.
Als nächstes kam Yandex. Irgendwann sah ich, dass sie Projektmanager in der Abteilung für Suchqualität anstellten. Die Stelle selbst war nicht so begeistert, die Testaufgabe war mehr interessiert: Beschreiben Sie das bestehende Yandex-Suchproblem und finden Sie heraus, wie es gelöst werden kann. Nun, der Auslöser in meinem Kopf für das Wort „Qualität“ hat wahrscheinlich funktioniert. Ich habe 10 Stunden hintereinander an der Aufgabe gearbeitet, es stellte sich heraus, dass es mehrere Seiten waren. Infolgedessen kontaktierten sie mich, forderten ein Interview an und machten ein Angebot, das ich gerne annahm.
Während ich in Yandex speziell für mich arbeitete, passte alles zusammen. Ich sah, wie Big Data, Mathematik, Algorithmen, der Fokus auf den Benutzer, seine Bedürfnisse als ein einziger Mechanismus zusammenarbeiten und es Ihnen ermöglichen, einerseits bahnbrechende Produkte zu erstellen und Geld zu verdienen auf der anderen Seite. Es scheint mir, dass ich Yandex diesen entstandenen Wunsch genommen habe, Produkte basierend auf Daten herzustellen und maschinelles Lernen zu betreiben. Seitdem begann er sich aktiv in diese Richtung zu entwickeln.
- Es war 2011, das Thema Big Data war noch nicht sehr beliebt, es gab keine Programme. Wo hast du studiert, alles gelesen?- Natürlich war der verfügbare Inhalt nicht genug und wir waren alle so wissenshungrig. Aber Coursera war schon da und übrigens auch ShAD. Ich habe Vorontsovs Vorträge 15 Mal angehört und nichts verstanden. Viele haben dies durchgemacht, es war eine interessante Ära.
Im Allgemeinen begann ich mich ein wenig vom Thema Informationssuche zu entfernen, arbeitete gerne mit Daten, fĂĽhlte mich von einem neuen Bereich im Zusammenhang mit maschinellem Lernen angezogen und verlieĂź 2012 das Unternehmen.
- Und was nach Yandex?Nach Yandex war "Consultant Plus". Bereits bewusster die Richtung gewählt, die mit der Datenanalyse verbunden ist. Gerade die Daten von Benutzeraktionen wurden gerade erst in großem Umfang gesammelt, also nahm ich an dieser Aktivität teil und begann, Projekte zu erstellen.
Im Allgemeinen war es eine interessante Zeit, jetzt stehen viele Bibliotheken für maschinelles Lernen zur Verfügung, zum Beispiel xgboost, und wir haben unseren Gradienten-Boosting auf Bäumen in C ++ geschrieben. Jetzt kann es sich natürlich nicht jedes Team leisten, und es besteht keine Notwendigkeit - alles ist schon realisiert. Eine solche Geschichte.
- Hast du alleine geschrieben oder hattest du schon ein Team?- Das Team war ja schon neben Talenten. Im zweiten Jahr meiner Arbeit bei Consultant Plus kam ein talentierter Student von VMK zu uns, der in ein paar Monaten seine Implementierung von Boosting schrieb und begann, Modelle zu trainieren.
Zu diesem Zeitpunkt hatten wir bereits das Ziel, ein ganzes Team von Datenwissenschaftlern zu bilden. Wir hatten das Gefühl, dass die Daten viele neue Möglichkeiten bieten. Dann bot sich die Gelegenheit, zwei ShAD-Absolventen, die wahrscheinlich mehr als ich kannten, und Entwickler für die Erstellung von Repositories zu gewinnen, sehr erfolgreich. Alle haben es versucht, hauptsächlich am Hadoop-Cluster gearbeitet, obwohl es nach modernen Maßstäben nicht viele Daten gab.
Auf dem Höhepunkt von uns waren wahrscheinlich insgesamt 9 Leute, die gute Probleme lösten. Zum Beispiel suchten sie nach Ausbrüchen des Benutzerinteresses an verschiedenen Themen. Dies half den Autoren, die Auswahl derjenigen, für die es sinnvoll ist, neues Material zu schreiben, optimaler anzugehen.
Danach arbeitete ich fĂĽr Ezhome, ein Startup in Palo Alto. Ăśbrigens hat mich Mitya Kataev dort empfohlen, mit der wir gemeinsam
im Rahmen des Big Data Specialist-Programms studiert haben . Sein Bekannter Kirill Klokov, der in Ezhome als Entwicklungsleiter arbeitete, suchte gerade einen Datenwissenschaftler im Team. Die Hauptidee des Unternehmens ist die Schaffung von Uber-Erfahrung für Home Services; Als Ausgangspunkt wurde ein Service für die Pflege der Umgebung gewählt - angefangen beim Rasenmähen bis hin zur Reinigung, Pflanzung von Pflanzen und Bäumen. Infolgedessen begann ich dort als Data Scientist zu arbeiten, ich wollte mich unbedingt bei einem Startup versuchen und ich wollte mit meinen Händen arbeiten. Ich erlebe regelmäßig diesen analytischen Juckreiz, ich möchte selbst etwas Sinnvolles tun, obwohl ich mich seit einiger Zeit hauptsächlich auf organisatorische Prozesse konzentriert habe. Früher hatte ich gehofft, dass der Juckreiz eines Tages nachlässt, aber nein, bis heute versuche ich, „auf zwei Stühlen zu sitzen“, das heißt, mich sowohl als Manager als auch als Spezialist zu entwickeln.
- Schon jetzt?"Schon jetzt." Obwohl im Moment natürlich nicht genug Zeit für viel ist: ein großes Team, viele Managementaufgaben, ich bin am Wochenende verspätet, da es jetzt viele Möglichkeiten dafür gibt - zum Beispiel Kaggle. Ich möchte auch etwas mit meinen eigenen Händen machen, aber ich habe Leute in meinem Team, die auf ihrem Gebiet eindeutig besser sind als ich. Meiner Meinung nach muss der Manager jedoch über harte Fähigkeiten verfügen, um ein effektives Projektmanagement im Bereich der Datenanalyse zu gewährleisten. Ich lerne ständig. Im Moment habe ich mich zum Beispiel entschlossen, mich auf Programmierung zu spezialisieren, um nicht zu vergessen, was passiert ist.
- Rückkehr nach Ezhome: Warum brauchten sie einen Datenwissenschaftler? Vor welchen Aufgaben standen Sie?- Das ist eine gute Frage. Ganz am Anfang habe ich gefragt, welches Ergebnis von mir erwartet wird. Die Antwort war im Geiste: "Wir selbst verstehen es noch nicht genau, versuchen wir es." Aber schnell wurde eine gute Aufgabe gefunden: Zu dieser Zeit gab es einen Engpass bei der Gewinnung neuer Kunden, da jeder neue Antrag von einer Person bearbeitet, eine Site anhand eines Satellitenbilds gemessen und versucht wurde zu verstehen, wie viel es kosten sollte, eine solche Site zu warten. Es gab ein lineares Expertenmodell, das sich mit dieser Bewertung befasste. Es ist klar, dass die Qualität der Prognose verbessert werden sollte und wie Sie eine größere Anzahl von Parametern fachmännisch berücksichtigen können, können Sie nicht bestimmen. Hier hat sich maschinelles Lernen als nützlich erwiesen. Wir begannen, die Zeit, die der Gärtner verbringen wird, anhand der Parameter des Standorts vorherzusagen. Die Parameter der Websites wurden aus offenen Quellen entnommen, und die „Lehrer“ wurden aus historischen Daten entnommen. Dann gab es bereits eine kleine Basis aktiver Kunden, die wöchentliche Dienste abonnierten.
Infolgedessen wurde die Aufgabe ausgelöst, Daten waren für die meisten eingehenden Anrufe verfügbar, es war möglich, individuelle Preise im laufenden Betrieb zu formulieren. Klassische Automatisierung - Roboter arbeiten, Menschen entspannen sich. Dann wurde ich eingeladen, für eine Weile, ungefähr anderthalb Monate, in die Zentrale im Tal zu kommen.
Davor habe ich aus der Ferne gearbeitet, da war fast das gesamte Team entfernt: die USA, Indien, Griechenland, Polen, Russland. Das Team war sehr cool, es war eine Freude zu arbeiten. Es gelang mir, viele coole Aufgaben zu erledigen. Am Ende wurde mir die Position eines Teamleiters angeboten. Wir haben einige Verbesserungen an der Infrastruktur vorgenommen, wodurch wir die Anzahl der Projekte, die wir zeitweise durchgeführt haben, erhöhen konnten. Dann schlugen sie vor, sich mit einem anderen Team zusammenzuschließen, das Software für die Erstellung von Routen für Mitarbeiter entwickelte: 5.000 Kunden, 150 Gärtner, wie man sie optimal umgehen kann. Es war sehr aufregend, und jetzt scheint es mir, dass Aufgaben, bei denen es mehr um Informatik als um Daten geht, auch sehr interessant sind.
- Parallel zu Lamoda haben Sie mehrere Vorschläge geprüft. Warum wurde die Entscheidung zugunsten von Lamoda getroffen? Was war für Sie kritisch?- Ja, es gab mehrere Vorschläge. Was hat mich an Lamoda angeschlossen? Eine klare Strategie, klare Erwartungen an mich, Vertrauen und ein realistischer Ressourcenplan für die Finanzen, das heißt, sie stellen eine klare Aufgabe für mich dar: „Wir sind jetzt hier, wir müssen hier sein, wir wollen F & E entwickeln, wir sind bereit, X zu investieren, wir erwarten solche und solche wirtschaftlichen Auswirkungen.“ . Das ist alles. Keine Überlegungen darüber, wie Raumschiffe die Weiten des Universums pflügen oder dass Roboter alle ersetzen werden. Plus eine ehrliche Geschichte darüber, wie es dem Unternehmen geht. Alles war transparent, klar und dies bestach mich im Allgemeinen, weil ich das Gefühl hatte, einem Team von Menschen beizutreten, die wirklich ergebnisorientiert waren und verstanden, was sie wollen. Außerdem gaben sie mir einen Freibrief, um dieses Gebiet zu entwickeln. Für mich war es eine persönliche Herausforderung, ich hatte nie die Gelegenheit, ein so großes Team zusammenzustellen. Jetzt 17 Menschen, und wir wachsen immer noch.
- Dies ist nicht das erste Unternehmen, in dem Sie eine Forschungs- und Entwicklungsabteilung von Grund auf neu aufbauen und ein Team zusammenstellen. Was sind die ersten 5 Schritte, die Sie unternehmen, wenn Sie einem Unternehmen beitreten?- Die Forschungs- und Entwicklungsabteilung war in Lamoda und vor mir wurden in 7 Jahren sogar mehrere Teams und Führungskräfte ersetzt. Außerdem haben wir ungefähr die Hälfte des aktuellen Teams versammelt. Also nicht wirklich von Grund auf neu.
Die ersten fĂĽnf Schritte in einem neuen Unternehmen? Ich denke, der Algorithmus ist nicht spezifisch fĂĽr Forschung und Entwicklung. Im Prinzip kann dies der Fall sein, wenn Sie zu einem neuen Unternehmen kommen, um zumindest eine FĂĽhrungsposition einzunehmen.
Zunächst müssen Sie die aktuelle Strategie des Unternehmens verstehen, um zu verstehen, welche Ziele das Unternehmen verfolgt und welcher KPI die Erfolge misst.
Die zweite besteht darin, zu beschreiben, wie genau Sie unter Berücksichtigung Ihrer Kompetenz oder Rolle im Unternehmen diese KPIs beeinflussen können. Es sollten einige Tools und Ideen verfügbar sein. Beschreiben Sie die Anforderungen des Unternehmens und den Zielstatus, dh das, worauf wir im Allgemeinen abzielen, und bewerten Sie dann die verfügbaren Tools. Maschinelles Lernen ist nur eine davon und nicht für jede Aufgabe optimal.
Der dritte Punkt - Sie mĂĽssen den aktuellen Status prĂĽfen - Personen, Kompetenzen, Prozesse, Daten, Produkte, Infrastruktur, insbesondere Infrastruktur.
Im Allgemeinen wird es erst im 4. Schritt nach der Prüfung des aktuellen Zustands möglich, eine weitere Strategie für den Übergang vom aktuellen Zustand zum Zielzustand zu beschreiben. Dies ist im Wesentlichen eine Menge Arbeit, einschließlich vieler Konsultationen mit interessierten Parteien und Interessengruppen, auf deren Grundlage mehrere mögliche Entwicklungsszenarien entwickelt werden müssen. In meiner Praxis war es nützlich, mindestens 3 konservativ, realistisch und aggressiv in Bezug auf die Ressourcenkosten zu machen. Dann ist alles einfacher: Nach Auswahl einer Strategie erstellen wir eine Roadmap, geben die Ressourcenschätzung an und machen uns an die Arbeit.
- Was ist Data Science für Sie?- Data Science ist mein Lieblingswerkzeug. Dies ist ein äußerst aufregendes Gebiet, es ist wie Mathematik und Physik, eine andere Möglichkeit, die Welt um Sie herum zu erkunden. Dies war das erste Mal, dass ich es in Yandex besonders deutlich spürte, als wir uns mit der Analyse von Suchanfragen befassten. Wir haben verstanden, welche Bedürfnisse Benutzer haben, wie sie sie lösen und was in der Welt passiert. Das heißt, Sie können die Welt durch einen kleinen Klick auf die Daten betrachten, mit denen Sie arbeiten. Dies ist interessant und unterscheidet sich meiner Meinung nach nicht von anderen Arten des Wissens, sondern nur von einem anderen „Kanal“. Betrachten Sie dies als das 7. Gefühl. Dasselbe geschah in „Consultant Plus“: Wir haben untersucht, welche Benutzer Probleme lösen, wenn sie nach Gerichtsentscheidungen suchen, dh was die Menschen besonders begeistert, welche Streitigkeiten sie haben, die vor Gericht beigelegt werden müssen. Wenn wir über die Daten sprechen, die wir bei Lamoda analysieren, ist dies nicht weniger aufregend. Besonders wenn Sie herausfinden, dass Blusen und Röcke nicht in derselben, sondern in verschiedenen Farben gekauft werden. Eine merkwürdige Beobachtung, mit der Sie im Leben weiter gehen können. Durch Daten können Sie viel über die Welt um Sie herum lernen. Deshalb sage ich, dass dies mein Lieblingswerkzeug ist. Und hier ist er einerseits ein kognitives Werkzeug und andererseits ein aktives Werkzeug, mit dessen Hilfe Sie etwas Neues erschaffen können.
- Welche Rolle weisen Sie Daten im Unternehmen zu, wenn Sie ein Unternehmen übernehmen?- Das Wichtigste dabei ist, nicht dem Hype zu erliegen. Wenn wir über das Geschäft sprechen, sollten die Daten natürlich funktionieren. Die Ergebnisse der Datenanalyse sollten rentabel sein oder die Kosten senken. Wenn nicht, ist irgendwo etwas schief gelaufen. Gleichzeitig muss eine datengetriebene Kultur nicht wörtlich genommen werden, wir können Entscheidungen treffen, ohne uns auf Daten zu verlassen. Dies ist normal. Darüber hinaus ist dies in einigen Fällen das einzige, was zu tun ist.
- Sag mir, welche Projekte machst du bei Lamoda? Was ist das erfolgreichste Projekt Ihres Teams?- Wahrscheinlich ist als erstes die Plattform für A / B-Tests erwähnenswert - ein Dienst, der Benutzer in Gruppen aufteilt und das Ein- und Ausschalten experimenteller Funktionen verwaltet. Warum ist uns das wichtig? Denn im Allgemeinen kann dieser Bereich selbst, der sich auf maschinelles Lernen bezieht, nicht existieren, ohne ständig verschiedene Hypothesen und Ideen zu testen. Wir können nicht im Voraus wissen, dass es unseren Nutzern mehr oder weniger gefallen wird. Jede neue Idee muss getestet werden. Amazon liefert interessante Statistiken, sie sagen, dass 70% der Ideen, die sie testen, den Test verlieren. Dies sollte ruhig behandelt werden, auch wenn der Indikator höher ist. Dies bedeutet, dass für die Veröffentlichung von 5 erfolgreichen Projekten pro Quartal ± 17 erforderlich sind. Eine zuverlässige Plattform für die Durchführung kontrollierter Experimente ist daher die Grundlage, ohne die es absolut unmöglich ist, bei der Produktentwicklung voranzukommen. Angesichts unserer ehrgeizigen Pläne war es notwendig, dieses System zu aktualisieren. Die erste Version wurde vor mir erstellt, wir haben sie erheblich aktualisiert: Jetzt können Sie mehr Experimente gleichzeitig ausführen, bevor es in diesem Sinne einige Einschränkungen gab.
- Welche anderen Richtungen?- Suchen, und hier gibt es Unterschiede zu großen Playern wie Yandex und Google, da wir unseren Themenbereich sehr gut ausarbeiten können, ist er im Vergleich zur „universellen Suche im Internet“ eher eng. Es ist unmöglich, aus allem eine Ontologie zu machen, alle Beziehungen zu beschreiben, aber in einem kleinen spezifischen Bereich können Sie sehr gute Entscheidungen treffen, die funktionieren. Wir machen unsere Linguistik für eine Suchmaschine, die einige implizite Beziehungen zwischen verschiedenen Entitäten berücksichtigen könnte. , , , , , , . , Tommy Hilfiger Tommy Jeans, . , — , — - . , , Lamoda.
, , , — . . , , , , .
, , , .
— , .— . , . , , , , — . , , . , . , , .
— ? ? ?— , : , , , , -. , -, . , . -, , , . .
4-6 . , . , - . . - , , – .
— Amazon 70% , Lamoda?— , . , , . , – success, learning. . — . , , , , . - .
— , ? learning'e, .— , . , . , , , . , , learning, , . ( , ) , , , . , , , .
— ? , , , . , ?— , : , , . , , , . , , .
— , , Newprolab Lamoda, . , , , ?— , , , , , , . ( Newprolab — . .), , - . . , Newprolab , . - , , , . , . 3 10 , , . . , , , , , .
— , , , , , , , .— , , 4 , , Coursera, , . , , , . , , , , , , .
— « » , , . , ?— – - . , , - , . - , . , . ? : - , . , . , , , , , , . , . , , , , - . , , .
— , -. , ? ?— , «» «», , , , - . , - , . . , , , . , Lamoda . - , .
— , ?— Slack ODS, , , . , , , , , , .
— , , . , , ?— , : , . , , data science, . , , - .
— , , .— , . . , , . , , - - , . — , , , , . , - - . , , , , , , , - , .
, — , , , . , , . : , , , . Ezhome — : data scientist, -, , . , - . , . , .
Dies ist wahrscheinlich der Grund, warum ich meine Arbeit so liebe, dass ich meine Stärken nutzen kann, um Ziele zu erreichen, die sowohl für das Unternehmen als auch für mich persönlich wertvoll sind.