Starkes „Kaffee“ zum Frühstück und für Hackathons: Warum ist es wichtig für die Entwicklung der Data Science-Community?

Ich bin Data Scientist im Data Lake Platform-Team der Raiffeisenbank. Vor drei Jahren hatte die Bank keine Big-Data-Leitung, und jetzt haben wir eine separate Plattform für die Arbeit mit Big Data und eine sich aktiv entwickelnde Community. Während sich die datengetriebene Kultur entwickelt, stehen wir vor vielen Fragen: Technik, Kommunikation und mehr.

In dem Artikel möchte ich erzählen, wie unsere Community Raiffeisen Data University hilft, einige von ihnen zu lösen.



Skalierbarkeitsprobleme


Vor ein paar Jahren lebten alle Data Scientists getrennt, jeder in seinen eigenen Aufgaben - niemand dachte an eine Community. Es gibt immer mehr Ideen, die Kenntnisse auf dem Gebiet der Datenanalyse erfordern, sowie Einheiten mit Datenwissenschaftlern im Land.
Verschiedene Schwierigkeiten traten auf:

  • Kommunikation zwischen DS:
    • Es ist nicht bekannt, mit welchen Geschäftsfällen Kollegen jetzt arbeiten.
    • Jedes Team sägt sein eigenes Fahrrad, um die gleiche Funktionalität zu implementieren.

  • Technische Seite:
    • Die Suche nach Eingabedaten für die Modellierung ist undurchsichtig.
    • Der Code spielt nicht mit neuen Daten.
    • Clusterressourcen werden nicht optimal genutzt.
    • Der Prozess der Ausgabe eines Modells an ein Produkt ist nicht einheitlich.

  • Interaktion mit Geschäftskunden:
    • Nicht alle Kunden haben eine Idee, womit sie gelöst werden können
      maschinelles Lernen, was sind die Einschränkungen und wie man die Aufgabe festlegt.

Auf welcher Seite sollten Sie sich diesen Problemen nähern und den Entwicklungspfad zu einem ausgereiften datengesteuerten Unternehmen beginnen? Sie können verschiedene Strategien entwickeln: Sammeln Sie alle Data Scientists in einer großen Abteilung oder fügen Sie Chief zu allen Teams hinzu und stellen Sie einen anderen Chief Chief ein, der einen Entwicklungsvektor erstellt. Wir beschlossen, den anderen Weg zu gehen.

So entstand die Idee der Raiffeisen Data University - RDU. Dies ist keine Universität in ihrem Standardverständnis, sondern ein flexibler Mechanismus, der Data Scientists hilft, ihre Probleme durch die Organisation verschiedener Aktivitäten zu lösen. Wie gelingt es ihm?

Alles Geniale ist einfach


Zunächst mussten Mitarbeiter aus verschiedenen Geschäftsbereichen vorgestellt und synchronisiert werden. Das Einfachste, was mir in den Sinn kommt, ist, ein Treffen zu arrangieren.

Das erste fand vor ungefähr zwei Jahren statt und traf Data Scientists aus verschiedenen Abteilungen, die dann nichts über die Existenz des anderen wussten. Jetzt sind Mitaps alltäglich geworden. Wir treffen neue Kollegen bei ihnen, teilen gelöste Fälle oder was dabei ist. Sie können Ihre Ideen dem Redner vorlegen und knifflige Fragen zu Metriken oder Datenqualität stellen. Oder Sie organisieren einen Workshop zu praktischen Tools, die in ihrem Projekt enthalten waren. Es werden verschiedene spezifische Themen angesprochen: wie das CI / CD-Modell im Produkt angeordnet ist, die Architektur des Modells des gelösten Falls, die Erklärung des Problems aus dem Geschäft und die Komplexität der Lösung und viele andere. Zuvor wurde alles in einem geheimen Publikum abgehalten, wo nur diejenigen zugelassen wurden, die den Übergangsritus bestanden hatten.

Jetzt haben wir bereits nützliche Erfahrungen gesammelt, die geteilt werden können. Interne Mitaps helfen uns bei der Lösung von Kommunikations- und technischen Schwierigkeiten. Und zusammen mit dem ML REPA- Projekt fand das erste offene Treffen für alle statt.

Starkes "Kaffee" zum Frühstück


Mitapas erfordern einige Vorbereitungen und treten ungefähr ein bis zwei Mal im Monat auf. Und es passiert ständig etwas Neues und Interessantes. Deshalb treffen wir uns beim Data Science-Frühstück, um die Kommunikation aufrechtzuerhalten. Die Anzahl der Teilnehmer variiert , die pünktlich aufgewacht sind .

Beim Frühstück erhalten Sie neben Extras und positiven Emotionen aus Gesprächen mit Gleichgesinnten eine Reihe nützlicher Informationen über neue Bibliotheken und Algorithmen, Sie lösen Ihr Problem mit der Anwendungsarchitektur oder finden heraus, welche Ressourcen bald in den Cluster geworfen werden. Der Gewinn aus solch kurzen Meetings ist manchmal nicht geringer als aus großen Mitaps.

Verbesserung der Lernrate


"Noch mehr Gewinn, noch mehr Wissen!" Wir wünschten offen. Es gab also ein Wettbewerbselement - Lücken, wie wir sie nennen. Sie wurden von der Idee des maschinellen Lernens in Yandex inspiriert und an ihre Bedürfnisse und Fähigkeiten angepasst. Der Open-Data-Wettbewerb beginnt ungefähr drei Wochen lang:

  • In der ersten Woche treffen wir uns alle und werfen mögliche Ideen für eine Lösung auf (sehr ähnlich zu DMIA-Sportworkshops).
  • in der zweiten Woche - ein Zwischentreffen: Wir analysieren, wer welche Stecker hat, wir sind motiviert, weiter zu entscheiden;
  • gefolgt von einer Nachbesprechung, Bekanntgabe der Gewinner, einer Diskussion darüber, was gelaufen ist und was nicht.

Im Rahmen eines Wettbewerbs versuchen wir uns auf ein Thema zu konzentrieren: Dirty Data, Zeitreihen, Textanalyse. Jeder wählt Tools aus, die er ausprobieren möchte, aber dennoch zögert oder die maximale Ergebnisse in der Rangliste bringen sollen. Der coolste Teil war das Reinforcement-Lernen - Sie mussten Ihren Agenten für die Interaktion mit der Atari-Umgebung schulen. Zusammenfassend haben uns die Organisatoren des Wettbewerbs in drei Spielen einen Kampf zwischen Bots und Menschen gegeben - Packman, Break out, Space Invaders.
Infolgedessen gewannen die Leute bei Packman mit großem Abstand, im Übrigen verlor die Menschheit gegen Skynet.



Entdecken Sie den Data Scientist


Auch die Manager wurden nicht allein gelassen. Ein interner Hackathon von einem Tag für alle, die mit Analytics verbunden sind, aber ein schlechtes Verständnis für die Organisation von Daten haben, ist eine gute Gelegenheit, schnell in die Küche der Data Science-Aufgaben einzutauchen. Zu Beginn des Tages wird ein Vortrag über Konzepte, Algorithmen und die häufigsten Metriken bei Klassifizierungs- und Regressionsproblemen gehalten. Danach wird ein realer Fall betrachtet, den die Teilnehmer anhand unserer Daten lösen sollen. Die Zeit für eine Lösung beträgt ungefähr 4 Stunden. Um die Dinge in Gang zu bringen, wird ein Data Scientist geschickt, um jedem Team zu helfen.

Ich war bei einem dieser Hackathons als Hände, die die von Managern vorgeschlagenen Ideen umsetzen und Diskussionen in eine konstruktive Richtung lenken würden. Die Aufgabe bestand darin, ein Modell des Kundenabflusses auf der Grundlage realer Daten für sechs Monate zu erstellen (der Zustand des Abflusses wurde angegeben) und abzuschätzen, welche wirtschaftlichen Auswirkungen dieses Modell haben würde. Bei der Entscheidung ist bei uns alles schiefgegangen, Code-Teile sind von Anfang bis Ende kaputt gegangen - dies hat es dem Team ermöglicht, die gesamte Komplexität der Feature-Erstellung zu spüren, aber es gab viele Ideen, die Data Scientist aufgrund mangelnder Geschäftserfahrung möglicherweise nicht sofort erraten hat .

Dank solcher Ereignisse lernen Manager, die Fristen für die Erledigung von DS-Aufgaben objektiver zu bewerten, die Fallstricke und die Bedeutung der ursprünglich festgelegten Qualitätsmetrik kennenzulernen. Mit Data Scientist können Sie die Vision der Aufgabe mit den Augen des Managers verstehen und bestimmen, welche Punkte unmittelbar zu Beginn der Zusammenarbeit hervorgehoben werden sollen.

Der Stärkste wird überleben


Das Interessanteste passiert jedoch normalerweise im September, wenn das DS-Team zu einem zweitägigen Hackathon in der Natur an einem sehr malerischen Ort mit praktischer Infrastruktur aufbricht. Die Organisatoren laden externe erfahrene Mentoren zum Hackathon ein. Im vergangenen Jahr haben Emeli Dral und Alexander Gushchin eine Aufgabe vorbereitet, um das Genre eines Films aus einem Dialog daraus zu bestimmen. Fast 40.000 Dialoge der Trainingsprobe, 20 verschiedene Genres aus 438 Filmen - es ging um Filme mit englischen Untertiteln.

Wir hörten uns eine kurze Exkursion zum Thema NLP an: Methoden zur Textvorverarbeitung, einfache und kniffligere Lernansätze mit DL; Wir haben separat über Teamarbeit in ML-Projekten gesprochen - wie man den Code organisiert und wie man Zeit spart. Während des Hörens von Präsentationen haben die Aktivsten bereits Fasttext- und Handschuh-Einbettungen auf ihre Laptops heruntergeladen.

Nach dem Vortrag begann ein Wettbewerb im Kaggle-Inclass-Format mit öffentlicher / privater Rangliste. Wir haben uns in Teams aufgeteilt - das maximale Shuffle, sodass das Team nicht einmal zwei Personen aus derselben Abteilung hatte. Es gab 24 Stunden für alles über alles.

Jemand startete einen Remote-Heimserver, jemand beeilte sich, die Umgebung in den Clouds bereitzustellen, es gab sogar diejenigen, die die Systemeinheit mit sich zogen - sie versuchten es so gut sie konnten! Während des Tages generierten die Teams eine Vielzahl von Lösungsideen: von der Verwendung von Elastic Search, um ähnliche Texte zu finden, bis hin zu den glasierten Ergebnissen von Ensembles von Modellen, die am nächsten Tag nicht nüchtern reproduziert werden können.

Um die Funktionsweise von Modellen zusammenzufassen und zu vergleichen, haben wir uns neben der Bewertung in einer privaten Rangliste entschlossen, eine interaktive Demo zu organisieren - sehen Sie, wie die in Services verpackten Modelle funktionieren. Die Organisatoren näherten sich dem mit Humor und fügten ein Fragment aus dem Film "The Fifth Element" hinzu, in dem der Text etwas Schreckliches zu sein scheint, aber tatsächlich gibt es eine lustige Szene mit Chris Tucker . Die meisten Models haben einen Fehler gemacht und einen Thriller, ein Drama, aber keine Komödie vorhergesagt.



Als Ergebnis des Ensembles linearer Modelle, Boostings mit handgefertigten Merkmalen auf der Basis von Clustering und anderen gewonnenen schamanischen Transformationen waren Neuronen in den Lösungen 2 und 3 des Ortes vorhanden. Zusätzlich zu den coolen Preisen (der Hauptpreis ist eine Reise zu NIPS oder einer anderen coolen Konferenz) kehren Sie vom Hackathon mit neuen Freunden zurück, die Sie im Kampf getestet haben und die Wissen und Fähigkeiten mit Ihnen teilen. Am Ende wollte ich diesen Ort nicht einmal mit malerischer Natur und einer gemütlichen Gesellschaft verlassen.

Anstelle einer Schlussfolgerung


In diesem Artikel teilte ich die Herausforderungen, eine Data Science-Kultur in einem Unternehmen zu werden, und wie die Raiffeisen Data University Data Scientists dabei unterstützt.

Natürlich sind nicht alle Probleme gelöst, aber jetzt haben wir eine kohärentere und ausgereiftere Datengemeinschaft als vor ein paar Jahren und sind bereit, neue Herausforderungen zu lösen, mit denen wir konfrontiert sind.

Es ist sehr interessant, ob es ähnliche Probleme in Ihrer Arbeit gab, wer sie gelöst hat und wie?
Vielleicht teilt jemand Life-Hacks aus seiner Erfahrung? ;)

Source: https://habr.com/ru/post/de469203/


All Articles