Budapester Konferenz (29.-31. Oktober) Datenkrise

Dieses Jahr nahm ich an der Data Crunch-Konferenz in Budapest teil, die sich mit Datenanalyse und Datenentwicklung befasste. Referenten von Linkedin, Uber, Github und vielen zweitrangigen Unternehmen sind zu dieser Konferenz eingeladen, auf der Menschen ihre Erfahrungen austauschen oder über Datentools sprechen. Genauso interessant ist es für mich, mit den Konferenzteilnehmern zu sprechen, um zu verstehen, wie sich unsere russische Realität von Europa und den USA unterscheidet.


Damit ich Folgendes zur Kenntnis nehme:


  1. Full Stack Data Sceince - 2 Berichte waren ungefähr dem gleichen Thema gewidmet, das ich zuvor geschrieben habe . Machen Sie DS / DA zu einer Person, die Probleme von Anfang bis Ende lösen kann. Teilen Sie die Arbeit nicht in "Funktionen", sondern den DS in "Themen". Das heißt, Das Arbeiten mit Daten ist keine Aufteilung in Teile zwischen denen, die Modelle vorbereiten, verarbeiten, analysieren, erstellen und visualisieren, sondern diese Aufteilung von "Themen" zwischen Spezialisten, die alles vollständig können.
  2. Von Null bis Held - die Jungs sprachen darüber, wie sie ihre DS-Abteilung von Grund auf neu aufgebaut haben. Im Allgemeinen funktionieren gewöhnliche Klangideen wie gewohnt:
    • 2 DS als minimale Teamgröße.
    • und 2 Datenerzeuger für sie.
    • B Produktbesitzer, der mit dem Unternehmen kommunizieren würde.
    • Bauen Sie ein gutes Ökosystem auf. Lautsprecher ertrinken normalerweise für Open Source. In jedem Bericht wird normalerweise Hadoop erwähnt. Das Problem ist in vielerlei Hinsicht wahr, da in dem Projekt, in dem ich arbeite, sowie in vielen Lesern kein Hadoop benötigt wird, weil Es gibt nicht diese Datenmenge, wo immer es einen Gewinn geben würde. Im Allgemeinen ist es meine Einstellung zu Open Source, zu versuchen, zu studieren, aber wenn Ihr Unternehmen bereits etwas gekauft hat, kann es rentabler sein, weiterhin im Ökosystem proprietärer Software zu leben, als sich auf andere Technologien einzulassen und sie dann zu „koppeln“ oder von Grund auf neu zu lernen.
    • Testen Sie, was Sie tun. A / B-Tests und Bewertung der Ergebnisse. Seltsamerweise, aber einfache Ratschläge machen in der Praxis nicht alles.
  3. Demokratisierung von Daten in Uber - dazu habe ich bereits einen separaten Artikel geschrieben
  4. KI-Ethik - diskutiert, dass viele Aufgaben mehrere grundlegend unterschiedliche Optima haben. Bedingt können Sie eine „effektive“ Entscheidung und eine „ethische Entscheidung“ treffen. Und das Problem ist, dass ihre Maximierung unter verschiedenen Bedingungen erfolgt. Und es gibt keine richtige Lösung in Mathematik oder Algorithmen. Es ist Sache der Menschen, zu entscheiden, was sie von ihren "Autos" wollen. Als Beispiel sagte der Sprecher, dass der Algorithmus zur Risikobewertung von Rückfällen bei Straftaten dazu neigt, schwarzen Amerikanern eine erhöhte Risikobewertung zu geben. Diese Risikobewertung wird verwendet, um Entscheidungen über die Bewährung zu treffen. Das Dilemma besteht darin, dass die sozial inakzeptable "Diskriminierung" von Schwarzen zu einer objektiv inakzeptablen Zunahme der Kriminalität derjenigen führt, die vorzeitig vergeblich freigelassen wurden. Und es ist unmöglich, beide Lösungen in einem Algorithmus zu kombinieren. Interessanterweise begeht die schwarze Gemeinschaft der Vereinigten Staaten hauptsächlich Verbrechen gegen ihre eigenen schwarzen „Brüder und Schwestern“, so dass selbst ein Versuch, Weiße und Schwarze „auszugleichen“, nicht gefährdet ist, aber nach der Anzahl der freigelassenen Personen wird dies zu einem überproportionalen Anstieg der Zahl der Opfer von Gewalt unter Schwarzen führen.
  5. ML und Information Warfare - der Typ erzählte, wie er durch die Analyse des Textes und der Links untereinander und auf Facebook vor der Trump-Wahl verdächtige Aktivitäten auf Facebook fand. Er behauptet, jemand habe die „russische“ Agenda massiv überwacht, so dass die von den konservativen Gruppen gesprochene Sprache rassistischer geworden sei. Er untersuchte dies, indem er das in Neonazi-Gruppen verwendete Vokabular analysierte und es dann mit der Sprache der Konservativen verglich. Und er stellte fest, dass das Lexikon vor der Wahl von Trump sehr nahe kam, obwohl zuvor nichts Vergleichbares beobachtet worden war. Im Allgemeinen deutete er an, dass Putin schuld ist :)

Aus Gesprächen mit Personen auf der Konferenz:


  1. R gegen Python. Menschen leben mit zwei Werkzeugen und normalerweise wird R von Menschen mit naturwissenschaftlichem und mathematischem Hintergrund geliebt, und Python wird von Menschen mit Entwicklungshintergrund geliebt. Die häufigste Verwendung von R ist explorativ, Python für Pipeline. Models schreiben auf beide. Ich habe persönliche Erfahrung mit der Herstellung von Serienmodellen zum Beispiel auf R.
  2. A / B-Tests - Die Durchführung einer regelmäßigen Bewertung Ihrer Aktionen und die Auswahl von Lösungen auf der Grundlage von A / B-Tests ist für Unternehmen nach wie vor eine seltene Praxis (von einem Dutzend Gruppen, mit denen ich gesprochen habe, hat nur eine A / B-Tests). Die Leute wollen keine Energie für A / B-Tests ausgeben, sie sagen, sie wissen es bereits oder der CEO "sieht", wie man ...
  3. Jeder hat Kommunikationsprobleme - mit Managern, Kunden, innerhalb des Unternehmens usw. Die Verbesserung der Kommunikation ist für fast alle Teams ein Wachstumspunkt.
  4. Die Hauptarbeit zum maschinellen Lernen besteht nicht in der Auswahl der coolsten Modelle, sondern in der Erstellung von Funktionen und der Datenaufbereitung. Weder Google noch Facebook haben „geheime“ Modelle, aber die Effektivität ihrer Algorithmen ist wahrscheinlicher bei der Verarbeitung und Aufbereitung von Daten für diese Modelle. Dies ist im Allgemeinen eine gute Nachricht, da dies bedeutet, dass der öffentliche xgboost oder die Regression für die meisten Aufgaben der neueste Algorithmus ist.

Source: https://habr.com/ru/post/de430278/


All Articles