👩🏼‍🎓 🧑🏿‍🤝‍🧑🏽 🧘🏾 Auf das nächste Hundertstel: Top 10 SmartData 2017-Berichte ❌ 👩🏽‍🏫 📽️

SmartData-Konferenzteilnehmer sind Menschen, die gerne mit Daten arbeiten. Es ist davon auszugehen, dass sie ihre Einschätzungen der Berichte nach der letztjährigen Konferenz sehr nachdenklich vorgenommen haben.

Und jetzt haben wir nach diesen Schätzungen die Top 10 Videos zusammengestellt. Gleichzeitig gaben sie, um Datenbegeisterten zu gefallen, alle zugehörigen Zahlen für jeden der zehn Berichte an: Platz oben, genaue Zuschauerbewertung, Anzahl der Zuschauer.

Generell unterscheiden sich die Bewertungen an den Spitzenpositionen oft nicht wesentlich. Vielleicht sollten Sie „wer folgt wem“ keine große Bedeutung beimessen - es ist wichtiger, dass alle diese Berichte gute Noten erhalten. Aber wie kann es Zahlen nicht viel Aufmerksamkeit schenken, wenn es so aufregend ist?

Neurona: Warum haben wir dem neuronalen Netzwerk beigebracht, Gedichte im Geiste von Kurt Cobain zu schreiben?

Sprecher: Ivan Yamshchikov
Ort: 1
Bewertung: 4,51 ± 0,08
Die Anzahl der Zuschauer: ~ 200
Präsentation präsentieren

Der klare Leiter der Konferenz war die Abschlussrede des Erstellers der Projekte Neural Defense und Neurona. Dies ist eine zugängliche Aufführung, die vom Betrachter keine enorme Vorbereitung erfordert - gleichzeitig aber nicht nur eine hunderttausendste Erklärung für die Funktionsweise neuronaler Netze. Dies scheint ein "unterhaltsames" Format zu sein (es ist unwahrscheinlich, dass das, was Sie sofort hören, Ihr Arbeitsprojekt beeinflusst) - aber auf lange Sicht kann dies alles nicht nur sehr interessant, sondern auch nützlich sein. Im Allgemeinen ist es kein Wunder, dass wir Ivan eingeladen haben, an den kommenden SmartData 2018 teilzunehmen.

Vom Klick zur Prognose und umgekehrt: Data Science-Pipelines in Odnoklassniki

Sprecher: Dmitry Bugaychenko
Ort: 2
Bewertung: 4,36 ± 0,08
Die Anzahl der Zuschauer: ~ 140
Präsentation präsentieren

Und hier ist das Gegenteil der Fall. Erstens ist dies kein allgemeines „Was maschinelles Lernen uns geben kann“, sondern die Besonderheiten von „genau, wie wir alles implementieren“. Und der Bericht handelt nicht von ML an sich (die Personalisierung des Newsfeeds dient nur als Beispiel), sondern von allem, was damit zu tun hat: "Was muss getan werden, damit all diese ML-Schönheit funktioniert?" Wenn eine Rede von Yamshchikov sogar ein breites Publikum interessiert, ist sie im Allgemeinen nur persönlich im Zusammenhang mit maschinellem Lernen interessant, aber sie kann viel für sich selbst tragen.

CatBoost - Die nächste Generation der Gradientenverstärkung

Sprecherin: Anna Veronika Dorogush
Ort: 3
Bewertung: 4,32 ± 0,12
Die Anzahl der Zuschauer: ~ 100
Präsentation präsentieren

Wenn die Erhöhung des Gradienten nicht Ihre Spezialität ist und das Thema des Berichts das Gefühl weckte, „es gibt wahrscheinlich Nuancen für diejenigen, die dies bereits mit Macht und Kraft tun“, zerstreuen Sie die Befürchtungen. Der Bericht ist anfängerfreundlich und taucht nicht sofort mit dem Kopf in den Pool ein, sondern erklärt zunächst grundlegende Dinge. Und wenn man bedenkt, dass die Yandex CatBoost-Bibliothek im letzten Jahr schöner und beliebter geworden ist als die vorherige, ist es hilfreich, eine Vorstellung davon zu haben, auch wenn Sie sich gerade nicht damit befassen müssen, und der Bericht kann nur eine gute Einführung sein.

Zurück in die Zukunft des modernen Bankensystems

Sprecher: Vladimir Krasilshchik
Ort: 4
Bewertung: 4,31 ± 0,17
Die Anzahl der Zuschauer: ~ 80
Präsentation präsentieren

Was ist zu tun, wenn Ihre vierteljährlichen Berichtsdaten aufgrund der eventuellen Konsistenz von den monatlichen abweichen und die Prüfer und Aufsichtsbehörden Fragen haben? Vladimir Krasilshchik erklärt, dass Bitemporalität zum Schlüsselkonzept wird: Es gibt „wann das Ereignis passiert ist“ und es gibt „wann das System davon erfahren hat“. Sie müssen mit beiden Skalen arbeiten und beide dem Drittanbieter-Tester demonstrieren. Der Bericht ist nicht darauf beschränkt, es gibt noch viel mehr - haben Sie beispielsweise gedacht, dass Sie auf der IT-Konferenz den Satz „Es gibt keine Gerechtigkeit, und Sie sollten nicht versuchen, ihn zu erstellen“ hören würden?

Der Name ist eine Funktion

Sprecher: Vitaly Khudobakhshov
Ort: 5
Bewertung: 4,28 ± 0,08
Die Anzahl der Zuschauer: ~ 280
Präsentation präsentieren

Die paradoxeste Präsentation der Konferenz, die Sie dazu zwingt, sich verwirrt am Kopf zu kratzen. Einerseits ist es für jede vernünftige Person völlig offensichtlich: Es gibt keine erkennbaren Gründe für die Korrelation des Namens einer Person (wenn es sich um populäre russische Namen handelt) und ob diese Person in einer Beziehung sein wird. Auf der anderen Seite präsentiert Vitaly Daten, die das Gegenteil zeigen. Er selbst hatte keine genaue Erklärung, aber niemand fand wirklich überzeugende Einwände. Sie können versuchen, sich selbst zu suchen.

Keine Daten? Kein Problem! Deep Learning bei CGI

Sprecher: Ivan Drokin
Ort: 6
Bewertung: 4,26 ± 0,18
Die Anzahl der Zuschauer: ~ 40
Präsentation präsentieren

Wie Sie wissen, reichen Algorithmen nicht für tiefes Lernen aus - wir benötigen erste Daten zum Lernen. Infolgedessen ist ein guter Datensatz zu einer wertvollen Ressource geworden. Aber was ist, wenn Sie es jetzt nicht haben und nicht Google sind und keine gigantischen Ressourcen investieren können? Es stellt sich heraus, dass es nicht immer notwendig ist, „echte“ Daten aus der realen Welt zu entnehmen, und unter bestimmten Bedingungen können sie buchstäblich generiert werden. Der Bericht befasst sich mit einem bestimmten Fall dieser Art.

Tiefe Faltungsnetzwerke zur Objekterkennung und Bildsegmentierung

Sprecher: Sergey Nikolenko
Ort: 7
Bewertung: 4,24 ± 0,17
Die Anzahl der Zuschauer: ~ 80
Präsentation präsentieren

Wenn Sie noch weit vom maschinellen / tiefen Lernen im Allgemeinen entfernt sind, können die ersten 20 Minuten dieses Berichts gut erscheinen: Es gibt eine gründliche Einführung in das Thema mit einer historischen Exkursion, die in den 1950er Jahren beginnt. Und wenn Sie alles darüber als Ganzes verstehen, aber das Unterthema tiefer Faltungsnetzwerke nicht verstehen, können Sie die Einführung sofort überspringen und auf die zweite Hälfte des Berichts achten, in der es um verschlungene neuronale Netze geht.

Hadoop Hochverfügbarkeit: Badoo Erfahrung

Sprecher: Alexander Krashennikov
Ort: 8
Bewertung: 4,22 ± 0,14
Die Anzahl der Zuschauer: ~ 100
Präsentation präsentieren

Zusätzlich zum Konzept von "Big Data" scheint "Grow Data" auch nützlich zu sein, da das Wachstum seine eigenen Besonderheiten bestimmt. Sobald Badoo Datengrößenordnungen kleiner und einen Ansatz für sie hatte, wuchs das Volumen und es waren Änderungen erforderlich - und es sollte bedacht werden, dass morgen alles noch stärker werden kann und alles „mit einer Marge“ erledigt.

Die Unternehmen interessierten sich für die Kombination von „Hadoop“ und „Echtzeit“, selbst wenn sie normalerweise „inkompatibel“ zwischen diesen beiden Wörtern schrieben. Jetzt sprachen sie über ihre Erfahrungen mit Hadoop und stellten in diesem Fall eine hohe Verfügbarkeit bereit. Bonus: ein wenig Kreativität von Vasily Lozhkin auf den Folien.

Wir segmentieren täglich 600 Millionen Benutzer in Echtzeit

Sprecher: Artyom Marinov
Ort: 9
Bewertung: 4,21 ± 0,09
Die Anzahl der Zuschauer: ~ 120
Präsentation präsentieren

Hier unterscheidet sich das Projekt stark von Badoo: Nicht Dating, sondern DMP (Data Management Platform), bei der Sie Segmente wie „Hausfrauen mit einem Auto, das älter als fünf Jahre ist“ im Publikum hervorheben möchten. Erstens gibt es aber auch einen großen Umfang (etwa hunderttausend Ereignisse pro Sekunde). Und zweitens müssen Sie hier noch besser auf Wachstum vorbereitet sein: "Unter den Datenquellen - Pixelinstallation, wenn morgen die sehr beliebte Website Ihr Pixel in sich selbst setzt - wird es einen riesigen Stream geben, der behandelt werden muss." Mit welchen Technologien kommen sie zurecht und wie genau werden sie eingesetzt? Antworten im Bericht.

Verteilte ML auf Big Data: Erfahrung beim Aufbau eines Empfehlungssystems in ivi

Sprecher: Boris Schminke
Ort: 10
Bewertung: 4,21 ± 0,09
Die Anzahl der Zuschauer: ~ 100
Präsentation präsentieren

Schließlich geht es im letzten Bericht auch um „Infrastruktur, nicht um Algorithmen“ und basiert auch auf den Erfahrungen eines großen Produkts. Es war einmal, als ivi begann, Empfehlungen mithilfe eines Drittanbieter-Service umzusetzen, der „Empfehlungen als Service“ bereitstellte. Dann sind sie daraus „aufgewachsen“ und haben begonnen, ihr eigenes System zu schaffen. Auf Habré hat das Unternehmen bereits 2014 darüber geschrieben, und aus dem Bericht können Sie sich über den aktuellen Stand der Dinge informieren.

Wenn diese Berichte von Interesse sind, beachten Sie bitte: SmartData 2018 wird diesen Herbst stattfinden. Separate Sprecher von diesen Top 10 werden mit neuen Berichten zurückkehren, es wird völlig neue Namen geben. Die aktuellsten Informationen zum Programm finden Sie immer auf der Website. Dort können Sie auch Tickets kaufen - und der Preis steigt allmählich, also sollten Sie jetzt darüber nachdenken.

Auf das nächste Hundertstel: Top 10 SmartData 2017-Berichte