Auf das nÀchste Hundertstel: Top 10 SmartData 2017-Berichte



SmartData-Konferenzteilnehmer sind Menschen, die gerne mit Daten arbeiten. Es ist davon auszugehen, dass sie ihre EinschÀtzungen der Berichte nach der letztjÀhrigen Konferenz sehr nachdenklich vorgenommen haben.

Und jetzt haben wir nach diesen SchĂ€tzungen die Top 10 Videos zusammengestellt. Gleichzeitig gaben sie, um Datenbegeisterten zu gefallen, alle zugehörigen Zahlen fĂŒr jeden der zehn Berichte an: Platz oben, genaue Zuschauerbewertung, Anzahl der Zuschauer.

Generell unterscheiden sich die Bewertungen an den Spitzenpositionen oft nicht wesentlich. Vielleicht sollten Sie „wer folgt wem“ keine große Bedeutung beimessen - es ist wichtiger, dass alle diese Berichte gute Noten erhalten. Aber wie kann es Zahlen nicht viel Aufmerksamkeit schenken, wenn es so aufregend ist?



Neurona: Warum haben wir dem neuronalen Netzwerk beigebracht, Gedichte im Geiste von Kurt Cobain zu schreiben?


Sprecher: Ivan Yamshchikov
Ort: 1
Bewertung: 4,51 ± 0,08
Die Anzahl der Zuschauer: ~ 200
PrÀsentation prÀsentieren

Der klare Leiter der Konferenz war die Abschlussrede des Erstellers der Projekte Neural Defense und Neurona. Dies ist eine zugĂ€ngliche AuffĂŒhrung, die vom Betrachter keine enorme Vorbereitung erfordert - gleichzeitig aber nicht nur eine hunderttausendste ErklĂ€rung fĂŒr die Funktionsweise neuronaler Netze. Dies scheint ein "unterhaltsames" Format zu sein (es ist unwahrscheinlich, dass das, was Sie sofort hören, Ihr Arbeitsprojekt beeinflusst) - aber auf lange Sicht kann dies alles nicht nur sehr interessant, sondern auch nĂŒtzlich sein. Im Allgemeinen ist es kein Wunder, dass wir Ivan eingeladen haben, an den kommenden SmartData 2018 teilzunehmen.




Vom Klick zur Prognose und umgekehrt: Data Science-Pipelines in Odnoklassniki


Sprecher: Dmitry Bugaychenko
Ort: 2
Bewertung: 4,36 ± 0,08
Die Anzahl der Zuschauer: ~ 140
PrÀsentation prÀsentieren

Und hier ist das Gegenteil der Fall. Erstens ist dies kein allgemeines „Was maschinelles Lernen uns geben kann“, sondern die Besonderheiten von „genau, wie wir alles implementieren“. Und der Bericht handelt nicht von ML an sich (die Personalisierung des Newsfeeds dient nur als Beispiel), sondern von allem, was damit zu tun hat: "Was muss getan werden, damit all diese ML-Schönheit funktioniert?" Wenn eine Rede von Yamshchikov sogar ein breites Publikum interessiert, ist sie im Allgemeinen nur persönlich im Zusammenhang mit maschinellem Lernen interessant, aber sie kann viel fĂŒr sich selbst tragen.




CatBoost - Die nÀchste Generation der GradientenverstÀrkung


Sprecherin: Anna Veronika Dorogush
Ort: 3
Bewertung: 4,32 ± 0,12
Die Anzahl der Zuschauer: ~ 100
PrÀsentation prÀsentieren

Wenn die Erhöhung des Gradienten nicht Ihre SpezialitĂ€t ist und das Thema des Berichts das GefĂŒhl weckte, „es gibt wahrscheinlich Nuancen fĂŒr diejenigen, die dies bereits mit Macht und Kraft tun“, zerstreuen Sie die BefĂŒrchtungen. Der Bericht ist anfĂ€ngerfreundlich und taucht nicht sofort mit dem Kopf in den Pool ein, sondern erklĂ€rt zunĂ€chst grundlegende Dinge. Und wenn man bedenkt, dass die Yandex CatBoost-Bibliothek im letzten Jahr schöner und beliebter geworden ist als die vorherige, ist es hilfreich, eine Vorstellung davon zu haben, auch wenn Sie sich gerade nicht damit befassen mĂŒssen, und der Bericht kann nur eine gute EinfĂŒhrung sein.




ZurĂŒck in die Zukunft des modernen Bankensystems


Sprecher: Vladimir Krasilshchik
Ort: 4
Bewertung: 4,31 ± 0,17
Die Anzahl der Zuschauer: ~ 80
PrÀsentation prÀsentieren

Was ist zu tun, wenn Ihre vierteljĂ€hrlichen Berichtsdaten aufgrund der eventuellen Konsistenz von den monatlichen abweichen und die PrĂŒfer und Aufsichtsbehörden Fragen haben? Vladimir Krasilshchik erklĂ€rt, dass BitemporalitĂ€t zum SchlĂŒsselkonzept wird: Es gibt „wann das Ereignis passiert ist“ und es gibt „wann das System davon erfahren hat“. Sie mĂŒssen mit beiden Skalen arbeiten und beide dem Drittanbieter-Tester demonstrieren. Der Bericht ist nicht darauf beschrĂ€nkt, es gibt noch viel mehr - haben Sie beispielsweise gedacht, dass Sie auf der IT-Konferenz den Satz „Es gibt keine Gerechtigkeit, und Sie sollten nicht versuchen, ihn zu erstellen“ hören wĂŒrden?




Der Name ist eine Funktion


Sprecher: Vitaly Khudobakhshov
Ort: 5
Bewertung: 4,28 ± 0,08
Die Anzahl der Zuschauer: ~ 280
PrÀsentation prÀsentieren

Die paradoxeste PrĂ€sentation der Konferenz, die Sie dazu zwingt, sich verwirrt am Kopf zu kratzen. Einerseits ist es fĂŒr jede vernĂŒnftige Person völlig offensichtlich: Es gibt keine erkennbaren GrĂŒnde fĂŒr die Korrelation des Namens einer Person (wenn es sich um populĂ€re russische Namen handelt) und ob diese Person in einer Beziehung sein wird. Auf der anderen Seite prĂ€sentiert Vitaly Daten, die das Gegenteil zeigen. Er selbst hatte keine genaue ErklĂ€rung, aber niemand fand wirklich ĂŒberzeugende EinwĂ€nde. Sie können versuchen, sich selbst zu suchen.




Keine Daten? Kein Problem! Deep Learning bei CGI


Sprecher: Ivan Drokin
Ort: 6
Bewertung: 4,26 ± 0,18
Die Anzahl der Zuschauer: ~ 40
PrÀsentation prÀsentieren

Wie Sie wissen, reichen Algorithmen nicht fĂŒr tiefes Lernen aus - wir benötigen erste Daten zum Lernen. Infolgedessen ist ein guter Datensatz zu einer wertvollen Ressource geworden. Aber was ist, wenn Sie es jetzt nicht haben und nicht Google sind und keine gigantischen Ressourcen investieren können? Es stellt sich heraus, dass es nicht immer notwendig ist, „echte“ Daten aus der realen Welt zu entnehmen, und unter bestimmten Bedingungen können sie buchstĂ€blich generiert werden. Der Bericht befasst sich mit einem bestimmten Fall dieser Art.




Tiefe Faltungsnetzwerke zur Objekterkennung und Bildsegmentierung


Sprecher: Sergey Nikolenko
Ort: 7
Bewertung: 4,24 ± 0,17
Die Anzahl der Zuschauer: ~ 80
PrÀsentation prÀsentieren

Wenn Sie noch weit vom maschinellen / tiefen Lernen im Allgemeinen entfernt sind, können die ersten 20 Minuten dieses Berichts gut erscheinen: Es gibt eine grĂŒndliche EinfĂŒhrung in das Thema mit einer historischen Exkursion, die in den 1950er Jahren beginnt. Und wenn Sie alles darĂŒber als Ganzes verstehen, aber das Unterthema tiefer Faltungsnetzwerke nicht verstehen, können Sie die EinfĂŒhrung sofort ĂŒberspringen und auf die zweite HĂ€lfte des Berichts achten, in der es um verschlungene neuronale Netze geht.




Hadoop HochverfĂŒgbarkeit: Badoo Erfahrung


Sprecher: Alexander Krashennikov
Ort: 8
Bewertung: 4,22 ± 0,14
Die Anzahl der Zuschauer: ~ 100
PrÀsentation prÀsentieren

ZusĂ€tzlich zum Konzept von "Big Data" scheint "Grow Data" auch nĂŒtzlich zu sein, da das Wachstum seine eigenen Besonderheiten bestimmt. Sobald Badoo DatengrĂ¶ĂŸenordnungen kleiner und einen Ansatz fĂŒr sie hatte, wuchs das Volumen und es waren Änderungen erforderlich - und es sollte bedacht werden, dass morgen alles noch stĂ€rker werden kann und alles „mit einer Marge“ erledigt.

Die Unternehmen interessierten sich fĂŒr die Kombination von „Hadoop“ und „Echtzeit“, selbst wenn sie normalerweise „inkompatibel“ zwischen diesen beiden Wörtern schrieben. Jetzt sprachen sie ĂŒber ihre Erfahrungen mit Hadoop und stellten in diesem Fall eine hohe VerfĂŒgbarkeit bereit. Bonus: ein wenig KreativitĂ€t von Vasily Lozhkin auf den Folien.


Wir segmentieren tÀglich 600 Millionen Benutzer in Echtzeit


Sprecher: Artyom Marinov
Ort: 9
Bewertung: 4,21 ± 0,09
Die Anzahl der Zuschauer: ~ 120
PrÀsentation prÀsentieren

Hier unterscheidet sich das Projekt stark von Badoo: Nicht Dating, sondern DMP (Data Management Platform), bei der Sie Segmente wie „Hausfrauen mit einem Auto, das Ă€lter als fĂŒnf Jahre ist“ im Publikum hervorheben möchten. Erstens gibt es aber auch einen großen Umfang (etwa hunderttausend Ereignisse pro Sekunde). Und zweitens mĂŒssen Sie hier noch besser auf Wachstum vorbereitet sein: "Unter den Datenquellen - Pixelinstallation, wenn morgen die sehr beliebte Website Ihr Pixel in sich selbst setzt - wird es einen riesigen Stream geben, der behandelt werden muss." Mit welchen Technologien kommen sie zurecht und wie genau werden sie eingesetzt? Antworten im Bericht.




Verteilte ML auf Big Data: Erfahrung beim Aufbau eines Empfehlungssystems in ivi


Sprecher: Boris Schminke
Ort: 10
Bewertung: 4,21 ± 0,09
Die Anzahl der Zuschauer: ~ 100
PrÀsentation prÀsentieren

Schließlich geht es im letzten Bericht auch um „Infrastruktur, nicht um Algorithmen“ und basiert auch auf den Erfahrungen eines großen Produkts. Es war einmal, als ivi begann, Empfehlungen mithilfe eines Drittanbieter-Service umzusetzen, der „Empfehlungen als Service“ bereitstellte. Dann sind sie daraus „aufgewachsen“ und haben begonnen, ihr eigenes System zu schaffen. Auf HabrĂ© hat das Unternehmen bereits 2014 darĂŒber geschrieben, und aus dem Bericht können Sie sich ĂŒber den aktuellen Stand der Dinge informieren.


Wenn diese Berichte von Interesse sind, beachten Sie bitte: SmartData 2018 wird diesen Herbst stattfinden. Separate Sprecher von diesen Top 10 werden mit neuen Berichten zurĂŒckkehren, es wird völlig neue Namen geben. Die aktuellsten Informationen zum Programm finden Sie immer auf der Website. Dort können Sie auch Tickets kaufen - und der Preis steigt allmĂ€hlich, also sollten Sie jetzt darĂŒber nachdenken.

Source: https://habr.com/ru/post/de416985/


All Articles