Hurra! Wir haben die
Erstellung des Konferenzprogramms
UseData Conf 2019 abgeschlossen! Diese Konferenz richtet sich an diejenigen, die praktische Probleme mit Methoden des maschinellen Lernens lösen. Zwischen dem idealen Algorithmus im Vakuum und seiner Anwendung auf reale Daten besteht häufig eine Lücke. Wir möchten, dass diejenigen, die diese Kluft überbrücken können, sich treffen und Erfahrungen austauschen.
Die Magie des maschinellen Lernens für Manager, die Geschichte der Verwendung von ML zur Analyse der Wirksamkeit von Werbung im Fernsehen, unbemannte Spielzeugautos, Öl und Nummernschilder sind nur ein Teil der Berichte bei UseData 2019. Weitere Informationen zu diesen und anderen Themen finden Sie unter der Katze.
Im
Programm haben wir 5 Abschnitte gebildet. Abschnittsberichte werden nach den Anweisungen der Aufgaben gruppiert, die sie lösen.
- Maschinelles Lernen und Datenanalyse im Handel.
- Computer Vision.
- Verarbeitung von Texten in natürlichen Sprachen.
- Entscheidungssysteme.
- Frameworks und Tools für maschinelles Lernen.
Zu jedem dieser Themen wurde etwas Interessantes gefunden.
Maschinelles Lernen und Datenanalyse im Handel
Die Wirkung von Fernsehwerbung: Bewertung und Optimierung
Alexandra Lomakin, JOOM
Die Hälfte meines Werbebudgets wird verschwendet. Das Problem ist, dass ich nicht weiß, welches.
Dies ist ein Zitat von John Wanamaker, einem amerikanischen Unternehmer, der das erste Kaufhaus eröffnete und zuerst Preisschilder anbrachte. Er verstand etwas im Handel.

Joom dachte auch darüber nach, wie viel des Budgets für Fernsehwerbung verschwendet wurde, und stellte fest, um seine Wirksamkeit vor den Daten von Wissenschaftlern zu messen. Wie kann man verstehen, dass der Benutzer aus der Werbung im Fernsehen stammt, welche Tools zu verfolgen sind und welche Daten dafür benötigt werden?
Alexandra ist diesen Weg bis zum Ende gegangen und ist bereit,
die Antworten zu
teilen . Spoiler: Der Raum für Optimierung ist riesig.
Maschinelles Lernen zur Umsatzprognose des OZON.RU-Onlineshops. Preisoptimierung mit Nachfragevorhersagemodellen.
Alexander Alekseytsev, OZON.RU

OZON.ru ist ein sehr großes Geschäft mit einer großen Menge an Waren, komplexer Logistik und Preisen. Das Modell arbeitet an der Wiederauffüllung von Lagerhäusern und der Nachfrageprognose. Ein großes Geschäft besteht aus vielen Daten, über die ein Modell lernen kann. Einerseits ist es gut, Prognosen zu erstellen. Andererseits zeigt sich auf einer solchen Skala ein Fehler, falls vorhanden.
Zum Beispiel war ein Produkt lange Zeit nicht auf Lager, und dann erschien es und das Modell ist mit der Prognose falsch. Es ist okay für ein Produkt, aber in OZON.ru gibt es jeden Tag Hunderte solcher Produkte. Aufgrund eines Fehlers gehen dem Lager möglicherweise die Waren aus oder es ist voll.
Alexander
erklärt Ihnen, wie Sie mit Prognose- und Lieferfehlern umgehen und sich gegen Fehler versichern können. Sein Bericht ist nicht nur eine erfolgreiche Fallstudie zum maschinellen Lernen, sondern auch eine interessante Exkursion in das Fachgebiet. Wenn Sie Modelle für Verkaufsprognosen erstellen, werden Sie viel für sich selbst finden.
Computer Vision
In diesem Abschnitt werden wir über die Anerkennung des Staates sprechen. Zahlen, Ressourcenprobleme und hören Sie sich einen wissenschaftlichen Bericht an.
512 KB Speicher sind genug für alle! Identifizierung einer Person durch Gesicht auf einem Mikrocontroller mit einer Kamera
Alexander Smorkalov, Xperience.ai

Es kommt vor, dass Sie Gesichter auf rechenschwachen Geräten erkennen müssen, die mit Batteriestrom betrieben werden. Sie haben wenig Speicher, aber sie haben überhaupt nichts von der GPU gehört. Alexander
wird die Geschichte der erfolgreichen Übertragung des Modells auf solche Geräte
erzählen . Die Erfahrung, Modelle auf nicht standardmäßige Geräte zu übertragen, erweitert den Horizont erheblich. Ideen können in Situationen nützlich sein, in denen das Gerät Standard ist, die verbrauchten Ressourcen jedoch nicht akzeptabel sind.
Wasserstein-Regularisierung für generatives und diskriminatives Lernen
Guido Montufar, Max-Planck-Institut

Wir freuen uns sehr, dass Vanya Yamshchikov seinen Kollegen Guido überredet hat, zu unserer Konferenz zu kommen. Dies ist der einzige wissenschaftliche Bericht auf der Konferenz, aber die praktische Anwendbarkeit ist immer noch sicher. Der Kampf besteht darin, Klassen mit einer großen Verbreitung in Bildern zu erkennen oder zu generieren. Erinnern Sie sich an die klassische Aufgabe von Hundekatzen, bei der Hunde verschiedener Rassen nicht gleich sind? Diese Unterschiede sind also im Vergleich zu dem, was passiert, plappernd.
Ich bin kein Experte in diesem Thema, aber es scheint mir, dass solche Aufgaben die Schaffung neuronaler Netze mit einer großen Anzahl von Schichten erzwingen. Dies verschärft das Problem der Gradientendämpfung, und der endlose Kampf zwischen Rüstung und Granate verbraucht ziellos Hunderte von Öl an Rechenressourcen. Die von Guido
untersuchten Methoden ermöglichen es, Probleme mit einer großen Verbreitung innerhalb jeder Klasse billiger und schneller zu lösen.
Wie man den Staat findet und schließt. Nummer auf dem Foto des Autos und verhindern, dass Inhalte mit einem gegnerischen Angriff kopiert werden
Ilya Sergeev, Avito

Es war einmal eine Zeit bei Yandex, und Y. Maps erstellte zusammen mit einem Computer-Vision-Team Straßenpanoramen. In den Panoramen war es notwendig, die Gesichter und Nummernschilder von Autos zu verdecken, die versehentlich in den Rahmen fielen. Dafür gab es keine vorgefertigten Lösungen, ich musste es selbst sehen.
In Avito trafen sie für eine ähnliche Aufgabe auch ihre Entscheidung. 2019 sieht diese Aufgabe nicht mehr spannend aus. Es scheint, dass jetzt jeder lernen kann, wie man den Staat schließt. Anzahl pro Stunde auf dem Knie. Aber es scheint nur so. Es stellte sich heraus, dass es für einige Unternehmen einfacher ist, Bilder von Avito zu kopieren und die Markierung auf dem Bild durch eine eigene zu ersetzen, da sie leichter zu erkennen ist als die Nummer. Avito musste besondere Anstrengungen unternehmen, um Inhaltsdiebe an die Öffentlichkeit zu bringen.
Teile dieser Geschichte wurden bereits auf Habré veröffentlicht, aber auf unserer Konferenz wird Ilya sie vollständig in Form einer Geschichte und nicht eines Artikels präsentieren.
Wie neuronale Netze helfen können, ein Bild davon zu erstellen, was im Untergrund passiert, und zu bestimmen, wo nach Öl gesucht werden muss
Darima Mylzenova, Gazprom Neft

Wer hat in seiner Kindheit ein Modellproblem aus der Computer Vision über die Erkennung handgeschriebener Zahlen gelöst? Wer hat die Zahlen auf ein Blatt Papier geschrieben, es gescannt und überprüft, ob er das Modell gesehen hat (nichts)? Menschen erleben ungefähr das gleiche Gefühl, wenn sie mit Aufgaben aus der realen Welt konfrontiert werden.
Wir lieben Aufgaben aus dem realen Sektor wirklich, weil der Unterschied zwischen den Daten, über die Menschen an das Lernen gewöhnt sind, und den Daten aus dem Leben auf ihnen deutlich sichtbar ist: ungenau, mit Fehlern und Einschränkungen, mit unterschiedlichen Auflösungen, mit Leerzeichen. Darima
wird nicht nur darüber berichten, wozu neuronale Netzwerkmodelle im Bereich der Analyse des Erdinneren fähig sind, sondern auch darüber, wie viel sie noch nicht wissen, wie, aber möchten.
Verarbeitung natürlicher Sprache
Kann eine Maschine Witze und Witze verstehen? Wie kann man einem Modell beibringen, seltsame Namen zu verstehen? Und den Code erkennen?
Suchen Sie nach Anomalien in personenbezogenen Daten am Beispiel eines vollständigen Namens
George Shushuev, CFT

Einige Benutzer schreiben ihren Namen kaum auf Russisch, und ihre Namen sind ungewöhnlich. Butnaru von Iuria, Sashka Sedlay Konya Vorsichtig, Eyide Lucky, Pulotov Aslam Akhmat Zhon Ugli, Bebalau IonNein, ich habe Ilyasovich schon müde - welcher Name ist das? Es gibt Namen in dieser Reihe von Buchstaben, aber Sie dachten, richtig? Hier entsteht die Schwierigkeit - dem Modell beizubringen, Namen zu erkennen, auch wenn eine Person nicht immer Erfolg hat.
Wir lieben Geschichten über erfolgreiches Lernen ohne Lehrer, und dies ist nur eine davon. George
wird über die Entwicklung des Anomaliedetektors in personenbezogenen Daten vom Markov-Modell zum neuronalen Netzwerk
sprechen und Lebenshacks bei der Entwicklung solcher Detektoren für kurze Textsätze teilen.
Maschinelles Lernen für Code
Egor Bulychev, Quelle {d}

Dies ist eine Übersicht über die neuesten Entwicklungen im Bereich der Arbeit mit Code. Wie finde ich Repositorys, deren Aufgaben ähnlich sind? Wie finde ich einen Entwickler mit ähnlicher Erfahrung auf GitHub? Wie kann man diese Ähnlichkeit formalisieren? Und wie kann man alles optimieren, um mit allen GitHub gleichzeitig zu arbeiten? Egor ist genau mit diesen Aufgaben beschäftigt und
wird seine Erfahrungen
teilen .
Kann man einem Auto Sinn für Humor beibringen?
Vladislav Blinov, Valeria Baranova, Tinkoff

Vladislav und Valeria bringen dem Auto bei, Witze auf Russisch zu verstehen. Ist das nicht perfekt? Es gibt nichts zu reden - ich muss
nur kommen und zuhören .
Aus praktischer Sicht ist alles so, wie wir es lieben: Es gibt fast keine markierten Datensätze, es gibt kein Wasser, es gibt keine Vegetation, es wird von Robotern bewohnt. Ernsthafte Arbeit an einem lustigen Thema.
So implementieren Sie eine schnelle und effektive semantische Suche in Ihrem Projekt basierend auf Clickstream, Transformatoren und Näherungssuche (ANNS)
Vladimir Bugay, Knoema

Wie führe ich eine normale Suche in einer Situation durch, in der es viele Zahlen und einen kleinen Text gibt? Knoema ist ein Aggregator von Analysedaten, die fast alle die Form von Zeitreihen haben. Wenn Sie aus irgendeinem Grund die neuesten Schätzungen der venezolanischen Ölreserven oder das Volumen der Diamantenproduktion im Kongo erfahren möchten, dann ist dies der Ort mit den neuesten Daten. Die Frage ist nur, wie man sie findet.
Einige Daten sind direkt in der Datenbank enthalten, andere sind berechenbar. Um gut suchen zu können, müssen Sie ein Modell der Beziehung zwischen den Daten erstellen. Jetzt ist es bereits ein neuronales Netzwerkmodell, das auf USE basiert. Vladimir
wird über mehrere wichtige Schritte bei der Entwicklung einer Suche mit nicht standardmäßigen Daten
sprechen : wie man eine solche Suche relativ schnell aus vorgefertigten Komponenten zusammensetzt, wie man sie mithilfe seiner zusätzlichen Informationen neu trainiert, z. B. Klicks, wie man die Größe des Index verringert und andere Engpässe optimiert.
Entscheidungssysteme
Moderne neuronale Netzarchitekturen / Version 2019
Grigory Sapunov, Intento

Gregory braucht anscheinend keine Einführung. Er ist Mitbegründer von Intento, einem regelmäßigen Redner und Abteilungsleiter bei Konferenzen zum maschinellen Lernen, einer Person, die die Branche beobachtet und bewegt. Zu den neuesten Insignien, von denen noch nicht jeder gehört hat, gehört die Aufnahme von Google Developer Expert in die Kategorie Maschinelles Lernen in die Liste. Zum Zeitpunkt dieses Schreibens sind nur 109 Personen auf der Liste, und nur eine von ihnen stammt aus Russland. Grischa, Glückwunsch!
Dies ist genau das Fachwissen, mit dem Sie einen
interessanten Überblick über neue Produkte in der Welt der neuronalen Netze der letzten Jahre erhalten können. Welche neuen Aufgaben hat das Netzwerk zu lösen gelernt? Was mussten Sie dafür tun? In welche Richtungen warten wir auf die nächsten Durchbrüche?
Was ist gut und was ist schlecht: Metriken für Empfehlungssysteme
Irina Pchelintseva, Yandex

Wie kann die Wirksamkeit eines Empfehlungssystems für Filme gemessen werden? Sagen Sie voraus, welche Bewertung ein bestimmter Zuschauer einem bestimmten Film geben wird, und bieten Sie an, ihn nur anzusehen, wenn die Bewertung hoch ist. Aber es gibt Nuancen.
Die meisten werden sicherlich sagen, dass The Godfather oder Schindlers Liste gute Filme sind, auch wenn er sie selbst nicht gesehen hat. Aber stellen Sie sich vor, wie Sie von der Arbeit zurückkommen. Der Tag war hart: Das Projekt bleibt nicht hängen, der Chef hat das ganze Gehirn gefressen, und morgen wird es dasselbe sein. In diesem Zustand ist es unwahrscheinlich, dass er sich einen intelligenten und tiefen Film ansehen möchte, und ein dummer Actionfilm, für den der rote Preis sechs von zehn beträgt, wird sinken. Daher sollte das Empfehlungssystem das bieten, was Sie sich
ansehen , und nicht das, was
zum Lob üblich ist .
Dies ist nur eine der unerwarteten Seiten der Aufgabe, und es gibt viele solcher Seiten. Um mehr über sie zu erfahren, kommen Sie zu Irinas
Rede .
Entwicklung und Implementierung intelligenter Agenten
Andrey Ivanov, Tinkoff

Ein intelligenter Agent ist Teil eines Systems, das eine intellektuelle Aufgabe für eine Person löst. Der Agent wird von einem Spezialisten für maschinelles Lernen entwickelt, dessen Aufgaben der Agent übernimmt. Für eine Bank ist dies beispielsweise ein Empfehlungssystem, das einen Kredit, eine Einzahlung, eine Karte oder ein anderes Produkt anbieten kann, je nachdem, was über den Benutzer bekannt ist.
Andrei hat eine sehr praktische
Präsentation : Wie intellektuelle Agenten in Tinkoff eingesetzt werden (zum Beispiel „Geschichten“), welche Schwierigkeiten bei ihrer Entwicklung auftreten und welche Werkzeuge dabei helfen.
Vorhersage von Bohrvorfällen
Ivan Isaev, Altarix

Noch einmal über den realen Sektor und Öl. Ivan
wird eine gute praktische Geschichte darüber
erzählen, wie man ein wenig Daten vom Kunden erhält, ein nützliches Modell darauf aufbaut, danach mehr Daten erhält und bereits ein anständiges Ergebnis erzielt.
Auf maschinellem Lernen basierende autonome Autofahralgorithmen
Saloni garg

Diese Geschichte ist nicht so, wie es scheint. Saloni löste zufällig Probleme, deren Existenz die meisten von uns nicht kennen.
In einer armen Region ist Kraftstoff für einen Bus eine wertvolle Ressource. Fahrer speichern es mit Hilfe vieler erstaunlicher Techniken: Sie schalten die Scheinwerfer nicht ein, fahren auf Neutral und folgen nicht der Linie. Wie kann er unter solchen Bedingungen gezwungen werden, sicher zu fahren?
Es gibt nicht viel Geld, daher ist die Hardware zur Lösung des Problems am primitivsten. Die meisten Schätzungen müssen lokal erstellt werden. Videos von der Kamera zum Server können nicht übertragen werden. Wie man unter solchen Bedingungen arbeitet, und
erzählt Saloni Garg.
Frameworks und Tools für maschinelles Lernen
Fügen Sie der ML-Pipeline Datensteuerung hinzu
Artyom Seleznev, Megaphon

Sie erwarten von MegaFon entweder Empfehlungssysteme mit neuen Diensten und Tarifen oder Geschichten über Elena. Aber nein, diesmal wird Artyom über die Erfahrungen bei der Implementierung des DVC-Tools und über zusätzliche Schnickschnack
berichten . Die Schnickschnack sind interessant und nicht trivial. Wenn Sie für die Reproduzierbarkeit von Experimenten mit maschinellem Lernen sind, kommen Sie zum Gespräch.
AWS DeepRacer: Lernen Sie die Herausforderungen durch das Spiel
Alexander Patrushev, AWS

Stimmt es, ein Modell für den Rennsport auf einem unbemannten Auto zu trainieren? Und doch, um mit einem Minimum an Autos zu brechen. Idealerweise möchte ich eine virtuelle Umgebung in der Nähe der Realität haben, in der die meisten Fehler behoben werden können. Eine Option für eine solche Umgebung ist die Verwendung von Modellen. Spielzeugautos auf einer Skala von 1 bis 18 werden zum Trainieren von Algorithmen verwendet. Alexander
wird die Geschichte der Erstellung von AWS DeepRacer und die Schwierigkeiten, die bei der Entwicklung einer virtuellen Lernumgebung und bei der Übertragung eines Modells auf reale Geräte auftreten, erzählen.
Off-Section Management Report
Projektmanagement 2.0: KI-Transformation
Eduard Tyantov, Mail.ru-Gruppe

Die Welt verändert sich und ML-Modelle dringen zunehmend in unsere Produkte ein und werden manchmal zu ihrem zentralen Bestandteil. Hattest du jemals das wütende "Warum? !!" von den Behörden, schuldig zu antworten "Nun, das Modell ist so abgestimmt ..."? Die Chefs, die Ende des letzten Jahrhunderts in Softwareentwicklungspraktiken aufgewachsen sind, verstehen oft nicht, was sie vom maschinellen Lernen erwarten können und was der Preis für diese Magie ist.
Edward wird in
seinem Bericht das Problem der Führung des Teams und des Produkts untersuchen. Welche Veränderungen im Entwicklungszyklus, in der Aufgabenstellung, in der Qualitätskontrolle? Er ist genau derjenige, der viel dazu sagen kann, da er seit vielen Jahren erfolgreich Projekte auf der Grundlage von maschinellem Lernen bei Mail.ru durchführt. Das bekannteste Projekt ist meiner Meinung nach Artisto, eine Video-Styling-Anwendung.
Bonustrack
Außerdem haben wir einen dreistündigen praktischen Workshop von Yandex zum Sammeln von Daten mit Yandex.Tolki! Es wird von Leuten geleitet, die den Toloka entwickeln, und von denen, die ihn kontinuierlich benutzen: Alexei Druta und Olga Megorskaya.
Sie erhalten eine allgemeine Vorstellung davon, wie Crowdsourcing-Mechanismen wie Toloka oder Mechanical Turk funktionieren. Anschließend können Sie eine von mehreren vorgeschlagenen Aufgaben zum Markieren von Daten auswählen, eine Aufgabe für Toloker erstellen, Testaufgaben und „Fallen“ für Betrüger vorbereiten. Am Ende werden Sie versuchen, die wahren Schätzungen aus den resultierenden Markups und verdächtigen Tokern mithilfe der vom System angebotenen Algorithmen zu ermitteln.
Der Workshop wird für diejenigen nützlich sein, die über das Sammeln von Daten über den Toloka nachdachten, sich aber wegen der Gefahr, das gesamte Budget ohne Vorbereitung auszugeben, nicht trauten.
Um die Lücke zwischen Algorithmen im Vakuum und realen zu schließen, warten wir auf den 16. September. Ein ganzer Tag voller Berichte, Besprechungen, Kommunikation, maschinellem Lernen und Fallstudien - Schönheit! Die nächste und letzte Preiserhöhung für UseData Conf 2019 ist bereits der 9. September. Buchen Sie jetzt Ihre Tickets , um den Preis festzulegen. Wir sehen uns in Infraspace!