Es gibt oft eine Lücke zwischen dem idealen Algorithmus für maschinelles Lernen im Vakuum und seiner Anwendung auf reale Daten. Es scheint sich um einen Artikel zu handeln: Es gibt einen Algorithmus, es gibt Konvergenz für Daten dieses oder jenes Typs - nehmen Sie ihn und wenden Sie ihn an. Aus irgendeinem Grund stellt sich jedoch heraus, dass Ihre Daten nicht für das Training ausreichen und sich vom Modell aus dem Artikel unterscheiden, da die realen Daten nicht synthetisch sind.
Die übliche Sache bei der Begründung des Algorithmus besteht darin, Annahmen über die Reinheit der Daten und ihre Verteilung zu treffen, die Sie im wirklichen Leben nicht finden werden. Zum Beispiel experimentiert der Autor eines Artikels mit Fotografien erwachsener Prominenter, und alles ist bei ihm bemerkenswert erkennbar und klassifiziert, und in unserem realen Beispiel gibt es auch Kinder und Zeichentrickfiguren, und plötzlich bricht alles auf ihnen zusammen. Aber es gibt Menschen, die damit umgehen können, so dass die Kluft zwischen Theorie und Praxis nicht mehr uneinnehmbar erscheint und es sich lohnt zu zeigen, wie andere, die sie überwinden wollen, sofort gefunden werden.

Wir haben solche Fälle bereits in HighLoad ++ gesehen, aber dort gab es separate Berichte, die außerdem den Aufgaben nahe kamen, die Arbeit bei hoher Last sicherzustellen. Aus diesem Grund möchten wir jetzt eine separate Konferenz für diejenigen zusammenstellen, die praktische Probleme mithilfe von Methoden des maschinellen Lernens lösen. Die Planung ist sehr einfach: Wir möchten eine Konferenz über maschinelles Lernen und Datenanalyse abhalten
, die wir selbst wünschen.
Ich stimme zu, es klingt naiv, aber ist „wie für dich selbst“ nicht die beste Motivation? Darüber hinaus haben wir große Erfahrung in der Organisation von Konferenzen und es scheint, dass wir eine gute Vorstellung davon haben, wie gut es sein sollte.
Natürlich können Sie Ihre eigene Meinung haben, daher werde ich Ihnen sagen, was genau und wie wir
am 16. September bei
UseData Conf diskutieren
wollen .
Ontiko und
ich veranstalten Ingenieurkonferenzen, auf denen Praktizierende die erste Geige spielen. Für alle Konferenzen:
HighLoad ++ (alle drei Instanzen), Moscow Python Conf ++, PHP Russia und viele andere finden wir Leute, die mithilfe von Technologien, die mit dem Konferenzthema zusammenhängen, etwas Nützliches tun und bereit sind, es zu teilen.
In den letzten Jahren habe ich Rednern geholfen, sich auf Reden vorzubereiten, damit ich die richtigen Fragen stellen kann. Zum Beispiel an die Oberfläche zu ziehen, was nur vom Sprecher gelernt werden kann. Damit der Bericht nicht nur ein Rezept enthält (wir haben in der vergangenen Woche Videos von Kameras aufgenommen, sie in einem End-to-End-Netzwerk geschult und alles funktioniert), sondern alle wichtigen Punkte, die zum Endergebnis geführt haben. Wenn Sie wissen, was Sie versucht haben, was passiert ist, was nicht, und es sich daher als Lösung für das Problem herausgestellt hat, können Sie Ihre eigenen Schlussfolgerungen ziehen und eine solche Lösung in Betracht ziehen oder nicht.
Derzeit gibt es keine Konferenzen zum maschinellen Lernen, die auf diesem Prinzip aufbauen würden. Es gibt große und zu akademische Konferenzen, bei denen Praktiker einen relativ kleinen Teil aller Berichte ausmachen und an rein wissenschaftliche Ergebnisse und Schulungsmaterialien für Anfänger angrenzen. Darüber hinaus gibt es eine ganze Reihe von Konferenzen zum Thema künstliche Intelligenz. Normalerweise haben sie zu viel Hype und zu wenig, was wirklich funktioniert. Wir versuchen, diese zu umgehen.
Es ist leicht, voneinander zu unterscheiden: Wenn dies in Python erfolgt, handelt es sich um maschinelles Lernen und in PowerPoint um künstliche Intelligenz. Wir interessieren uns für das, was nicht nur in PowerPoint existiert.
UseData Conf in Abschnitten
Basierend auf der Idee, dass jede Präsentation auf unserer Konferenz die Erfahrung einer realen Produktion enthalten sollte, haben wir mehrere Themenblöcke ausgewählt, die wir offenlegen möchten. Dies bedeutet nicht, dass wir nicht glücklich sein und keine Bewerbungen annehmen werden, die nicht in diese Blöcke passen. Genau dies wird von den Praktizierenden gut an die Praktizierenden weitergegeben.
Maschinelles Lernen und Datenanalyse bei kommerziellen Aufgaben . Alles rund um Bedarfsprognosen, Beschaffungsprognosen, Empfehlungen und die Berechnung von Einzelrabatten. Hier werden Geschichten relevant sein, da ML-Methoden dazu beitragen, ein Unternehmen besser zu entwickeln und die Gewinne im E-Commerce zu steigern.
Computer Vision . Wenn Sie dem Roboter beigebracht haben, bestimmte Teile vom Förderband zu nehmen, Löcher zu bohren und wieder einzusetzen, sollten Sie in diesem Abschnitt genau darüber sprechen. Schließlich können Details unterschiedlich sein, sie können auf einem Förderband verstreut sein, es gibt möglicherweise nicht ein einziges fertiges Teil für das Training, sondern nur ein CAD-Modell und viele andere Faktoren, die eine ideale akademische Aufgabe mit einem sterilen Förderer von dem unterscheiden, was tatsächlich passiert .
Verarbeitung von Texten in natürlichen Sprachen . Erzählen Sie uns von der Verwendung von NLP in nicht standardmäßigen Aufgaben oder zeigen Sie, warum die vorhandenen Methoden nicht passten und Sie Ihren eigenen Ansatz entwickeln mussten. Maschinelle Übersetzung und Sprachassistenten sind die ersten Kandidaten für diesen Abschnitt.
Entscheidungssysteme . Dies ist nicht nur die Aufgabe der Diagnose von Krankheiten, sondern auch aller Systeme, in denen sich eine Person bei ihren Entscheidungen auf die vom Algorithmus vorgeschlagenen Optionen bis hin zur Raketenabwehr stützt. Wenn beispielsweise eine Person nicht benötigt wird, ernennt das System selbst einen Fahrer, der in einem Taxi bestellt (es sei denn, die Generierung der Lösung ist natürlich nicht auf den gierigen Algorithmus beschränkt), ist dies sogar noch besser.
Frameworks und Tools für maschinelles Lernen . Um dieses Thema zu erweitern, möchten wir die Entwickler der Frameworks direkt einladen. Wir verfolgen diesen Ansatz in HighLoad ++ - um die Feinheiten von Tools von Tool-Entwicklern kennenzulernen - und versuchen, ihn in UseData Conf zu implementieren. Wenn Sie gerade CatBoost, XGBoost, TensorFlow, PyTorch, LightGBM, Keras entwickeln,
schreiben Sie uns bitte. Wenn Sie sicher sind, dass Sie das beliebte Framework kennen, das viele Datenwissenschaftler nicht kennen, und dies ihr Leben erleichtern würde, warten wir auch auf eine Bewerbung für einen Bericht.
Wettbewerbe für maschinelles Lernen sind in zwei Blöcke unterteilt: die Technik zur Durchführung von Wettbewerben für maschinelles Lernen sowie die Strategie, wie man sie gewinnt. Obwohl Wettbewerbe wie Kaggle eher ein Rekrutierungsinstrument als ein Werkzeug zur Lösung realer Probleme sind, werden einige Aspekte für Praktiker nützlich sein. Am Ende können Sie mit Hilfe von Wettbewerben erfolgreich den Job wechseln - auch gut.
Testen, Überwachen, Interpretieren, Datenaufbereitung . Wir verstehen, dass maschinell trainierte Modelle zum Foul neigen. Viele Menschen sind mit der Situation vertraut, in der sie trainiert, in die Produktion gestartet und buchstäblich einen Monat später mit dem Algorithmus unerwünschte Ergebnisse erzielt haben. Sie müssen rechtzeitig feststellen können, dass das Modell nicht funktioniert, und es rechtzeitig neu trainieren. Wenn etwas schief gelaufen ist, ist es wichtig, die Ergebnisse interpretieren zu können und die Daten vorbereiten zu können. Die Gesamtheit der Lösung für diese speziellen Probleme ermöglicht den Einsatz von ML im Kampf.
Ruf nach Papieren
Wenn Sie Ihre Arbeitsaufgaben in einem dieser Themen erkannt haben und der Meinung sind, dass Ihre Erfahrung jemandem helfen kann,
beantragen Sie einen Bericht. Wenn maschinelles Lernen Teil Ihrer täglichen Aufgaben ist, Sie dies jedoch bezweifeln, können Sie auf zuverlässige Weise nachvollziehen, ob das Thema geeignet ist. Schreiben Sie an das Programmkomitee, und wir werden die Details klären und den Bericht nützlich machen.
Trotzdem gibt es eine allgemeine Empfehlung. Wenn Sie eine so spezifische Aufgabe haben, die nur Branchenriesen lösen, oder umgekehrt ein kleines, aber sehr spezialisiertes Startup, und auf den ersten Blick scheint diese Erfahrung für andere Menschen nicht nützlich zu sein, ist dies nicht ganz richtig. Da es ohnehin selten möglich ist, eine Entscheidung zu treffen und zu wiederholen, wenn wir über komplexe Fälle sprechen, aber auf die Idee kommen, einen anderen Ansatz zu versuchen, gehen Sie von der anderen Seite aus, ist dies mit einer ganz anderen Erfahrung möglich.
Außerdem
kann man immer von einem bestimmten Problem zu einem allgemeinen Ansatz übergehen . Wenn wir beispielsweise über das Filtern abnormalen Netzwerkverkehrs sprechen (dank des Zuschauers aus Moskau, Pavel, der beim Zoom-Treffen mit dem Programmkomitee eine Frage gestellt hat), tritt ein ähnliches Problem mit einer heterogenen Trainingsstichprobe und einem kleinen Prozentsatz von Anomalien in verschiedenen Bereichen auf, und es können Verallgemeinerungen vorgeschlagen werden.
Das Wertvollste im angewandten Bericht ist unserer Meinung nach der
Weg zur Lösung und nicht die Lösung selbst . Wenn sie die Bibliotheksmethoden übernommen haben und alles fertig ist, ist es natürlich sehr cool, aber es nützt wenig. Es ist interessanter, wenn sie dies versuchten, der andere, Einschränkungen fand, auf einen Rechen stieß, etwas erfand und darüber sprach.
Wenn Sie andererseits Probleme lösen, die die Branche mit maschinellem Lernen ohne maschinelles Lernen verbindet, können Sie zeigen, wie rentabel es ist, und noch besser, geben Sie ein Rezept, wenn Sie Ihrem Beispiel folgen können - das ist ausgezeichnet, wir brauchen einen solchen Bericht.
Call For Papers ist bis zum 16. Juli geöffnet, am 16. August werden wir versuchen, das gesamte Programm zu formulieren, und am 16. September wird die UseData Conf-Konferenz in Infospace stattfinden.
Es ist einfach, einen Bericht einzureichen - Sie benötigen ein ungefähres Thema und Abschlussarbeiten für 2-3 Absätze. Der Antrag kann durch einen Aufruf an das Programmkomitee ergänzt werden, in dem die Details nicht zur Veröffentlichung bekannt gegeben werden. Es ist besser, mehrere Berichte einzureichen als keinen einzigen, dann haben wir mehr Nahrung für Fragen.
Bereits im Programm
Wir warten nicht auf die Annahme von Berichten, um Berichte im Programm auszuwählen. Ziehen Sie daher zunächst keine Bewerbungen heraus, wenn Sie nicht nach Ablauf der Frist in einen verstärkten Wettbewerb zwischen den Rednern geraten möchten. Zweitens können Sie planen, als Zuhörer an der Konferenz teilzunehmen.

Der erste Abschnitt über die kommerzielle Nutzung von ML hat bereits zwei Berichte angenommen.
Alexander Alekseytsev wird über den Einsatz von maschinellem Lernen
sprechen, um den Umsatz des OZON.RU-Onlineshops vorherzusagen. Er wird einen Ansatz zur Preisoptimierung unter Verwendung von Nachfragevorhersagemodellen vorstellen, zeigen, wie die Wahrscheinlichkeitstheorie beim Auffüllen eines Lagers angewendet wird, und den Entwicklungszyklus von ML-Lösungen für die Produktion beschreiben.
Die erste Version wurde in HighLoad ++ vorgestellt und stieß auf großes Interesse.
Joom
Alexandra Lomakina zeigt Ihnen, wie
Sie das Problem der Optimierung der Fernsehwerbung erfolgreich lösen können. Die Aufgabe ist insofern sehr interessant, als es ein teures Vergnügen ist, das fast kein Feedback gibt - Sie zählen die Klickrate nicht. Sie können zwar noch etwas messen, aber wir werden später im September herausfinden, wie und wie Sie es verwenden können.

Im Bereich Computer Vision haben wir bisher nur einen kleinen wissenschaftlichen
Bericht von Guido Montufar übernommen . Guido plant, über einen Ansatz zur Regularisierung von Modellen zu sprechen, der in Bezug auf Eingabedaten robust ist, und wir hoffen, mehr Übung daraus zu machen.
Darüber hinaus haben wir
Grigory Sapunov mit einem
Bericht über die neuesten Entwicklungen in der Architektur neuronaler Netze in das Programm aufgenommen. Und dies ist der seltene Fall, wenn ein Überprüfungsbericht angemessen ist, da Gregory ihn aufgrund seiner kolossalen Erfahrung definitiv mit praktischen Ratschlägen füllen wird.

Wir haben uns auch mit
Eduard Tyantov auf einen
Bericht über das Projektmanagement für maschinelles Lernen geeinigt. Speziell für ihn haben wir den Abschnitt "Andere" gestartet, da uns dieses Thema sehr notwendig erscheint. Wenn Ihnen jemand sagen kann, was die Besonderheiten von Projekten mit viel maschinellem Lernen sind, wie man ein Produkt entwickelt und in der Produktion führt, wie man es an Leute und Entwickler verkauft, dann ist dies wahrscheinlich Edward mit dem Backend von artisto launch und der Verwaltung von Antispam- und maschinellen Lerngruppen in Mail .ru.
Rufen Sie nach Ideen
Wenn Sie bis hierher lesen, dann warten wir zunächst auf der Konferenz auf Sie. Zweitens, wenn etwas nicht genug war, dann schreibe in die Kommentare. Sagen Sie uns, welche Themen für Sie persönlich am relevantesten sind, sagen Sie mir, welche Art von Bericht Sie benötigen, welchen Ansatz Sie einfach nicht verpassen dürfen (in jedem Sinne und was Sie in das Programm überspringen sollten). Welche Namen möchten Sie auf einer solchen Konferenz hören? Es ist sehr wahrscheinlich, dass wir diesen Spezialisten bereits kontaktiert haben. Wenn nicht, werden wir dies auf jeden Fall tun. Es gibt die gleichen Leute im Programmkomitee - wir haben viel Erfahrung, aber wir könnten immer noch etwas vergessen.
UseData Conf ist eine Konferenz für diejenigen, die praktische Probleme mit Methoden des maschinellen Lernens lösen. Reichen Sie Berichte ein, registrieren Sie sich und sehen Sie sich am 16. September.