
FunCorp hat sich kürzlich auf die schöne Erfahrung des maschinellen Lernens eingelassen. Unser Backend-Ingenieur hat Suchmaschinen das Lesen von Memes beigebracht. Bei dieser Gelegenheit haben wir uns entschlossen, ML-Mitap zu sammeln, um unsere Best Practices auszutauschen und gleichzeitig von erfahreneren Spezialisten aus anderen Unternehmen zu lernen, in denen maschinelles Lernen bereits ein wichtiger Teil des Geschäfts ist. Wir beschlossen zu sammeln - gesammelt. Wir werden den 9. Februar verbringen. Das Programm ist unter dem Schnitt.
Das Programm
„Entdecken Sie die Starterfahrung für 90 Millionen Benutzer: fünf Empfehlungen für ML-Entwickler“, Andrey Zakonov, vk.com
Über den Bericht
- Nicht nur das Modell ist wichtig: Wir formulieren die Probleme richtig und wählen die Metriken aus.
- Verschiedene Möglichkeiten, um Ihre Lösungen für die Last zu optimieren.
- Wir bewerten Experimente korrekt: Wir studieren Grafiken und arbeiten mit Feedback.
"Produktion in ML", Mark Andreev, Conundrum.ai
Über den Bericht
Der Bericht enthält:
- über Arten von Vorhersagen: Echtzeit, Offline, Echtzeit + Offline
- Wie komme ich von einem Prototyp in einem Jupyter-Notizbuch zu einem Container?
- über Skalierungsentscheidungen und über Qualitätskontrolle.
"Wie man Suchmaschinen das Lesen von Memes beibringt", sagt Grigory Kuzovnikov, FunCorp
Über den Bericht
iFunny ist eine Anwendung mit lustigen Bildern und Videos. Der einzige Textinhalt, der verwendet wird, sind Benutzerkommentare. Um jedoch den Verkehr von Suchmaschinen anzuziehen, reicht dies nicht aus. Daher wurde beschlossen, den Text aus den Bildern zu extrahieren und auf den Seiten zu platzieren. Speziell dafür wurde ein Service geschaffen, der:
- findet den Bereich mit dem „Hauptwitz“ im Bild
- extrahiert Text aus diesem Bereich
- prüft die Qualität des erkannten Textes.
Der Dienst wird mit Tensorflow in Python geschrieben. Niemand im Team hatte Erfahrung in der Entwicklung von ML-Diensten, daher haben wir alle Phasen durchlaufen:
- Erklärung der Aufgabe.
- Die ersten Experimente, bei denen wir versuchten, etwas zu tun, das irgendwie funktioniert, experimentierten mit der Architektur neuronaler Netze.
- Erstellen eines Trainingsmusters.
- Training und Auswahl von Modellkoeffizienten.
- Erstellen eines Service mit unserem geschulten Modell. Wickeln Sie es in einen Docker-Container.
- Bereitstellung und Servicebindung an unseren PHP-Monolithen. Einzelstart.
- Die ersten Ergebnisse der Arbeit und Kommentare von Vermietungen.
- Die Verwendung von Erkennung führt zu einem Kampf.
- Analyse der Ergebnisse.
- Wir sind jetzt hier. Wir müssen die Modelle noch wiederholen und neu trainieren, um die Anzahl der korrekt erkannten Meme zu erhöhen.
Maschinelles Lernen bei Yandex.Taxi, Roman Khalkachev, Yandex.Taxi
Über den Bericht
In dem Bericht wird das Yandex.Taxi-Gerät erläutert.
Es wird eine detaillierte Geschichte geben:
- über die Aufgaben, die wir mithilfe von Datenanalyse- und maschinellen Lerntechnologien lösen
- über unser Fließband für die Entwicklung, Erprobung und Einführung von Modellen für maschinelles Lernen in der Produktion
- Lassen Sie uns alle Phasen durchlaufen: von Experimenten im Jupyter-Notizbuch bis zur vollwertigen ML-Produktion.
„Den Sklearn-Fluch loswerden: XGBoost von Grund auf neu schreiben“, Artyom Hapkin, Mail.ru Group
Über den Bericht
Eine Geschichte über das Boosten. Was Sie wissen müssen, um es selbst zu schreiben. Was sind die Fallstricke, wie kann man seine Arbeit verbessern?
Gegenwärtig ist es schwer vorstellbar, dass Ensemble-Algorithmen zum Boosten über Entscheidungsbäume nicht verwendet werden. Dies sind Suchmaschinen, Empfehlungsranking-Algorithmen, Kaggle-Wettbewerbe und vieles mehr.
Es gibt viele vorgefertigte Implementierungen des Algorithmus: Catboost, Lightgbm, Xgboost und mehr. Es gibt jedoch Zeiten, in denen die Verwendung von vorgefertigten Lösungen nicht sehr gut ist - das Verständnis des Algorithmus geht verloren, und für bestimmte Aufgaben sind solche Implementierungen nicht sehr geeignet usw.
In diesem Bericht werden wir die Prinzipien des Algorithmus analysieren und von einfach zu komplex wechseln. Wir werden unseren eigenen Xgboosting-Algorithmus implementieren, der dann für alle maschinellen Lernaufgaben angepasst werden kann - Klassifizierung, Regression, Rangfolge usw.
Weitere Informationen im
TelegrammSie können sich bei
Timepad registrieren. Die Anzahl der Plätze ist begrenzt.
Für diejenigen, die nicht kommen können oder keine Zeit haben, sich anzumelden, wird eine Sendung auf unserem
Kanal ausgestrahlt .