
FunCorp s'est récemment impliqué dans la belle expérience d'apprentissage automatique. Notre ingénieur backend a appris aux moteurs de recherche à lire les mèmes. À cette occasion, nous avons décidé de collecter ML-mitap afin de partager nos meilleures pratiques, et en même temps d'apprendre auprès de spécialistes plus expérimentés d'autres entreprises, où l'apprentissage automatique est déjà une partie importante de l'entreprise. Nous avons décidé de collecter - collecté. Nous passerons le 9 février. Le programme est sous la coupe.
Le programme
«Découvrez une expérience de lancement pour 90 millions d'utilisateurs: cinq recommandations pour les développeurs ML», Andrey Zakonov, vk.com
Ă€ propos du rapport
- Non seulement le modèle est important: nous formulons correctement les problèmes et choisissons les métriques.
- Différentes façons d'optimiser vos solutions pour la charge.
- Nous évaluons correctement les expériences: nous étudions les graphiques et travaillons avec des retours d'expérience.
«Production en ML», Mark Andreev, Conundrum.ai
Ă€ propos du rapport
Le rapport comprendra:
- sur les types de prévisions: en temps réel, hors ligne, en temps réel + hors ligne
- comment passer d'un prototype dans un cahier Jupyter Ă un conteneur
- sur les décisions d'échelle et sur le contrôle de la qualité.
«Comment apprendre aux moteurs de recherche à lire les mèmes», Grigory Kuzovnikov, FunCorp
Ă€ propos du rapport
iFunny est une application avec des images et des vidéos amusantes. Le seul contenu textuel qui soit est les commentaires des utilisateurs, mais pour attirer le trafic des moteurs de recherche, il ne suffit pas, il a donc été décidé d'extraire le texte des images et de le placer sur les pages. Surtout pour cela, un service a été créé qui:
- trouve la zone contenant la "blague principale" dans l'image
- extrait le texte de cette zone
- vérifie la qualité du texte reconnu.
Le service est écrit en Python en utilisant tensorflow. Personne dans l'équipe n'avait d'expérience dans le développement de services ML, nous avons donc traversé toutes les étapes:
- Énoncé de la tâche.
- Les premières expériences lorsque nous avons essayé de faire quelque chose qui fonctionne au moins en quelque sorte, en expérimentant l'architecture des réseaux de neurones.
- Réalisation d'un exemple de formation.
- Formation et sélection des coefficients du modèle.
- Création d'un service en utilisant notre modèle formé. L'emballer dans un conteneur docker.
- Déploiement et liaison de service à notre monolithe php. Démarrage unique.
- Les premiers résultats des travaux et commentaires des locations.
- Utiliser les résultats de la reconnaissance au combat.
- Analyse des résultats.
- Nous sommes ici maintenant. Nous devons encore refaire et recycler les modèles pour augmenter le nombre de mèmes correctement reconnus.
Apprentissage automatique chez Yandex.Taxi, Roman Khalkachev, Yandex.Taxi
Ă€ propos du rapport
Le rapport traitera de l'appareil Yandex.Taxi.
Il y aura une histoire détaillée:
- sur les tâches que nous résolvons à l'aide des technologies d'analyse de données et d'apprentissage automatique
- à propos de notre chaîne de montage pour le développement, le test et le lancement de modèles d'apprentissage automatique en production
- passons par toutes les étapes: des expériences dans le cahier Jupyter à la production ML à part entière.
"Se débarrasser de la malédiction de Sklearn: écrire XGBoost à partir de zéro", Artyom Hapkin, Mail.ru Group
Ă€ propos du rapport
Une histoire de boost. Ce que vous devez savoir pour l'écrire vous-même. Quels sont les écueils, comment améliorer son travail.
À l'heure actuelle, il est difficile d'imaginer un endroit où les algorithmes d'ensemble pour augmenter les arbres de décision ne sont pas utilisés. Il s'agit des moteurs de recherche, des algorithmes de classement des recommandations, des compétitions Kaggle et bien d'autres.
Il existe de nombreuses implémentations prêtes à l'emploi de l'algorithme: Catboost, Lightgbm, Xgboost, et plus encore. Cependant, il y a des moments où l'utilisation de solutions prêtes à l'emploi n'est pas très bonne - la compréhension de l'algorithme est perdue, et pour certaines tâches, ces implémentations ne sont pas très appropriées, etc.
Dans ce rapport, nous analyserons les principes de l'algorithme, et en passant du simple au complexe, nous mettrons en œuvre notre propre algorithme Xgboosting, qui peut ensuite être ajusté pour toutes les tâches d'apprentissage automatique - classification, régression, classement, etc.
Plus d'informations dans
TelegramVous pouvez vous inscrire sur
Timepad . Le nombre de places est limité.
Pour ceux qui ne peuvent pas venir ou qui n'ont pas le temps de s'inscrire, une
émission sera diffusée sur notre
chaîne .