Que se passera-t-il lors de la conférence UseData Conf 2019?

Hourra! Nous avons terminé la formation du programme de la conférence UseData Conf 2019 ! Cette conférence s'adresse à ceux qui résolvent des problèmes pratiques à l'aide de méthodes d'apprentissage automatique. Il existe souvent un écart entre l'algorithme idéal dans le vide et son application sur des données réelles. Nous voulons que ceux qui peuvent combler ce gouffre se rencontrent et échangent leurs expériences.



La magie de l'apprentissage automatique pour les gestionnaires, l'histoire de l'utilisation du ML pour analyser l'efficacité de la publicité à la télévision, les petites voitures sans pilote, le pétrole et les numéros de voiture ne sont que quelques-uns des rapports à UseData 2019. Plus d'informations sur ces sujets et d'autres sont sous le chat.

Dans le programme, nous avons formé 5 sections. Les rapports de section sont regroupés selon les directions des tâches qu'ils résolvent.

  • Apprentissage automatique et analyse de donnĂ©es dans le commerce.
  • Vision par ordinateur.
  • Traitement de textes en langues naturelles.
  • Systèmes de prise de dĂ©cision.
  • Cadres et outils d'apprentissage automatique.

Sur chacun de ces sujets, quelque chose d'intéressant a été trouvé.

Apprentissage automatique et analyse de données dans le commerce


L'effet de la publicité télévisée: évaluation et optimisation
Alexandra Lomakin, JOOM


La moitié de mon budget publicitaire est gaspillée. Le problème est que je ne sais pas lequel.

Ceci est une citation de John Wanamaker, un entrepreneur américain qui a ouvert le premier grand magasin et appliqué les étiquettes de prix en premier. Il a compris quelque chose dans le commerce.

Joom a également réfléchi à la part du budget dépensé pour les publicités télévisées et a décidé de mesurer son efficacité avant les données des scientifiques. Comment comprendre que l'utilisateur est issu de la publicité télévisée, quels outils suivre et quelles données sont nécessaires pour cela?

Alexandra est allée jusqu'au bout et est prête à partager les réponses . Spoiler: L'espace d'optimisation est énorme.

Apprentissage automatique pour prédire les ventes de la boutique en ligne OZON.RU. Optimisation des prix avec des modèles de prévision de la demande.
Alexander Alekseytsev, OZON.RU


OZON.ru est un très grand magasin avec une énorme quantité de marchandises, une logistique complexe et des prix. Le modèle travaille sur la reconstitution des entrepôts et la prévision de la demande. Un grand magasin est un grand nombre de données sur lesquelles un modèle peut apprendre. D'une part, c'est bien, c'est pratique de faire des prévisions. En revanche, sur une telle échelle, une erreur se manifeste rapidement, le cas échéant.

Par exemple, un produit n'était pas en stock depuis longtemps, puis il est apparu et le modèle se trompe avec les prévisions. C'est bien pour un produit, mais sur OZON.ru il y a des centaines de tels produits chaque jour. En raison d'une erreur, l'entrepôt peut manquer de marchandises ou il sera plein.

Alexander vous expliquera comment gérer les erreurs de prévision et d'approvisionnement et comment vous assurer contre les erreurs. Son rapport n'est pas seulement une étude de cas réussie d'apprentissage automatique, mais aussi une excursion intéressante dans le domaine. Si vous construisez des modèles pour les prévisions de ventes, vous en trouverez beaucoup pour vous-même.

Vision par ordinateur


Dans cette section, nous parlerons de la reconnaissance de l'État. chiffres, problèmes de ressources et écouter un rapport scientifique.

512 Ko de mémoire suffisent à tout le monde! Identification d'une personne par face sur un microcontrôleur avec une caméra
Alexander Smorkalov, Xperience.ai


Il arrive que vous ayez besoin de reconnaître des visages sur des appareils peu performants qui fonctionnent sur batterie. Ils ont peu de mémoire, mais ils n'ont pas du tout entendu parler du GPU. Alexander partagera l'histoire du transfert réussi du modèle sur de tels appareils. L'expérience du transfert de modèles vers des appareils non standard élargit considérablement les horizons. Les idées peuvent être utiles dans des situations où l'appareil est standard, mais les ressources consommées sont inacceptables.

Régularisation de Wasserstein pour un apprentissage génératif et discriminatoire
Guido Montufar, Institut Max Planck


Nous sommes très heureux que Vanya Yamshchikov ait convaincu son collègue Guido de venir à notre conférence. Il s'agit du seul rapport scientifique de la conférence, mais l'applicabilité pratique est encore certaine. La lutte consiste à reconnaître ou à générer des classes avec une large diffusion à l'intérieur, par exemple, des images. Rappelez-vous la tâche classique des chiens-chats dans laquelle les chiens de races différentes ne se ressemblent pas? Donc, ces différences sont babillantes par rapport à ce qui se passe.

Je ne suis pas un expert dans ce sujet, mais il me semble que de telles tâches forcent la création de réseaux de neurones avec un grand nombre de couches. Cela exacerbe le problème de l'atténuation du gradient, et la lutte sans fin des armures et des obus consomme des centaines d'huile de ressources informatiques sans but. Les méthodes explorées par Guido permettent de résoudre les problèmes avec une large répartition au sein de chaque classe à moindre coût et plus rapidement.

Comment trouver et fermer l'état. numéro sur la photo de la voiture et empêcher la copie de contenu à l'aide d'une attaque contradictoire
Ilya Sergeev, Avito


Il était une fois, j'ai travaillé chez Yandex, et Y. Maps a créé des panoramas de rue, en collaboration avec une équipe de vision par ordinateur. Dans les panoramas, il fallait couvrir les visages et les plaques d'immatriculation des voitures tombées accidentellement dans le cadre. Il n'y avait pas de solutions toutes faites pour cela, je devais le voir nous-mêmes.

À Avito, pour une tâche similaire, ils ont également pris leur décision. En 2019, cette tâche ne s'annonce plus passionnante. Il semble que maintenant tout le monde puisse apprendre à fermer l'État. nombre par heure sur le genou. Mais il semble que oui. Il s'est avéré que pour certaines entreprises, il est plus facile de copier des images d'Avito, en remplaçant la marque sur l'image par la leur, car il est plus facile de la détecter que le nombre. Avito a dû faire des efforts particuliers pour révéler les voleurs de contenu.

Des parties de cette histoire ont déjà été publiées sur Habré, mais lors de notre conférence Ilya la présentera entièrement sous la forme d'une histoire, pas d'un article.

Comment les réseaux de neurones peuvent aider à se faire une idée de ce qui se passe sous terre et à déterminer où chercher du pétrole
Darima Mylzenova, Gazprom Neft


Qui dans l'enfance a résolu un problème de modèle de vision par ordinateur sur la reconnaissance des nombres manuscrits? Qui a écrit les chiffres sur un morceau de papier, l'a scanné et vérifié qu'il avait vu le modèle (rien)? Les gens ressentent à peu près le même sentiment lorsqu'ils sont confrontés à des tâches du monde réel.

Nous aimons vraiment les tâches du secteur réel, car la différence entre les données sur lesquelles les gens sont habitués à apprendre et les données de la vie est clairement visible sur elles: inexactes, avec des erreurs et des limitations, avec différentes résolutions, avec des espaces. Darima nous dira non seulement quels sont les modèles de réseaux de neurones capables dans le domaine de l'analyse de l'intérieur de la Terre, mais aussi combien ils ne savent toujours pas comment, mais ils aimeraient le faire.

Traitement du langage naturel


Une machine peut-elle comprendre les blagues et les blagues? Comment apprendre à un modèle à comprendre des noms étranges? Et reconnaître le code?

Recherche d'anomalies dans les données personnelles par l'exemple d'un nom complet
George Shushuev, CFT


Certains utilisateurs écrivent à peine leur nom en russe et leurs noms sont inhabituels. Butnaru d'Iuria, Sashka Sedlay Konya Soigneusement, Eyide Lucky, Pulotov Aslam Akhmat Zhon Ugli, Bebalau IonNon, j'ai déjà fatigué Ilyasovich - de quel nom s'agit-il? Il y a des noms dans cet ensemble de lettres, mais vous pensiez, non? Ici, la difficulté se pose - apprendre au modèle à reconnaître les noms, même si une personne ne réussit pas toujours.

Nous aimons les histoires sur l'apprentissage réussi sans professeur, et ce n'est que l'une d'entre elles. George parlera de l'évolution du détecteur d'anomalie dans les données personnelles du modèle de Markov au réseau neuronal et partagera les astuces de vie de développer de tels détecteurs pour de courts ensembles de textes.

Apprentissage automatique pour le code
Egor Bulychev, source {d}


Ceci est un aperçu des derniers développements dans le domaine du travail avec le code. Comment trouver des référentiels similaires dans les tâches? Comment trouver un développeur avec une expérience similaire sur GitHub? Comment formaliser cette similitude? Et comment tout optimiser pour fonctionner avec tous les GitHub à la fois? Egor est exactement engagé dans ces tâches et partagera son expérience.

Est-il possible d'enseigner Ă  une voiture un sens de l'humour?
Vladislav Blinov, Valeria Baranova, Tinkoff


Vladislav et Valeria apprennent à la voiture à comprendre les blagues en russe. N'est-ce pas parfait? Il n'y a rien à dire - il suffit de venir écouter .

D'un point de vue pratique, tout est comme on aime: il n'y a presque pas de jeux de données marqués, il n'y a pas d'eau, il n'y a pas de végétation, il est habité par des robots. Travail sérieux sur un sujet amusant.

Comment implémenter une recherche sémantique rapide et efficace dans votre projet basée sur le flux de clics, les transformateurs et la recherche approximative (ANNS)
Vladimir Bugay, Knoema


Comment faire une recherche normale dans une situation où il y a beaucoup de chiffres et un peu de texte? Knoema est un agrégateur de données analytiques, qui ont presque toutes la forme de séries chronologiques. Si, pour une raison quelconque, vous souhaitez connaître les dernières estimations des réserves de pétrole vénézuéliennes ou du volume de la production de diamants au Congo, alors c'est l'endroit avec les dernières données. La seule question est de savoir comment les trouver.

Certaines données sont contenues directement dans la base de données, d'autres sont calculables. Pour bien chercher, vous devez construire un modèle de la relation entre les données. Maintenant, c'est déjà un modèle de réseau neuronal basé sur USE. Vladimir parlera de plusieurs étapes importantes dans le développement d'une recherche à l'aide de données non standard: comment assembler relativement rapidement une telle recherche à partir de composants prêts à l'emploi, comment la recycler à l'aide de ses informations supplémentaires, par exemple, les clics, comment réduire la taille de l'index et optimiser d'autres goulots d'étranglement.

Systèmes de prise de décision


Architectures de réseaux neuronaux modernes / version 2019
Grigory Sapunov, Intento


Il semble que Grégoire n'ait pas besoin d'être présenté. Il est le co-fondateur d'Intento, un conférencier régulier et chef de section lors de conférences d'apprentissage automatique, une personne qui regarde et déplace l'industrie. Parmi les dernières insignes dont tout le monde n'a pas encore entendu parler, citons l'inclusion de Google Developer Expert dans la catégorie Machine Learning sur la liste. Au moment d'écrire ces lignes, il n'y avait que 109 personnes sur la liste, et une seule d'entre elles venait de Russie. Grisha, félicitations!

C'est exactement le niveau d'expertise auquel vous pouvez faire un examen intéressant des nouveaux produits dans le monde des réseaux de neurones au cours des deux dernières années. Quelles nouvelles tâches le réseau a-t-il appris à résoudre? Qu'avez-vous dû faire pour cela? Dans quelles directions attendons-nous les prochaines percées?

Ce qui est bon et ce qui est mauvais: mesures des systèmes de recommandation
Irina Pchelintseva, Yandex


Comment mesurer l'efficacité d'un système de recommandation pour les films? Prédisez quelle note un spectateur donné donnera à un film en particulier et proposez de le regarder uniquement si la note est élevée. Mais il y a des nuances.

La plupart diront sûrement que The Godfather ou Schindler's List sont de bons films, même s'il ne les a pas vus lui-même. Mais imaginez comment vous rentrez du travail. La journée a été difficile: le projet ne colle pas, le patron a mangé tout le cerveau, et demain ce sera pareil. Dans cet état, il est peu probable qu'il veuille regarder un film intelligent et profond, et un film d'action stupide, pour qui le prix rouge est de six sur dix, baissera. Par conséquent, le système de recommandation devrait offrir ce que vous regardez , et non ce qui est d' usage à louer .

Ce n'est là qu'un des aspects inattendus de la tâche, et il y en a de nombreux. Pour en savoir plus, venez au discours d'Irina.

Développement et implémentation d'agents intelligents
Andrey Ivanov, Tinkoff


Un agent intelligent fait partie d'un système qui résout une tâche intellectuelle pour une personne. L'agent est développé par un spécialiste de l'apprentissage automatique, dont certaines tâches seront reprises par l'agent. Par exemple, pour une banque, il s'agit d'un système de recommandation qui peut offrir un prêt, un dépôt, une carte ou un autre produit, selon ce que l'on sait de l'utilisateur.

Andrei a une présentation très pratique: comment les agents intellectuels sont utilisés dans Tinkoff (par exemple, les «histoires»), quelles difficultés surviennent dans leur développement et quels outils y contribuent.

Prévision des incidents de forage
Ivan Isaev, Altarix


Encore une fois sur le secteur réel et le pétrole. Ivan racontera une bonne histoire pratique sur la façon d'obtenir un peu de données du client, de créer un modèle utile à partir de celui-ci, d'obtenir plus de données par la suite et d'obtenir un résultat décent sur lui.

Algorithmes de conduite de voitures autonomes basés sur l'apprentissage automatique
Saloni garg


Cette histoire n'est pas ce qu'elle semble. Saloni est parvenu à résoudre des problèmes dont la plupart d'entre nous ignorons l'existence.

Dans une région pauvre, le carburant pour un bus est une ressource précieuse. Les conducteurs l'enregistrent à l'aide de nombreuses techniques étonnantes: ils n'allument pas les phares, ne conduisent pas sur les neutres et ne suivent pas la ligne. Comment, dans de telles conditions, l'obliger à conduire en toute sécurité?

Il n'y a pas beaucoup d'argent autour, donc le matériel pour résoudre le problème est le plus primitif, la plupart des estimations doivent être construites localement, la vidéo de la caméra au serveur ne peut pas être transférée. Comment travailler dans de telles conditions, et raconte Saloni Garg.

Cadres et outils d'apprentissage automatique


Ajouter un contrôle de données au pipeline ML
Artyom Seleznev, mégaphone


Vous attendez de MegaFon des systèmes de recommandation avec de nouveaux services et tarifs, ou des histoires sur Elena. Mais non, cette fois, Artyom parlera de l'expérience de la mise en œuvre de l'outil DVC et des cloches et sifflets supplémentaires qui ont été faits dessus. Les cloches et les sifflets sont intéressants et non triviaux. Si vous êtes pour la reproductibilité des expériences d'apprentissage automatique, venez à la discussion.

AWS DeepRacer: apprendre les défis à travers le jeu
Alexander Patrushev, AWS


Certes, il serait intéressant de former un modèle pour la course sur une voiture sans pilote? Et pourtant pour rompre avec un minimum de voitures. Idéalement, je veux avoir un environnement virtuel proche de la réalité, dans lequel attraper la plupart des bugs. Une option pour un tel environnement est l'utilisation de modèles. Les petites voitures, sur une échelle de 1 à 18, sont utilisées pour former des algorithmes. Alexander partagera l' histoire de la création d'AWS DeepRacer et les difficultés qui surviennent lors du développement d'un environnement d'apprentissage virtuel et lors du transfert d'un modèle vers un équipement réel.

Rapport de gestion hors section


Gestion de projet 2.0: transformation de l'IA
Eduard Tyantov, Mail.ru Group


Le monde change et les modèles ML pénètrent de plus en plus nos produits, et parfois ils deviennent leur élément central. Avez-vous déjà eu le «Pourquoi? !!» en colère des autorités, coupable de répondre "Eh bien, le modèle est tellement réglé ..."? Les patrons, qui ont grandi dans les pratiques de développement logiciel à la fin du siècle dernier, ne comprennent souvent pas à quoi s'attendre de l'apprentissage automatique et quel est le prix de cette magie.

Edward dans son rapport examinera le problème du leadership de l'équipe et du produit. Quels changements dans le cycle de développement, dans la définition des tâches, dans le contrôle qualité? Il est juste cette personne qui peut en dire beaucoup à ce sujet, car depuis de nombreuses années, il mène avec succès des projets basés sur l'apprentissage automatique chez Mail.ru. Le projet le plus célèbre, à mon avis, est Artisto, une application de style vidéo.

Piste bonus


Et nous aurons également un atelier pratique de trois heures de Yandex sur la collecte de données à l'aide de Yandex.Tolki! Il sera dirigé par des personnes qui développent la Toloka et par ceux qui l'utilisent régulièrement: Alexei Druta et Olga Megorskaya.

Vous aurez une idée générale du fonctionnement des mécanismes de crowdsourcing comme Toloka ou Mechanical Turk. Ensuite, vous pouvez choisir l'une des nombreuses tâches proposées pour baliser les données, créer une tâche pour les tolokers, préparer des tâches de test et des «pièges» pour les tricheurs. En fin de compte, vous essayerez de déterminer les vraies estimations à partir du balisage résultant et des tokers suspects en utilisant les algorithmes proposés par le système.

L'atelier sera utile à ceux qui ont pensé à collecter des données via Toloka, mais n'ont pas osé en raison du danger de dépenser tout le budget sans préparation.

Pour franchir l'écart entre les algorithmes dans le vide et les vrais, nous attendons le 16 septembre. Une journée entière de rapports, de réunions, de communication, d'apprentissage automatique et d'études de cas - la beauté! La prochaine et dernière augmentation de prix pour UseData Conf 2019 est déjà le 9 septembre, alors réservez vos billets maintenant pour fixer le prix. Rendez-vous dans Infraspace!

Source: https://habr.com/ru/post/fr464637/


All Articles