oktech Data Sense # 3: mini interview des conférenciers



Le projet Tech Tech Tolk est né comme une plate-forme de discussion pour les spécialistes impliqués dans le traitement et l'analyse des mégadonnées. Chaque fois, nous soulignons que la tâche principale de nos réunions n'est pas les rapports, bien qu'ils soient également très importants, mais une discussion ouverte du public avec des conférenciers, au cours de laquelle les participants ont le temps de discuter de toutes les questions dans le cadre de l'événement. Nous pensons que dans cette situation, lorsque le nombre de problèmes et de problèmes non résolus dans le domaine de la science des données augmente rapidement, un dialogue ouvert est très important.

Nous avons tenu 2 réunions, lors de la première, nous avons discuté des avantages et des inconvénients des différentes approches du stockage des données et de la manière dont ces approches affectent le travail des différentes équipes, et nous avons également abordé l'évolution des entrepôts de données. La deuxième réunion a été consacrée à l'enseignement de la science des données, des représentants d'opinions différentes se sont rencontrés sur le site, des conférenciers ont parlé de l'importance de l'enseignement universitaire, de la variété des cours en ligne et de leurs fonctionnalités, ainsi que des compétences dont vous avez besoin pour devenir un centre de données cool et recherché.

En prévision de la troisième réunion , qui se tiendra le 6 novembre à Moscou et sera consacrée aux systèmes de recommandation, nous avons discuté avec les orateurs de leur cheminement vers l'élaboration de systèmes de recommandation, comment ils envisagent leur avenir dans cette direction et leur avons demandé de recommander ce qui devrait être fait maintenant afin que les connaissances et les compétences sont restées pertinentes même après quelques années. Nous avons également demandé de quoi ils parleront lors de la réunion et pourquoi cela vaut la peine d'assister à cet événement.

Inscrivez-vous à Data Explore # 3

Parlez-moi un peu de vous?


Andrey Kuznetsov, camarades de classe
Salut, je suis ingénieur en télécommunications de formation. Après ses études, il est allé rédiger une thèse et en même temps enseigné. À un moment donné, il m'a semblé que dans l'ancien endroit, je faisais tout ce que je voulais et je suis allé travailler dans la science des données. Il y a peu de temps, je m'occupais de recommandations dans l'entreprise, mais j'ai acquis la principale expérience dans ce domaine grâce aux cours en ligne et aux DS compétitifs.

Vladislav Grozin, Joom
Il est entré dans le monde des systèmes de recommandation sur la pointe d'Alexei Natekin, dont il a étudié au DataMining Lab. J'avais peu de compréhension de ce que j'allais faire, mais au final, je suis allé beaucoup mieux que d'écrire des pilotes de réseau pour Linux dans un laboratoire universitaire (ce que j'ai fait auparavant).

Evgeny Frolov, SkolTech
Mon voyage vers les systèmes de recommandation a commencé tout simplement. En 2014, j'étais étudiant à Skoltech, à la recherche d'opportunités pour faire de la recherche appliquée dans les domaines de l'apprentissage automatique qui m'intéressaient. Je voulais exactement quelque chose lié aux assistants intellectuels. Juste à ce moment, mon futur superviseur, Ivan Oseledets, a annoncé un nouveau projet avec un bureau allemand intéressé à rechercher l'applicabilité de méthodes mathématiques avancées pour les systèmes de recommandation. Les étoiles se sont réunies, alors j'ai commencé à faire mon doctorat.

Parlez-moi de votre premier déploiement en production?


Andrey Kuznetsov, camarades de classe
Le premier déploiement en production était lié aux recommandations des groupes de OK et, bien sûr, ce fut une expérience passionnante. Mais la présence de collègues expérimentés et d'outils et de processus débogués dans l'équipe simplifie considérablement la vie. Soit dit en passant, l'hypothèse a fonctionné et le pipeline est allé à prod, mais après 3 mois, nous l'avons remplacé par une solution plus efficace.

Vladislav Grozin, Joom
Le premier modèle, que j'ai lancé dans le prod, ne concernait pas vraiment les recommandations, mais la recherche. Je me souviens parfaitement du moment où le trafic en direct s'est déversé dessus. Le trafic était faible, toutes les secondes ou deux, la demande d'un utilisateur arrivait, créant une autre ligne à l'écran (j'ai regardé les journaux). C'était passionnant: j'étais responsable à la fois du modèle et de l'infrastructure qui l'entourait, et je m'attendais à ce que quelque chose se brise et nécessite une intervention urgente. Mais tout s'est bien passé, et après une quinzaine de minutes, je me suis calmé et je suis allé prendre un café.

Evgeny Frolov, SkolTech
En production, personnellement, je n'ai pas déployé de modèles. "Je suis chercheur." Mes tâches jusqu'à présent sont principalement liées au développement de nouvelles approches et méthodes et ne vont pas au-delà de la mise en œuvre de prototypes.

Selon vous, qu'est-ce qui est le plus important: des algorithmes sympas ou une compréhension de domaine?


Andrey Kuznetsov, camarades de classe
Dans le domaine des recommandations, semble-t-il, ce sont deux baleines égales sur lesquelles se déroulent tous les grands projets. Connaître les spécificités des données elles-mêmes, comment elles sont collectées et comment le système fonctionne (en particulier sous des charges comparables aux nôtres) aide beaucoup à évaluer à l'avance si tel ou tel algorithme fonctionnera et s'il vaut la peine de passer du temps. Eh bien, vous devez connaître les algorithmes et les outils qui les implémentent afin de pouvoir les essayer rapidement pour votre tâche et déployer une preuve de concept pour les tests A / B.

Vladislav Grozin, Joom
Il est important de prendre l'algorithme le plus cool qui convient à la tâche et aux délais de développement et de ressources, et n'ayez pas peur de le lancer dans le prod.

Evgeny Frolov, SkolTech
Si nous parlons spécifiquement du domaine des systèmes de recommandation, alors, comme le montre la pratique (et non sans interruption de la recherche), la compréhension du sujet est plus importante. Il y a une telle opinion établie avec laquelle je suis plus d'accord que les algorithmes représentent 5% du succès d'un système de recommandation. Maintenant, la zone a déjà atteint le stade de développement, il est assez facile de trouver une bibliothèque ou un progiciel pratique, de la mettre en production et de commencer à générer des bénéfices. Oui, il se peut que le choix ne soit pas optimal, mais pour commencer, cela suffira et vous permettra de vous concentrer sur des tâches commerciales importantes.

Dans quels nouveaux domaines les systèmes de recommandation seront-ils appliqués?


Andrey Kuznetsov, camarades de classe
L'avenir le plus ambitieux, à mon avis, attend les systèmes de recommandation dans le domaine de l'éducation, lorsque le système éducatif lui-même (en particulier le système russe) est prêt pour cela :). En effet, en fait, nous sommes déjà assez gâtés par les recommandations commerciales, mais avoir des «conseils de carrière sur les stéroïdes» vaut beaucoup.

Vladislav Grozin, Joom
Il semble que des systèmes de recommandation seront bientôt intégrés dans la police robotique pour leur donner des recommandations sur la pertinence de l'application des méthodes de l'impact physique aux sujets de l'état de droit en vue d'une moralisation constructive.

Evgeny Frolov, SkolTech
Les méthodes des systèmes de recommandation peuvent être utilisées pour résoudre de nombreux problèmes en cas de problème de données manquantes. Par exemple, les chimistes ont découvert que de cette manière de nouveaux composés inorganiques auparavant inconnus peuvent être prédits sur la base de combinaisons de différents ions / cations. Une autre tâche consiste à identifier des médicaments efficaces contre les virus à base de protéines aux propriétés inhibitrices spéciales. Il est extrêmement difficile de savoir quelles protéines seront efficaces pour lutter contre une souche spécifique de virus si aucun test n'a été effectué auparavant. Il existe de nombreuses options possibles pour les deux, les virus évoluent également rapidement, vous ne pouvez pas tout mesurer. Mais sur la base de certains schémas communs dans les réactions des virus, vous pouvez essayer de prédire le résultat là où il n'y a pas encore eu de tests. Presque comme dans la vente au détail en ligne, mais avec l'effet inverse - le virus ne devrait pas beaucoup aimer le «produit».

Ce sont maintenant des étapes timides, mais je pense que nous verrons de plus en plus de pénétration des méthodes des systèmes de recommandation au-delà des domaines habituels du commerce, du divertissement et de la publicité. J'aimerais au moins l'espérer. Il semble qu'il y aura progressivement un changement de simple confort vers un changement qualitatif du niveau de vie en aidant à prendre des décisions complexes, telles que l'élaboration d'un parcours d'apprentissage individuel pour une bonne éducation, le choix d'une profession intéressante et recherchée ou l'obtention de services de médecine personnalisés.

Quel livre ou article quelqu'un qui travaille avec des systèmes de recommandation devrait-il lire?


Andrey Kuznetsov, camarades de classe
Il est difficile de recommander un livre spécifique, car le domaine est assez appliqué. Je recommanderais des cours en ligne, par exemple, la spécialisation en analyse de données du MIPT chez Coursera est très bonne.

Vladislav Grozin, Joom
Il me semble que tous les scientifiques devraient lire GroupLens: An Open Architecture for Collaborative Filtering of Netnews. Cet article décrit l'un des premiers systèmes de recommandation déployés, tels que nous les connaissons maintenant. Cet article est très différent de ce que nous lisons si souvent maintenant, car il affecte non seulement l'algorithme lui-même, mais aussi l'environnement dans lequel il fonctionnera.

Evgeny Frolov, SkolTech
Il n'y a pas tellement de livres dans ce domaine, et si vous le souhaitez, vous pouvez lire au moins tout, au moins à un niveau courant. En regardant combien de débutants suivent le même chemin menant au même "râteau", je mentionnerais un article de 2010 sur l'approche PureSVD par Paolo Cremonesi, Yehuda Koren et Roberto Turrin. Ce n'est pas un hasard si elle est la troisième citation dans les collections d'articles de la Conférence ACM sur les systèmes de recommandation dans toute l'histoire de cette conférence. À un moment donné, elle m'a aidé à regarder différemment la pile d'articles qui rampe en haut des résultats de recherche, si la demande est formulée de manière trop approfondie.

La meilleure bibliothèque open source pour recommande?


Andrey Kuznetsov, camarades de classe
Cela dépend du problème résolu, de la quantité de données et de la plate-forme sur laquelle le système de recommandation sera construit. Il semble que certains LightFM puissent être recommandés comme ligne de base pour presque toutes les recommandations de tâches.

Vladislav Grozin, Joom
PyTorch?

Evgeny Frolov ^ SkolTech
Dans mon cas, la réponse est évidente - la bibliothèque Polara que je développe.

Quel sera votre rapport sur oktech Data Explained # 3, et pourquoi vous devriez l'écouter


Andrey Kuznetsov, camarades de classe
Le rapport sera l'histoire du développement d'un système de recommandation pour les équipes de projet en OK. Je vais vous expliquer pourquoi il s'agit d'un cas intéressant en soi et en quoi il diffère des recommandations classiques, par exemple, les produits du commerce électronique. Je mentionnerai séparément les bosses que nous avons remplies pendant le développement, quelles conclusions ont été tirées et pourquoi il n'y a jamais assez de données et d'algorithmes universels.

Vladislav Grozin, Joom
Je vais vous dire à quoi vous pouvez vous attendre lors des conférences. Beaucoup de gens veulent y aller, car ça a l'air cool et cool, mais ils hésitent à investir du temps et de l'argent, car les détails et les avantages pratiques du voyage ne sont pas clairs. J'espère clarifier ces questions avec mon histoire.

Evgeny Frolov, SkolTech
Je parlerai de notre développement - un nouveau modèle appelé HybridSVD - que j'ai récemment présenté lors de la conférence ACM RecSys. Il s'agit d'une généralisation directe du modèle PureSVD pour les systèmes de recommandation hybrides qui prennent en compte des informations supplémentaires sur les utilisateurs et les produits. Le modèle est intéressant en ce qu'il ne va pas au-delà du calcul d'une décomposition singulière, ce qui signifie qu'il hérite de tous les avantages de calcul et de facilité d'utilisation. Je vais en parler, en m'attardant également plus en détail sur les aspects techniques.

Les gars, merci beaucoup d'avoir pris le temps de répondre aux questions!

Nous attendons tous ceux qui souhaitent discuter avec des experts dans le domaine des systèmes de recommandation lors de la réunion du 6 novembre dans leur bureau de Moscou.

Venez, ce sera intéressant!

Inscrivez-vous à l'événement .

Source: https://habr.com/ru/post/fr472032/


All Articles