Ce n'est un secret pour personne que les scientifiques aiment beaucoup explorer le monde. Par conséquent, les grandes conférences se tiennent toujours dans les capitales historiques et culturelles du monde. Ces villes sont pratiques pour visiter des gens du monde entier et sont intéressantes d'un point de vue touristique. Mais parfois le désir d'explorer le nouveau et l'inconnu prend le dessus, et la ville de la conférence devient, par exemple, Anchorage en Alaska. Vous n'avez pas entendu parler de lui avant ça non plus? Et cette année, l'une des plus grandes conférences KDD'19 s'y est tenue .

Chez Antiplagiarism, nous ne pouvions pas manquer un tel événement et nous sommes partis à la rencontre d'aventures de l'autre côté du globe. Que s'est-il passé au KDD 2019 - lisez notre critique!
Mon voyage a commencé par un vol de 12 heures vers Los Angeles, où un ami local de mon ami m'avait déjà rencontré à l'aéroport. Au départ, j'avais prévu de me promener seul dans la ville, mais l'argument "vous ne verrez rien sans voiture à LA, et personne ne vous ramènera à l'aéroport à travers les embouteillages" semblait assez convaincant. Eh bien, sans voiture dans la ville des anges, vous ne pouvez vraiment pas aller nulle part - il n'y a pratiquement pas de transports en commun ici, et celui qui est dans un état assez indécent. LA elle-même ressemblait à une liste: d'énormes embouteillages, une plage à l'échelle de la ville, Hollywood Hills, Beverly Hills, déjeuner dans un fast-food américain classique et coucher de soleil sur la plage. Mais toutes les choses intéressantes ont tendance à se terminer, et le prochain vol m'attendait.

Depuis que je me suis envolé de l'autre hémisphère, mon corps n'a rien pensé, donc le vol de nuit de 5 heures vers l'Alaska est passé inaperçu pour moi. Afin de récupérer en quelque sorte, je suis allé me coucher pendant 4 heures, cependant, comme toujours.
Le changement de fuseau horaire s'est ensuite fait sentir: tout le temps j'ai eu envie de dormir. Afin de ne pas tomber complètement, je suis allé m'inscrire. De plus, la marche de l'auberge au lieu de la conférence a permis de remonter le moral.
Le dispositif de conférence n'était pas inhabituel en rien: plusieurs sessions dispersées dans différentes salles, où des présentations et des discussions sur de nouvelles approches de l'apprentissage automatique et des solutions et des implémentations intéressantes ont lieu. Une mise en garde: dans le cas de KDD'19, l'ensemble de la conférence a occupé deux immenses bâtiments de conférence de plusieurs étages avec un public nombreux sur chacun d'eux. Comme toujours, certaines présentations ont suscité un tel intérêt que l'on ne pouvait même pas entrer dans le public à travers une foule de gens. En un mot, chaque participant à la conférence pourrait trouver quelque chose d'intéressant spécifiquement pour lui. KDD propose toujours de nombreux formats différents pour présenter les informations, il y avait donc beaucoup de choix. Ce sont des rapports de scientifiques célèbres qui diffusent à un large public "en streaming", et des présentations de nouveaux arrivants à la science dans de petites salles de "séminaires". Pour ceux qui veulent non seulement écouter, mais aussi pratiquer, il existe des «tutoriels pratiques» où des représentants de différents domaines conduisent des exercices pratiques. Par exemple, le tutoriel d'Amazon sur la façon d'utiliser leur service de cloud computing était assez populaire. Cependant, le premier jour a été assez léger: il était réservé à l'inscription, il n'y avait pas de présentations sérieuses ici, seulement des mots de bienvenue et des conférences de synthèse. Je suis donc allé dans ma chambre, me préparant pour les représentations à venir.
Là où le nôtre n'a pas disparu
B - la sécurité, mais vous ne ferez rien pour le bien de la science. Et en général, ce n'est pas en vain que la PhysTech a fini.
La deuxième journée a été entièrement consacrée aux ateliers. En termes simples, un atelier est une réunion où les participants échangent leurs expériences dans la résolution de problèmes dans un certain domaine. Étant donné que notre département de la société Anti-Plagiat est engagé dans un système de recherche d'emprunt multilingue , notre travail, que j'ai présenté lors de la conférence, a immédiatement adapté les thèmes de deux ateliers: apprentissage profond pour l'éducation et découverte de la vérité et vérification des faits. Avant mes rapports, j'ai réussi à voir quelques présentations intéressantes. Il convient de noter l'histoire de Ruslan Salakhutdinov sur le modèle XLNet . Bien sûr, ils ont écrit sur ce modèle avant KDD, mais écouter directement l'un des auteurs était beaucoup plus intéressant. Une partie du rapport était consacrée à une nouvelle tendance dans l'apprentissage automatique: au lieu d'enseigner des modèles lourds, utilisez des modèles pré-formés et personnalisez-les simplement selon vos besoins. Cela est compréhensible: la plupart des entreprises qui utilisent d'une manière ou d'une autre des architectures complexes dans leurs activités n'ont pas assez de puissance de calcul pour apprendre à partir de zéro. Et recycler des modèles prêts à l'emploi pour vos tâches est beaucoup plus simple et plus rapide. De plus, la qualité du travail de ces modèles est beaucoup plus élevée que celle des analogues simplifiés.
Tout le temps restant après le déjeuner était consacré à la recherche de leur public, à la communication avec les chefs d'ateliers et à d'autres détails organisationnels. Mon premier rapport était à l'atelier Deep Learning for Education . Il était juste après la pause-café, donc le public était vide. J'ai expliqué comment fonctionne le modèle de recherche d'emprunt multilingue et certains détails de mise en œuvre. À la fin du rapport, ils ont demandé si ce système fonctionnait déjà dans la pratique et ont été surpris de recevoir une réponse affirmative. Le prochain atelier, Truth Discovery et Fact Checking , avait déjà un public complet. Après le discours, plusieurs questions ont été posées. Par exemple, l'un des auditeurs a demandé s'il existait des exemples spécifiques de tels emprunts. Ma réponse selon laquelle, malheureusement, cette pratique est assez populaire parmi les étudiants des établissements supérieurs de Russie et des pays de la CEI, l'a plongé dans un léger malentendu. En général, le rapport a été reçu avec intérêt, le public était clairement intéressé à utiliser des projets multilingues pour résoudre des problèmes pratiques dans le domaine de l'éducation.
La gamme de sujets, même à l'intérieur d'un atelier, est très large. Par exemple, un étudiant de l'Université de Californie à Berkeley a parlé devant moi et a parlé d'un système qui aide les étudiants américains à choisir des cours alternatifs. Étant donné le cours complet des matières suivies par un étudiant particulier, le système lui propose de nouveaux cours qui sont les plus susceptibles d'intéresser cet étudiant. Une base de données d'étudiants de l'Université de Californie au cours des 10 dernières années a été prise comme données de formation. Et ce sont des informations sur près de 165 000 étudiants pendant la formation! Un autre rapport a été consacré au système de répartition automatique des bourses entre étudiants. Dans les universités américaines, la question des bourses est souvent beaucoup plus compliquée qu'en Russie et nécessite l'analyse d'une grande quantité d'informations sur l'étudiant. En conséquence, la décision de la commission des bourses est prise depuis très longtemps. Il serait très pratique d'avoir un système qui analyse et distribue les bourses. Après avoir erré dans le reste des ateliers le reste du temps, je suis rentré chez moi avec un sentiment d'accomplissement.
Le lendemain, la conférence principale a commencé. Dans le même temps, une session a été organisée au cours de laquelle les sponsors de l'entreprise ont discuté de leurs derniers développements dans le mode de communication. C'était assez intéressant de faire le tour, de regarder en direct le Titan RTX de Nvidia, d'écouter les réalisations de Facebook Research dans le domaine de la reconnaissance d'image et de découvrir de nombreux autres géants de l'industrie, dont certains dont je n'avais jamais entendu parler auparavant.

Le quatrième jour a également consisté principalement en rapports. L'un, par exemple, a été consacré au problème de l'interprétabilité des modèles d'apprentissage automatique. Plus précisément, son absence dans de nombreux cas. Les modèles modernes résolvent assez précisément les problèmes dans différents domaines de la connaissance, comme on dit, "prêts à l'emploi". Cependant, dans de nombreux cas, il est nécessaire de comprendre pourquoi le modèle a pris telle ou telle décision. Dans ces cas, l'interprétabilité est importante. Une méthode assez populaire est l'approximation locale des modèles, qui permet de considérer le comportement du modèle avec un exemple spécifique et avec un certain degré de précision pour comprendre ce qui a influencé la décision. La présentation était juste consacrée à des méthodes similaires et à leurs améliorations.
Au fond du globe
Les montagnes ne sont pas là seulement là où il y a une baie. Vous ne pouvez donc pas simplement vous échapper de cette ville.
A la fin de la journée, un banquet dédié au 25e anniversaire de KDD attendait tout le monde. Une fois de plus, j'étais convaincu qu'il s'agissait d'une conférence à grande échelle, mais organiser un banquet pour tous les participants en même temps dans une même salle était, bien sûr, une décision controversée.

Le lendemain était le dernier, et cela s'est fait sentir: le nombre d'auditeurs a fortement diminué (peut-être que cela a été facilité par le bar du banquet, mais ce n'est pas certain). Oui, et les rapports ont été principalement examinés. De nombreuses conférences ont mis en évidence les problèmes et tâches actuels qui doivent être traités. Traitement des données, croissance à une vitesse incroyable, cybersécurité, tâches médicales - en un mot, la conférence, bien que hautement spécialisée, ne peut être affirmée avec certitude sur l'éventail des sujets abordés. Mais, encore une fois, tout le plaisir se termine tôt ou tard, et il était temps pour moi de rentrer chez moi.
Avant de partir, j'ai décidé de faire une pause et d'explorer les environs. Lorsque vous conduisez depuis l'aéroport d'Anchorage, un chauffeur de taxi amical a recommandé de monter le mont Flattop - une attraction locale avec une "vue fantastique". À en juger par le nombre de personnes qui se sont rencontrées sur le chemin du sommet, c'est vraiment une légende locale, même si je ne dirais pas que la montée est assez simple - en cours de route, vous devez surmonter un rocher escarpé avec un tas de pierres en ruine. Mais l'effort en valait la peine - la vue du haut est vraiment à couper le souffle!

Le voyage de retour ne différait en rien de spécial. Se promener dans Los Angeles n'était plus prévu, j'ai donc passé une partie du temps de transfert allongé sur une plage déserte de Californie (personne n'y ira à 8 heures du matin). Une longue recherche avant le vol, encore 12 heures dans les airs, et moi enfin dans Moscou pluvieuse et froide. En général, la conférence n'a laissé que des impressions positives. Rassembler en un seul endroit des personnes d'intérêts, de nationalités et de points de vue différents vaut vraiment la peine. Et cela se fait aussi pour que chacun ait quelque chose à écouter ou à dire, et tout se passe dans une atmosphère propice à cela. Je pense que cela valait la peine de voler vers presque le côté opposé de la planète.