Transformers and Hate in Vancouver: How Anti-Plagiarism Rides the NeurIPS-2019

À la fin de l'année dernière, la ville canadienne de Vancouver a accueilli la conférence NeurIPS-2019 . Une recherche dans Habr donne sept références, parmi lesquelles il n'y a pas un seul rapport ou examen - une étrange lacune, étant donné le niveau et l'ampleur de l'événement en 2019. Chez Antiplagiarism, nous avons décidé de combler cette lacune avec une histoire sur les impressions de deux néophytes Nypsum dans le monde de la science des données de haute couture .




La nuit, Domodedovo, enregistrement, puis un quai très court à Francfort, où il est déjà clair qu'il n'y aura pas de monde à la conférence. Des gens pressés dans des verres et des sweats à capuche d'entreprise inondaient la zone de transit, et la ligne d'atterrissage elle-même ressemblait déjà à une bonne conférence russe (désolée, inexistante). Ensuite, un vol de dix heures nous attendait, qui s'est transformé en hackathon: dans la cabine ça et là des écrans noirs scintillaient avec un terminal ou un obus noir. Dans le ciel au-dessus du Groenland, il semble que plus de code ait été écrit que jamais à sa surface.


Le décalage horaire est de 11 heures, donc à notre arrivée, nous avons immédiatement fait face à la réalité brutale du décalage horaire. Ayant situé non loin du lieu (Vancouver Convention Centre, qui se compose de deux bâtiments d'une superficie totale de 43340 m2, qui, pendant une seconde, compte près de six terrains de football) et ayant à peine attendu, comme prévu, le soir, heure locale, nous nous sommes endormis.


Le premier jour, quand nous avons été payés en entier pour la patience.


8 décembre, premier jour de la conférence. Les organisateurs ont indiqué dans une lettre envoyée la veille qu'ils devaient mourir, mais ne se sont inscrits que le premier jour. Arrivé à 9 heures convenu, je suis immédiatement tombé sur une file d'attente qui commence au premier étage et va au deuxième, se plie, se recourbe et se replie, faisant le tour du coin. Il s'étire et tourne à nouveau au coin de la rue, où après quelques heures d'attente (la file d'attente pour le concert d'Anacondaz à Moscou, en passant, résolue en seulement 1 heure), nous obtenons les badges convoités et les tasses fraîches.



Venez tôt, ils ont dit ... (tous ceux qui se sont enregistrés le lendemain l'ont fait sans trop d'effort)


Agitant des badges devant une ligne en pleine croissance, nous nous rendons dans le bâtiment voisin, où est prévue aujourd'hui la journée de l'Expo: stands et séminaires de grandes entreprises mécènes. Les salles de séminaire sont vides, les orateurs tentent d'attirer l'attention du reste du public, et en ce moment dans la salle avec des stands d'entreprise est pleine de monde. Du café et des bonbons sont servis ici, et les principales sociétés de l'industrie (Facebook, IBM, Google, Apple, etc.) parlent intelligemment d'elles-mêmes, enregistrent des personnes sur leurs sites de carrière et distribuent généreusement des chapeaux, des adaptateurs, des chaussettes et des invitations à des fêtes d'entreprise. Certains semblent déjà interviewer.



Sac de marchands de sponsors (le sac lui-même est également un produit de merch)



Vue de l'édifice East Centre et de la baie


Le deuxième jour, quand tout semblait perdu.


Le lendemain, l'action a éclaté. Oleg_Bakhteev et moi avons couru avec joie pour absorber la science avancée. Nous avons écouté les excellentes performances de Kyunghyun Cho sur le paradigme de l'apprentissage par imitation, combinant les avantages du RL et de l'apprentissage supervisé classique. Certes, c'était fini, pour le reste de la journée, les séminaires qui étaient déjà devenus traditionnels se déroulaient en noir dans l'IA , Women in Machine Learning , LatinX en AI , Queer in AI et New in Machine Learning. Ces séminaires ont été entrecoupés de l'une des trois correspondances au choix, parmi lesquelles le traitement efficace proposé du réseau neuronal profond: des algorithmes aux architectures matérielles , l' apprentissage automatique pour la biologie et la santé computationnelles et la comparaison interprétable des distributions et des modèles, nous avons choisi une diplomatie efficace et ... perdu. Les goulots d'étranglement et les compromis évidents qui ont surgi dans la poursuite de l'efficacité ont été décrits avec inspiration et détails. La journée pour nous s'est terminée par une série de rapports Renforcement de l'apprentissage: perspectives passées, présentes et futures, où sur le grand écran presque toutes les deux heures ont tourné, sont tombées et ont augmenté diverses simulations informatiques de petits hommes à partir de bâtons. C'était amusant. À tel point que je n'ai pas voulu aller à une présentation philosophique d'un psychologue de Berkeley intitulée How to Know avec une annonce fleurie.


Le troisième jour, lorsque nos esprits étaient remplis d'espoir.


Alors que nous étions déjà désespérés d'entendre au moins quelques nouvelles révolutionnaires d'apprentissage automatique de la bouche des orateurs, des personnes bien informées ont suggéré que tout se passe bien et que le présent se passe lors de la session d'affiches. Génial, elle ne fait que commencer aujourd'hui. Allons écouter les moments forts. Faits saillants - c'est lorsque tout le monde se rassemble, s'assoit et écoute les rapports de cinq minutes des auteurs des meilleures œuvres qui seront à la session d'affiches. Les gens essaient désespérément de photographier la présentation et sont très contrariés lorsque le présentateur change les précieuses diapositives. Il semble que tout cela soit nécessaire pour ne pas errer entre trois ou quatre cents affiches sans but, mais pour mettre en valeur vraiment intéressant. Après une heure de moments forts, nous sommes partis regarder les affiches avec la certitude qu'il y aura vraiment beaucoup de choses intéressantes. La session d'affiches se déroule dans deux espaces d'exposition unis, sur le chemin de la ligne. Une fois à l'intérieur, nous nous dispersons pour rechercher des sujets connexes et du matériel préféré parmi les points forts. Tout est très bien, mais pour parler avec l'auteur, vous devez faire la queue ou, en attrapant accidentellement le milieu de l'histoire, attendre le début. La fatigue de la file d'attente continue et tente de distinguer l'affiche à travers les rouleaux de tête assez rapidement. La force donne seulement fouiner vigoureusement sans un chapeau Schmidhuber . En conséquence, nous avons réussi à trouver et à écouter attentivement une dizaine d'œuvres intéressantes. Belle prise par rapport aux jours précédents.


Le quatrième jour et les jours suivants, quand enfin ça a commencé.


Le lendemain, des personnes bien informées nous donnent à nouveau un indice précieux: il n'est pas nécessaire et même contre-indiqué d'aller écouter les faits saillants, car vous devez courir vers les affiches pendant qu'elles ne sont suspendues - il n'y a presque personne et les auteurs sont déjà prêts à répondre aux questions. Alors ils l'ont fait. La tactique a fonctionné - ils ont beaucoup parlé avec des collègues et, de manière productive, ont regardé un grand nombre d'œuvres intéressantes. Nous avons suivi le même plan à l'avenir, essayant parfois de goûter les discours des orateurs, mais nous convenons toujours de ne pas les prendre pour un répit d'aller aux affiches. Les ateliers thématiques des deux derniers jours de la conférence ont également apprécié la richesse et la pertinence des informations. Les œuvres, réparties sur des sujets étroits, ont été placées sur les murs d'un petit public, il y a eu des discours et des discussions animées.



Atelier sur l'intelligence documentaire


Nous sommes arrivés à NeurIPS 2019 non seulement comme ça, mais en tant que participants à l'atelier Document Intelligence, dédié au traitement intellectuel des documents. La grande majorité des tâches de l’atelier concernaient la reconnaissance optique des textes et la suppression des artefacts dans les documents numérisés, la sélection des entités à partir des reçus de vente ou des contrats. Oleg_Bakhteev et moi avons présenté nos travaux sur la recherche d'emprunts multilingues CrossLang: le système de détection de plagiat multilingue , qui peut être lu de manière populaire sur le hub Ici, nous nous attardons plus en détail, nous éloignons des impressions générales de la conférence et faisons un petit résumé des articles de l'atelier. Un résultat bref et évident - l'année écoulée est devenue une année BERT'a pour notre région. Le contenu de tous les articles de l'atelier est (presque) sur une seule ligne ci-dessous:


  1. CrossLang: le système de détection de plagiat trans-lingue. Notre article concerne le système de détection des emprunts transférables. Le problème de trouver des fragments empruntés de texte saisi en russe dans une collection en anglais est considéré. Nous avons utilisé un tas de traducteur + encodeur-décodeur semi-supervisé pour comparer les phrases traduites. Le système résultant fonctionne avec succès dans la prod, desservant un grand nombre d'universités.
  2. Réorientation des modèles de langage de décodeur-transformateur pour la synthèse abstraite. Le problème de la synthèse d'abstraction est considéré. Il est démontré qu'en utilisant un décodeur de transformateur pré-formé, vous pouvez obtenir de bons résultats, en considérant la tâche comme une modélisation de langage. Sans recherche de faisceau et autres optimisations de décodeur, mais juste décodage goulûment.
  3. De l'AVC aux automates finis: une approche de reconnaissance hors ligne. Il existe un système électronique pour enseigner l'informatique aux étudiants. Pour étudier les machines à états finis, un système de reconnaissance des diagrammes dessinés à la main est réalisé. L'ensemble de données pour la tâche est présenté.
  4. Analyse post-OCR: création d'un analyseur simple et robuste via le marquage BIO. Division des informations des chèques en groupes. Chaque jeton est classé dans Start-Inside-Out (BIO) à l'aide de l'intégration BERT. Nous avons créé notre propre ensemble de données pour cela.
  5. BERTgrid: incorporation contextualisée pour la représentation et la compréhension de documents 2D. Je souhaite utiliser l'image complète de la page et du texte. BERT pour le texte, CNN pour les images, nous obtenons des représentations contextuelles des éléments sur la page pour les tâches suivantes, telles que les classifications. Il est également utilisé sur les chèques.
  6. Chargrid-OCR: Reconnaissance optique formable de bout en bout par segmentation sémantique et détection d'objets. La tâche OCR est considérée comme une tâche de segmentation d'objet pour des objets très proches. Il n'y a pas de prétraitement spécial, des pixels purs sont donnés. Comparé à Tesseract et CNN-RNN.
  7. SVDocNet: U-Net à variantes spatiales pour l'effacement des documents aveugles. Rendez les numérisations d'images claires avec U-Net.
  8. Extraction de structure sémantique pour les tableaux de tableurs avec une architecture d'apprentissage multi-tâches. Cadre multitâche pour travailler avec des tableaux: la sémantique intérieure des cellules (BERT) et le type de cellule (CNN) sont pris en compte.
  9. Système d'amélioration de documents utilisant des encodeurs automatiques. Nettoyage des documents numérisés contre l'érosion, les artefacts, les filigranes. Ils ont repris l'architecture finale du réseau de codeurs-décodeurs résiduels. L'ensemble de données se compose de documents bruyants propres et pertinents. L'erreur de reconstruction est minimisée.
  10. CORD: ensemble de données de réception consolidé pour l'analyse post-OCR. Nous avons créé un ensemble de données avec des balises de balisage pour les zones et leurs valeurs.
  11. Sur la reconnaissance du texte cyrillique. Nous avons créé un ensemble de données pour reconnaître les langues cyrilliques manuscrites.
  12. Représentation Learning in Geology et GilBERT. Recherchez des termes similaires dans les documents géologiques à l'aide de BERT.
  13. L'extraction des éléments du contrat neuronal revisitée. Extraire les entités des contrats: parties, dates, argent, etc. Considérez la tâche comme un étiquetage de séquence. Testé BiLSTM, cnn dilaté, transformateur, BERT. BiLSTM a mieux fonctionné avec CRF sur le dessus. En tant qu'entrées utilisées w2v spécifiques au domaine.
  14. Doc2Dial: un cadre pour une composition de dialogue fondée sur des documents commerciaux. Un agent de dialogue qui répond à une demande utilisateur basée sur un tableau de documents.
  15. Sur le transfert de domaine pour la prédiction d'intention dans le texte. Un article sur la situation où il y a des jeux de données publics (courriels), mais nous voulons les utiliser sur des jeux de données fermés (vraies lettres d'utilisateurs). Ils peuvent provenir d'une distribution différente et briser les prémisses de base de ML. Diverses techniques de détection des différences de distribution sont introduites.
  16. Vers des évaluateurs de similarité neuronale. Le problème de la sommation et sa métrique de qualité sont considérés. Il y a beaucoup de problèmes avec BLEU et ROUGE, nous avons donc pris l'architecture RoBERTa et l'avons terminée dans la tâche de similarité de phrases. Métrique de qualité - une comparaison des représentations vectorielles résultantes.

Au final, comme prévu, des conclusions. Pendant les deux ou trois premiers jours, la conférence se réchauffe, donc si vous optez pour la science, vous pouvez les ignorer en toute sécurité ou regarder Vancouver et les environs, se remettre du décalage horaire. Si vous souhaitez obtenir un emploi dans une industrie ou une académie (et obtenir un marché), à Expo, vous avez la possibilité de trouver un emploi dans une grande (et pas si) entreprise. Eh bien, toutes les stars de l'académie, les chefs de laboratoire sont également à la conférence, donc il y a une chance de se rencontrer et de discuter.


Il s'est donc avéré pour nous NeurIPS 2019 :) Nous espérons que l'article était intéressant et utile pour la communauté habrovoy ML.

Source: https://habr.com/ru/post/fr485164/


All Articles