Transformatoren und Hass in Vancouver: Wie Anti-Plagiat das NeurIPS-2019 beherrscht

Ende letzten Jahres war die kanadische Stadt Vancouver Gastgeber der NeurIPS-2019- Konferenz. Bei einer Suche in Habr wurden sieben Referenzen gefunden, von denen es keinen einzigen Bericht oder eine Rezension gibt - eine merkwürdige Lücke, gemessen an der Höhe und dem Umfang des Ereignisses im Jahr 2019. Wir von Antiplagiarism haben beschlossen, diese Lücke mit einer Geschichte über die Eindrücke zweier Nypsum-Neophyten in der Welt der Haute- Couture- Daten zu füllen.




Die Nacht, Domodedovo, Check-in und dann ein sehr kurzer Steg in Frankfurt, an dem bereits absehbar ist, dass es bei der Konferenz keine Gedränge geben wird. Eilige Menschen in Gläsern und Firmenpullis überschwemmten die Transitzone, und die Landelinie selbst sah bereits aus wie eine gute (sorry, nicht existierende) russische Konferenz. Als nächstes erwartete uns ein zehnstündiger Flug, der sich in einen Hackathon verwandelte: In der Kabine flackerten hier und da schwarze Bildschirme mit einem Terminal oder einer dunklen Ide-Hülle. Am Himmel über Grönland wurde offenbar mehr Code geschrieben als jemals zuvor.


Der Zeitunterschied beträgt 11 Stunden, so dass wir uns bei unserer Ankunft sofort der brutalen Realität des Jetlag gestellt haben. Nachdem wir uns nicht weit vom Veranstaltungsort entfernt hatten (Vancouver Convention Center, bestehend aus zwei Gebäuden mit einer Gesamtfläche von 43.340 m², die für eine Sekunde fast sechs Fußballfelder umfasst) und kaum wie erwartet am Abend auf die Ortszeit gewartet hatten, schliefen wir ein.


Der erste Tag, an dem wir für Geduld voll bezahlt wurden.


8. Dezember, der erste Tag der Konferenz. Die Organisatoren vermerkten in einem am Vortag versandten Brief, dass sie sterben mussten, kamen aber erst am ersten Tag zur Registrierung. Kam um die vereinbarte 9 Uhr morgens an und stieß sofort auf eine Warteschlange, die im ersten Stock beginnt und zum zweiten geht, faltet, kräuselt und faltet sich wieder und geht um die Ecke. Es dehnt sich aus und biegt wieder um die Ecke, wo wir nach ein paar Stunden Wartezeit (die Warteschlange für das Anacondaz-Konzert in Moskau ist übrigens in nur einer Stunde erledigt) die begehrten Abzeichen und coolen Tassen bekommen.



Kommen Sie früh, sagten sie ... (jeder, der am nächsten Tag eincheckte, tat es ohne großen Aufwand)


Wir winken mit den Abzeichen vor einer aktiv wachsenden Linie und gehen zum nächsten Gebäude, in dem heute der Expo Day geplant ist: Stände und Seminare großer Sponsorenfirmen. Die Seminarräume sind leer, die Referenten bemühen sich, die Aufmerksamkeit des übrigen Publikums auf sich zu ziehen, und um diese Zeit ist in der Halle mit Firmenständen viel los. Hier werden Kaffee und Süßigkeiten serviert, und die führenden Unternehmen der Branche (Facebook, IBM, Google, Apple usw.) berichten auf intelligente Weise über sich selbst, melden Leute auf ihren Karriereseiten an und verteilen großzügig Hüte, Adapter, Socken und Einladungen zu Firmenfeiern. Einige scheinen bereits zu interviewen.



Händler Tasche von Sponsoren (die Tasche selbst ist auch Merch)



Blick auf das East Center Gebäude und die Bucht


Am zweiten Tag schien alles verloren zu sein.


Am nächsten Tag flammte die Action auf. Oleg_Bakhteev und ich rannten freudig los , um fortgeschrittene Wissenschaft zu absorbieren. Wir haben die exzellente Leistung von Kyunghyun Cho über das Imitation Learning-Paradigma gehört, das die Vorteile von RL und klassischem Supervised Learning kombiniert. Es war zwar alles vorbei, für den Rest des Tages wurden die bereits traditionellen Seminare in Schwarz in KI , Frauen in maschinellem Lernen , LatinX in KI , Queer in KI und Neu in maschinellem Lernen abgehalten . Diese Seminare waren mit einem von drei möglichen Treffern durchsetzt , aus denen wir uns für eine effiziente Verarbeitung von tiefen neuronalen Netzen entschieden haben: von Algorithmen zu Hardwarearchitekturen , maschinelles Lernen für Computational Biology and Health und interpretierbarer Vergleich von Verteilungen und Modellen . Die offensichtlichen Engpässe und Kompromisse, die beim Streben nach Effizienz aufgetreten sind, wurden mit Inspiration und Detail beschrieben. Der Tag endete für uns mit einer Reihe von Berichten über Reinforcement Learning: Past, Present und Future Perspectives, bei denen auf der großen Leinwand fast alle zwei Stunden kreisen, verschiedene Computersimulationen kleiner Männer von Stöcken fallen und steigen. Es hat Spaß gemacht. So sehr, dass ich nicht zu einer philosophischen Präsentation eines Psychologen aus Berkeley mit dem Titel How to Know mit einer floriden Ansage gehen wollte.


Der dritte Tag, an dem unsere Gedanken voller Hoffnung waren.


Als wir schon verzweifelt waren, um zumindest einige bahnbrechende Neuigkeiten über maschinelles Lernen aus dem Mund der Redner zu hören, schlugen sachkundige Leute vor, dass bei der Postersession alles cool und die Gegenwart passiert. Großartig, sie fängt erst heute an. Hören wir uns die Höhepunkte an. Höhepunkte - hier versammelt sich jeder, setzt sich und hört sich die fünfminütigen Berichte der Autoren der besten Werke an, die auf der Postersession zu sehen sein werden. Die Leute versuchen verzweifelt, die Präsentation zu fotografieren und sind sehr verärgert, als der Moderator die kostbaren Folien wechselt. All dies scheint notwendig zu sein, um nicht zwischen drei- oder vierhundert Plakaten ohne Ziel hin- und herzuwandern, sondern wirklich interessant hervorzuheben. Nach einer Stunde voller Höhepunkte machten wir uns auf den Weg, um die Poster mit der Zuversicht anzusehen, dass es wirklich viele interessante Dinge geben wird. Die Postersession findet in zwei vereinten Ausstellungsräumen statt, auf deren Weg sich die Linie erstreckt. Sobald wir drinnen sind, suchen wir nach verwandten Themen und Lieblingsmaterial aus den Highlights. Alles ist sehr gut, aber um mit dem Autor zu sprechen, muss man in der Schlange stehen oder versehentlich mitten in der Geschichte auf den Anfang warten. Müdigkeit aus der durchgehenden Warteschlange und der Versuch, das Plakat durch den Kopf zu erkennen, rollt schnell genug. Stärke gibt nur kräftiges Herumschnüffeln ohne Kappe Schmidhuber . Infolgedessen ist es uns gelungen, ungefähr zehn interessante Werke zu finden und genau anzuhören. Schöner Fang im Vergleich zu früheren Tagen.


Der vierte Tag und die folgenden Tage, als es endlich losging.


Am nächsten Tag geben uns wieder sachkundige Personen einen wertvollen Hinweis: Es ist nicht notwendig und sogar kontraindiziert, die Höhepunkte anzuhören, da Sie zu den Postern laufen müssen, während sie nur hängen - es gibt fast keine Leute und die Autoren sind bereits bereit, Fragen zu beantworten. Also taten sie es. Die Taktik funktionierte - sie sprachen viel und produktiv mit Kollegen und sahen sich eine Vielzahl interessanter Arbeiten an. Wir sind in Zukunft dem gleichen Plan gefolgt und haben manchmal versucht, die Reden der Redner zu probieren, sind uns aber immer einig, dass wir ihnen keine Pause vom Besuch der Plakate einräumen sollten. Die thematischen Workshops in den letzten beiden Tagen der Konferenz waren ebenfalls von der Fülle und Relevanz der Informationen angetan. Die Werke, aufgeschlüsselt nach engen Themen, wurden an die Wände eines kleinen Publikums gestellt, es gab Reden und lebhafte Diskussionen.



Document Intelligence Workshop


Wir sind nicht nur so zu NeurIPS 2019 gekommen, sondern auch als Teilnehmer des Document Intelligence-Workshops, der sich der intellektuellen Verarbeitung von Dokumenten widmet. Der überwiegende Teil der Aufgaben des Workshops betraf die optische Erkennung von Texten und die Unterdrückung von Artefakten in gescannten Dokumenten, die Auswahl von Einheiten aus Kaufbelegen oder Verträgen. Oleg_Bakhteev und ich präsentierten unsere Arbeit zur Suche nach der sprachübergreifenden Entlehnung von CrossLang: dem System zur Erkennung von sprachübergreifenden Plagiaten , das im Hub populär gelesen werden kann Hier gehen wir näher auf die allgemeinen Eindrücke der Konferenz ein und machen einen kleinen Auszug aus den Werkstattartikeln. Ein kurzes und naheliegendes Ergebnis - das vergangene Jahr ist für unsere Region zum BERT'a-Jahr geworden. Der Inhalt aller Workshop-Artikel steht (fast) in einer Zeile darunter:


  1. CrossLang: Das System zur Erkennung von Plagiaten in mehreren Sprachen. In unserem Artikel geht es um das System zur Erkennung übertragbarer Kredite. Das Problem des Auffindens entliehener Fragmente von Eingabetexten in russischer Sprache in einer Sammlung in englischer Sprache wird berücksichtigt. Wir haben ein paar Übersetzer + ausgebildete, halbüberwachte Encoder-Decoder verwendet, um übersetzte Sätze zu vergleichen. Das resultierende System funktioniert erfolgreich im Produkt und bedient eine große Anzahl von Universitäten.
  2. Repurposing Decoder-Transformer-Sprachmodelle für die abstrakte Zusammenfassung. Das Problem der Abstraktionsverdichtung wird betrachtet. Es wird gezeigt, dass Sie mit einem vorgefertigten Transformator-Decoder gute Ergebnisse erzielen können, wenn Sie die Aufgabe als Sprachmodellierung betrachten. Ohne Strahlensuche und andere Decoderoptimierungen, sondern nur gierig decodieren.
  3. Vom Schlaganfall zu endlichen Automaten: Ein Ansatz zur Offline-Erkennung. Es gibt ein elektronisches System für das Unterrichten von Studenten der Informatik. Um Zustandsautomaten zu untersuchen, wird ein Erkennungssystem für handgezeichnete Diagramme erstellt. Der Datensatz für die Aufgabe wird angezeigt.
  4. Post-OCR-Parsing: Erstellen eines einfachen und robusten Parsers über BIO-Tagging. Informationen von Schecks in Gruppen aufteilen. Jedes Token wird mithilfe der BERT-Einbettung in Start-Inside-Out (BIO) klassifiziert. Hierfür haben wir einen eigenen Datensatz erstellt.
  5. BERTgrid: Kontextualisiertes Einbetten für die Darstellung und das Verständnis von 2D-Dokumenten. Ich möchte das vollständige Bild der Seite und des Textes verwenden. BERT für Text, CNN für Bilder, erhalten wir kontextbezogene Darstellungen von Elementen auf der Seite für nachfolgende Aufgaben, wie z. B. Klassifizierungen. Es wird auch bei Schecks verwendet.
  6. Chargrid-OCR: End-to-End trainierbare optische Zeichenerkennung durch semantische Segmentierung und Objekterkennung. Die OCR-Aufgabe wird als Objekt-Segmentierungsaufgabe für sehr dicht liegende Objekte betrachtet. Es erfolgt keine spezielle Vorverarbeitung, reine Pixel sind gegeben. Verglichen mit Tesseract und CNN-RNN.
  7. SVDocNet: Räumlich variantes U-Net zum Entgraten von Blinddokumenten. Machen Sie Bildscans mit U-Net klar.
  8. Semantische Strukturextraktion für Tabellenkalkulationen mit einer Multitasking-Lernarchitektur. Multitasking-Framework für die Arbeit mit Tabellen: Sowohl die Zellinnensemantik (BERT) als auch der Zelltyp (CNN) werden berücksichtigt.
  9. Dokumentenverbesserungssystem mit Auto-Encodern. Reinigen gescannter Dokumente von Erosion, Artefakten und Wasserzeichen. Sie nahmen die fertige Architektur des Residual Encoder-Decoder-Netzwerks. Der Datensatz besteht aus sauberen und relevanten lauten Dokumenten. Rekonstruktionsfehler werden minimiert.
  10. CORD: Ein konsolidierter Belegdatensatz für das Post-OCR-Parsing. Wir haben einen Datensatz mit Markierungsprüfungen für Zonen und deren Werte erstellt.
  11. Bei Erkennung von kyrillischem Text. Wir haben einen Datensatz zur Erkennung handgeschriebener kyrillischer Sprachen erstellt.
  12. Repräsentationslernen in Geologie und GilBERT. Suche nach ähnlichen Begriffen in geologischen Dokumenten mit BERT.
  13. Extraktion neuronaler Vertragselemente überarbeitet. Entitäten aus Verträgen extrahieren: Parteien, Daten, Geld usw. Betrachten Sie die Aufgabe als Sequenzkennzeichnung. Versuchte BiLSTM, Dilated-CNN, Transformator, BERT. BiLSTM funktionierte am besten mit CRF an der Spitze. Als Eingaben verwendet domänenspezifische w2v.
  14. Doc2Dial: Ein auf Geschäftsdokumenten basierendes Framework für die Erstellung von Dialogen. Ein Dialogagent, der auf eine Benutzeranforderung basierend auf einem Array von Dokumenten reagiert.
  15. On Domain Transfer für beabsichtigte Vorhersage im Text. Ein Artikel über die Situation, in der öffentliche Datensätze (E-Mails) vorhanden sind, die wir jedoch für geschlossene Datensätze (echte Benutzerbriefe) verwenden möchten. Sie können aus einer anderen Distribution stammen und die Grundvoraussetzungen von ML aufteilen. Verschiedene Techniken zum Erkennen von Verteilungsunterschieden werden vorgestellt.
  16. Auf dem Weg zu Evaluatoren neuronaler Ähnlichkeit. Das Summationsproblem und seine Qualitätsmetrik werden berücksichtigt. Es gibt viele Probleme mit BLEU und ROUGE, daher haben wir die RoBERTa-Architektur übernommen und sie in der Satzähnlichkeitsaufgabe abgeschlossen. Qualitätsmetrik - ein Vergleich der resultierenden Vektordarstellungen.

Am Ende, wie erwartet, Schlussfolgerungen. Während der ersten zwei oder drei Tage erwärmt sich die Konferenz. Wenn Sie also auf Wissenschaftsreise sind, können Sie diese ruhig auslassen oder Vancouver und seine Umgebung beobachten, um sich vom Jetlag zu erholen. Wenn Sie einen Job in einer Industrie oder Akademie bekommen (und Merch), dann haben Sie bei Expo die Chance, einen Job in einem großen (und nicht so großen) Unternehmen zu finden. Nun, alle Stars der Akademie, Laborleiter, sind auch auf der Konferenz, also gibt es die Möglichkeit, sich zu treffen und zu plaudern.


So stellte sich für uns NeurIPS 2019 heraus :) Wir hoffen, dass der Artikel für die habrovoy ML-Community interessant und nützlich war.

Source: https://habr.com/ru/post/de485164/


All Articles