Transformadores y odio en Vancouver: cómo el antiplagio recorre el NeurIPS-2019

A finales del año pasado, la ciudad canadiense de Vancouver organizó la conferencia NeurIPS-2019 . Una búsqueda en Habr ofrece siete referencias, entre las cuales no hay un solo informe o revisión, una brecha extraña, dado el nivel y la escala del evento en 2019. Nosotros en Antiplagiarism decidimos llenar este vacío con una historia sobre las impresiones de dos neófitos de Nypsum en el mundo de la ciencia de datos de alta costura .




La noche, Domodedovo, check-in, y luego un muelle muy corto en Frankfurt, en el que ya está claro que no habrá aglomeraciones en la conferencia. Personas apresuradas con gafas y sudaderas con capucha corporativas estaban inundando la zona de tránsito, y la línea de aterrizaje ya parecía una buena conferencia rusa (perdón, inexistente). A continuación, nos esperaba un vuelo de diez horas, que se convirtió en un hackatón: en la cabina, aquí y allá, pantallas negras parpadeaban con una terminal o un caparazón oscuro. Parece que en el cielo sobre Groenlandia se ha escrito más código que nunca en su superficie.


La diferencia horaria es de 11 horas, así que al llegar, nos enfrentamos de inmediato a la brutal realidad del desfase horario. Habiendo ubicado no lejos del lugar (Centro de Convenciones de Vancouver, que consta de dos edificios con un área total de 43.340 metros cuadrados, que, por un segundo, tiene casi seis campos de fútbol) y apenas esperamos, como era de esperar, en la noche, hora local, nos quedamos dormidos.


El primer día, cuando nos pagaron por la paciencia.


8 de diciembre, primer día de la conferencia. Los organizadores señalaron en una carta enviada el día anterior que tenían que morir, pero se registraron estrictamente el primer día. Llegué a las 9 am acordadas e inmediatamente tropecé con una cola que comienza en el primer piso y va al segundo, se pliega, se enrolla y se pliega nuevamente, dando la vuelta a la esquina. Se estira y vuelve a doblar la esquina, donde después de un par de horas de espera (la cola para el concierto de Anacondaz en Moscú, por cierto, se resolvió en solo 1 hora) obtenemos las codiciadas insignias y tazas frescas.



Vengan temprano, dijeron ... (todos los que se registraron al día siguiente lo hicieron sin mucho esfuerzo)


Agitando insignias frente a una línea en crecimiento activo, nos dirigimos al edificio vecino, donde está previsto el Día de la Expo para hoy: stands y seminarios de grandes empresas patrocinadoras. Las salas de seminarios están vacías, los oradores están tratando de captar la atención del resto de la audiencia, y en este momento en el salón con los stands de la compañía está lleno de gente. Aquí se sirven café y dulces, y las corporaciones líderes de la industria (Facebook, IBM, Google, Apple, etc.) hablan inteligentemente sobre sí mismas, registran a las personas en sus sitios de carrera y distribuyen generosamente sombreros, adaptadores, calcetines e invitaciones a fiestas corporativas. Algunos parecen estar ya entrevistando.



Bolsa de comerciantes de patrocinadores (la bolsa en sí también es merch)



Vista del edificio East Center y la bahía


El segundo día, cuando todo parecía estar perdido.


Al día siguiente, la acción estalló. Oleg_Bakhteev y yo corrimos alegremente para absorber la ciencia avanzada. Escuchamos el excelente desempeño de Kyunghyun Cho sobre el paradigma de imitación de aprendizaje, combinando las ventajas de RL y el aprendizaje supervisado clásico. Es cierto que todo había terminado, durante el resto del día, los seminarios que ya se habían vuelto tradicionales se llevaron a cabo en Black in AI , Women in Machine Learning , LatinX in AI , Queer in AI y New in Machine Learning. Estos seminarios fueron intercalados con uno de los tres partidos para elegir, desde el procesamiento eficiente propuesto de la red neuronal profunda: desde algoritmos hasta arquitecturas de hardware , aprendizaje automático para la biología computacional y la salud y la comparación interpretable de distribuciones y modelos, elegimos la asignación de diplomas efectiva y ... perdimos. Los obvios cuellos de botella y compensaciones que han surgido en pos de la eficiencia se han descrito con inspiración y detalle. El día para nosotros terminó con una serie de informes de Aprendizaje de refuerzo: Perspectivas pasadas, presentes y futuras, donde en la pantalla grande casi todas las dos horas giraron, cayeron y se levantaron varias simulaciones por computadora de pequeños hombres con palos. Fue divertido Tanto es así que no quería ir a una presentación filosófica de un psicólogo de Berkeley titulada Cómo saber con un anuncio florido.


El tercer día, cuando nuestras mentes se llenaron de esperanza.


Cuando ya estábamos desesperados por escuchar al menos algunas noticias innovadoras sobre el aprendizaje automático de boca de los oradores, personas con conocimientos sugirieron que todo bien y el presente sucede en la sesión de pósters. Genial, acaba de comenzar hoy. Vamos a escuchar lo más destacado. Aspectos destacados: es cuando todos se reúnen, se sientan y escuchan los informes de cinco minutos de los autores de los mejores trabajos que se realizarán en la sesión de pósters. La gente está tratando desesperadamente de fotografiar la presentación y está muy molesta cuando el presentador cambia las preciosas diapositivas. Parece que todo esto es necesario para no deambular entre trescientos o cuatrocientos carteles sin un objetivo, sino para resaltar realmente interesante. Después de una hora de momentos destacados, salimos a mirar los carteles con la confianza de que realmente habrá muchas cosas interesantes. La sesión de carteles se ubica en dos espacios de exhibición unidos, en la forma en que la línea se ha extendido. Una vez dentro, nos dispersamos para buscar temas relacionados y material favorito de los aspectos más destacados. Todo está muy bien, pero para hablar con el autor, debes hacer cola o, accidentalmente, atrapar la mitad de la historia, esperar el comienzo. La fatiga de la cola continua y los intentos de distinguir el póster a través de la cabeza ruedan lo suficientemente rápido. La fuerza solo da vueltas enérgicamente sin un gorro Schmidhuber . Como resultado, logramos encontrar y escuchar con atención cerca de diez obras interesantes. Buena captura en comparación con los días anteriores.


El cuarto día y los días siguientes, cuando, finalmente, comenzó.


Al día siguiente, las personas bien informadas nuevamente nos dan una pista valiosa: no es necesario e incluso está contraindicado ir a escuchar los aspectos más destacados, porque debe correr hacia los carteles mientras están colgados; casi no hay personas y los autores ya están dispuestos a responder preguntas. Entonces lo hicieron. Las tácticas funcionaron: hablaron mucho con sus colegas y productivamente, vieron una gran cantidad de trabajos interesantes. Seguimos el mismo plan en el futuro, a veces tratando de saborear los discursos de los oradores, pero siempre estamos de acuerdo en que no debemos tomar un descanso de ir a los carteles. Los talleres temáticos en los últimos dos días de la conferencia también se complacieron con la riqueza y relevancia de la información. Las obras, desglosadas por temas estrechos, se colocaron en las paredes de una pequeña audiencia, hubo discursos y animadas discusiones.



Taller de inteligencia de documentos


Llegamos a NeurIPS 2019 no solo así, sino como participantes en el taller de Document Intelligence, que se dedica al procesamiento intelectual de documentos. La gran mayoría de las tareas del taller estaban relacionadas con el reconocimiento óptico de textos y la supresión de artefactos en documentos escaneados, la selección de entidades de recibos de ventas o contratos. Oleg_Bakhteev y yo presentamos nuestro trabajo en la búsqueda de préstamos CrossLang: el sistema de detección de plagio en varios idiomas , que se puede leer popularmente en el centro Aquí nos detenemos en más detalles, nos desviamos de las impresiones generales de la conferencia y hacemos un pequeño resumen de los artículos del taller. Un resultado breve y obvio: el año pasado se convirtió en BERT'a año para nuestra región. El contenido de todos los artículos del taller está (casi) en una línea a continuación:


  1. CrossLang: el sistema de detección de plagio translingual. Nuestro artículo trata sobre el sistema para detectar préstamos transferibles. Se considera el problema de encontrar fragmentos prestados de texto de entrada en ruso en una colección en inglés. Utilizamos un montón de traductor + codificador-decodificador semi-supervisado capacitado para comparar oraciones traducidas. El sistema resultante funciona con éxito en la producción y presta servicios a una gran cantidad de universidades.
  2. Reutilización de modelos de lenguaje decodificador-transformador para resumen abstracto. Se considera el problema del resumen de abstracción. Se muestra que usando un decodificador de transformador pre-entrenado, puede obtener buenos resultados, considerando la tarea como modelado de lenguaje. Sin búsqueda de haz y otras optimizaciones de decodificador, pero solo decodificando con avidez.
  3. De trazo a autómatas finitos: un enfoque de reconocimiento sin conexión. Hay un sistema electrónico para enseñar a los estudiantes de informática. Para estudiar máquinas de estados finitos, se hace un sistema de reconocimiento para diagramas dibujados a mano. Se presenta el conjunto de datos para la tarea.
  4. Análisis posterior al OCR: creación de un analizador simple y robusto a través del etiquetado BIO. División de información de cheques en grupos. Cada token se clasifica en Start-Inside-Out (BIO) utilizando la inserción BERT. Creamos nuestro propio conjunto de datos para esto.
  5. BERTgrid: incrustación contextualizada para la representación y comprensión de documentos 2D. Quiero usar la imagen completa de la página y el texto. BERT para texto, CNN para imágenes, obtenemos representaciones contextuales de elementos en la página para tareas posteriores, como clasificaciones. También se usa en cheques.
  6. Chargrid-OCR: reconocimiento óptico de caracteres entrenable de extremo a extremo a través de la segmentación semántica y la detección de objetos. La tarea OCR se considera como una tarea de segmentación de objetos para objetos muy recostados. No hay preprocesamiento especial, se proporcionan píxeles puros. En comparación con Tesseract y CNN-RNN.
  7. SVDocNet: U-Net espacialmente variante para el borrado de documentos a ciegas. Aclare los escaneos de imágenes con U-Net.
  8. Extracción de estructura semántica para tablas de hoja de cálculo con una arquitectura de aprendizaje de tareas múltiples. Marco multitarea para trabajar con tablas: se tienen en cuenta tanto la semántica interior de la celda (BERT) como el tipo de celda (CNN).
  9. Sistema de mejora de documentos con codificadores automáticos. Limpieza de documentos escaneados de la erosión, artefactos, marcas de agua. Tomaron la arquitectura terminada de la Red Residual Encoder-Decoder. El conjunto de datos consta de documentos limpios y relevantes y ruidosos. El error de reconstrucción se minimiza.
  10. CORD: Un conjunto de datos de recibo consolidado para el análisis posterior al OCR. Creamos un conjunto de datos con marcas de marcado para zonas y sus valores.
  11. Sobre el reconocimiento del texto cirílico. Creamos un conjunto de datos para reconocer los idiomas cirílicos escritos a mano.
  12. Representación Aprendizaje en Geología y GilBERT. Busque términos similares en documentos geológicos utilizando BERT.
  13. Extracción del elemento del contrato neuronal revisitado. Extraer entidades de los contratos: partes, fechas, dinero, etc. Considere la tarea como un etiquetado de secuencia. Probé BiLSTM, dilatado-cnn, transformador, BERT. BiLSTM funcionó mejor con CRF en la parte superior. Como entradas se usa el dominio específico de w2v.
  14. Doc2Dial: un marco para la composición del diálogo basado en documentos comerciales. Un agente de diálogo que responde a una solicitud del usuario basada en una matriz de documentos.
  15. En la transferencia de dominio para la predicción de intención en el texto. Un artículo sobre la situación cuando hay conjuntos de datos públicos (correos electrónicos), pero queremos usarlos en conjuntos de datos cerrados (cartas de usuarios reales). Pueden provenir de una distribución diferente y desglosar las premisas básicas de ML. Se introducen varias técnicas para detectar diferencias de distribución.
  16. Hacia evaluadores de similitud neuronal. Se considera el problema de la sumatoria y su métrica de calidad. Hay muchos problemas con BLEU y ROUGE, por lo que tomamos la arquitectura RoBERTa y la completamos en la Tarea de similitud de oraciones. Métrica de calidad: una comparación de las representaciones vectoriales resultantes.

Al final, como se esperaba, conclusiones. Durante los primeros dos o tres días, la conferencia se calienta, por lo que si viaja por la ciencia, puede saltearlos de manera segura o ver Vancouver y sus alrededores, recuperándose del desfase horario. Si vas a conseguir un trabajo en una industria o academia (y obtener un merchandising), entonces en Expo tienes la oportunidad de encontrar un trabajo en una empresa grande (y no tan). Bueno, todas las estrellas de la academia, los líderes de laboratorio también están en la conferencia, por lo que existe la posibilidad de reunirse y conversar.


Así que resultó para nosotros NeurIPS 2019 :) Esperamos que el artículo haya sido interesante y útil para la comunidad de habrovoy ML.

Source: https://habr.com/ru/post/485164/


All Articles