Transformadores e ódio em Vancouver: como o anti-plágio monta o NeurIPS-2019

No final do ano passado, a cidade canadense de Vancouver sediou a conferência NeurIPS-2019 . Uma pesquisa em Habr fornece sete referências, entre as quais não há um único relatório ou revisão - uma lacuna estranha, dado o nível e a escala do evento em 2019. Nós do Antiplagiarism decidimos preencher essa lacuna com uma história sobre as impressões de dois neófitos de Nypsum no mundo da ciência de dados de alta costura .




A noite, Domodedovo, fez o check-in e, em seguida, um cais muito curto em Frankfurt, no qual já está claro que não haverá aglomeração na conferência. Pessoas apressadas de óculos e moletons corporativos estavam inundando a zona de trânsito, e a própria linha de aterrissagem já parecia uma boa (e desculpe, inexistente) conferência russa. Então, um vôo de dez horas nos aguardou, que se transformou em um hackathon: na cabine, aqui e ali, telas pretas tremeluziam com o terminal ou escudo ide escuro. Parece que no céu acima da Groenlândia, mais código foi escrito do que nunca em sua superfície.


A diferença de fuso horário é de 11 horas; assim que chegamos, imediatamente enfrentamos a realidade brutal do jetlag. Tendo localizado não muito longe do local (Vancouver Convention Center, que consiste em dois edifícios com uma área total de 43.340 m²), que, por um segundo, possui quase seis campos de futebol) e mal tendo esperado, como esperado, à noite, horário local, adormecemos.


O primeiro dia, quando fomos pagos integralmente por paciência.


8 de dezembro, o primeiro dia da conferência. Os organizadores notaram em uma carta enviada no dia anterior que eles tinham que morrer, mas chegaram ao registro estritamente no primeiro dia. Chegou às 9 horas da manhã e imediatamente tropeçou em uma fila que começa no primeiro andar e vai para o segundo, dobra, enrola e dobra novamente, dobrando a esquina. Ele se estende e vira a esquina novamente, onde, após algumas horas de espera (a fila para o show do Anacondaz em Moscou, a propósito, resolvido em apenas 1 hora), obtemos os distintivos cobiçados e as canecas legais.



Chegaram cedo, eles disseram ... (todos que fizeram o check-in no dia seguinte fizeram isso sem muito esforço)


Agitando crachás na frente de uma linha que cresce ativamente, vamos para o próximo prédio, onde o Dia da Expo está planejado para hoje: estandes e seminários de grandes empresas patrocinadoras. As salas de seminários estão vazias, os palestrantes estão tentando chamar a atenção do resto da platéia e, neste momento, no salão com estandes da empresa, está cheio de pessoas. Café e doces são servidos aqui, e as principais empresas do setor (Facebook, IBM, Google, Apple, etc.) falam com inteligência sobre si mesmas, registram pessoas em seus sites de carreira e distribuem generosamente chapéus, adaptadores, meias e convites para festas corporativas. Alguns parecem já estar entrevistando.



Bolsa de comerciantes de patrocinadores (a bolsa em si também é merch)



Vista do prédio do East Center e da baía


O segundo dia, quando tudo parecia estar perdido.


No dia seguinte, a ação explodiu. Oleg_Bakhteev e eu corremos alegremente para absorver a ciência avançada. Ouvimos o excelente desempenho de Kyunghyun Cho sobre o paradigma da Imitação da Aprendizagem, combinando as vantagens da RL e da Aprendizagem Supervisionada clássica. É verdade que, durante o resto do dia, os seminários que já haviam se tornado tradicionais foram realizados em Preto na IA , Mulheres no Machine Learning , LatinX na IA , LatinX na AI , Queer na AI e Novo no Machine Learning. Esses seminários foram intercalados com uma das três partidas a serem escolhidas: onde, desde o Processamento Eficiente da Rede Neural Profunda: de algoritmos a arquiteturas de hardware , aprendizado de máquina para biologia computacional e saúde e comparação interpretável de distribuições e modelos, escolhemos dipllerning e ... perdidos. Os gargalos e trocas óbvios que surgiram na busca da eficiência foram descritos com inspiração e detalhes. O dia terminou com uma série de relatórios da Reinforcement Learning: Perspectivas Passadas, Presentes e Futuras, onde na tela grande quase todas as duas horas circulavam, caíam e surgiam várias simulações de computador de homenzinhos de pau. Foi divertido. Tanto que eu não quis ir a uma apresentação filosófica de um psicólogo de Berkeley intitulada Como saber com um anúncio florido.


O terceiro dia, quando nossas mentes estavam cheias de esperança.


Quando já estávamos desesperados para ouvir pelo menos algumas notícias inovadoras de aprendizado de máquina pela boca dos palestrantes, pessoas bem informadas sugeriram que tudo de bom e o presente acontecessem na sessão de pôsteres. Ótimo, ela está apenas começando hoje. Vamos ouvir os destaques. Destaques - é quando todos se reúnem, sentam e ouvem os relatórios de cinco minutos dos autores das melhores obras que estarão na sessão de pôsteres. As pessoas estão tentando desesperadamente fotografar a apresentação e ficam muito chateadas quando o apresentador troca os preciosos slides. Parece que tudo isso é necessário para não vagar entre trezentos e quatrocentos pôsteres sem objetivo, mas para destacar realmente interessante. Após uma hora de destaques, partimos para assistir aos pôsteres com a confiança de que realmente haverá muitas coisas interessantes. A sessão de pôsteres está localizada em dois espaços de exibição unidos, no caminho para o qual a linha se estendeu. Uma vez lá dentro, nos dispersamos para procurar tópicos relacionados e material favorito dos destaques. Tudo está muito bom, mas para conversar com o autor, você precisa ficar na fila ou, acidentalmente, pegar o meio da história, esperar o começo. O cansaço da fila contínua e as tentativas de distinguir o pôster pela cabeça rolam com rapidez suficiente. Força dá apenas vigorosamente bisbilhotando sem um boné Schmidhuber . Como resultado, conseguimos encontrar e ouvir atentamente cerca de dez obras interessantes. Boa captura em comparação com os dias anteriores.


No quarto dia e nos dias seguintes, quando finalmente começou.


No dia seguinte, pessoas conhecedoras novamente nos dão uma dica valiosa: não é necessário e nem é contra-indicado ouvir os destaques, porque você precisa correr para os pôsteres enquanto eles estão pendurados - quase não há pessoas e os autores já estão dispostos a responder perguntas. Então eles fizeram. As táticas funcionaram - eles conversaram muito com os colegas e de maneira produtiva, assistiram a um grande número de trabalhos interessantes. Seguimos o mesmo plano no futuro, às vezes tentando provar os discursos dos palestrantes, mas sempre concordamos que não devemos levá-los para uma pausa de ir aos pôsteres. As oficinas temáticas nos últimos dois dias da conferência também ficaram satisfeitas com a riqueza e a relevância das informações. Os trabalhos, divididos em tópicos estreitos, foram colocados nas paredes de uma pequena audiência, houve discursos e discussões animadas.



Workshop de Inteligência de Documentos


Chegamos ao NeurIPS 2019 não apenas assim, mas como participantes do workshop de Inteligência de Documentos, dedicado ao processamento intelectual de documentos. A grande maioria das tarefas do workshop estava relacionada ao reconhecimento óptico de textos e à supressão de artefatos em documentos digitalizados, à alocação de entidades a partir de recibos ou contratos de vendas. Oleg_Bakhteev e eu apresentamos nosso trabalho sobre a busca de empréstimos entre idiomas CrossLang: o sistema de detecção de plágio lingüístico , que pode ser lido popularmente no hub Aqui nos debruçamos com mais detalhes, discorremos das impressões gerais da conferência e fazemos uma pequena digestão dos artigos da oficina. Um resultado curto e óbvio - o ano passado se tornou um ano da BERT para a nossa região. O conteúdo de todos os artigos do workshop está (quase) em uma linha abaixo:


  1. CrossLang: o sistema de detecção de plágio lingüístico. Nosso artigo é sobre o sistema de detecção de empréstimos transferíveis. O problema de encontrar fragmentos emprestados do texto de entrada em russo em uma coleção em inglês é considerado. Usamos um monte de tradutor + codificador-decodificador semi-supervisionado treinado para comparar sentenças traduzidas. O sistema resultante funciona com sucesso no produto, atendendo a um grande número de universidades.
  2. Reaproveitando Modelos de Linguagem Decodificador-Transformador para Resumo Resumido. O problema da sumarização da abstração é considerado. É mostrado que, usando um decodificador de transformador pré-treinado, você pode obter bons resultados, considerando a tarefa como modelagem de linguagem. Sem busca por feixe e outras otimizações de decodificador, mas apenas decodificando com avidez.
  3. Do curso ao autômato finito: uma abordagem de reconhecimento offline. Existe um sistema eletrônico para ensinar aos alunos Ciência da Computação. Para estudar máquinas de estados finitos, é feito um sistema de reconhecimento para diagramas desenhados à mão. O conjunto de dados para a tarefa é apresentado.
  4. Análise pós-OCR: construindo um analisador simples e robusto via marcação BIO. Dividindo informações de verificações em grupos. Cada token é classificado em Start-Inside-Out (BIO) usando a incorporação do BERT. Criamos nosso próprio conjunto de dados para isso.
  5. BERTgrid: incorporação contextualizada para representação e compreensão de documentos 2D. Quero usar a imagem completa da página e o texto. BERT para texto, CNN para imagens, obtemos representações contextuais de elementos na página para tarefas subseqüentes, como classificações. Também é usado em cheques.
  6. Chargrid-OCR: Reconhecimento óptico de caracteres treinável de ponta a ponta através de segmentação semântica e detecção de objetos. A tarefa de OCR é considerada como uma tarefa de segmentação de objetos para objetos muito próximos. Não há pré-processamento especial, pixels puros são fornecidos. Comparado com Tesseract e CNN-RNN.
  7. SVDocNet: U-Net com variação espacial para desfiguração de documentos cegos. Torne as digitalizações de imagem nítidas com o U-Net.
  8. Extração de estrutura semântica para tabelas de planilha com uma arquitetura de aprendizado multitarefa. Estrutura multitarefa para trabalhar com tabelas: a semântica do interior da célula (BERT) e o tipo de célula (CNN) são levados em consideração.
  9. Sistema de aprimoramento de documentos usando codificadores automáticos. Limpeza de documentos digitalizados contra erosão, artefatos e marcas d'água. Eles adotaram a arquitetura finalizada da rede Residual Encoder-Decoder. O conjunto de dados consiste em documentos limpos e relevantes com ruído. O erro de reconstrução é minimizado.
  10. CORD: Um conjunto de dados de recebimento consolidado para análise pós-OCR. Criamos um conjunto de dados marcando verificações de zonas e seus valores.
  11. No reconhecimento de texto cirílico. Criamos um conjunto de dados para reconhecer idiomas cirílicos manuscritos.
  12. Aprendizado de Representação em Geologia e GilBERT. Pesquise termos semelhantes em documentos geológicos usando o BERT.
  13. Extração de elemento de contrato neural revisitada. Extrair entidades de contratos: partes, datas, dinheiro etc. Considere a tarefa como uma rotulagem de sequência. Tentei BiLSTM, cnc dilatado, transformador, BERT. O BiLSTM funcionou melhor com a CRF no topo. Como entradas usadas w2v específicas do domínio.
  14. Doc2Dial: uma estrutura para composição de diálogo fundamentada em documentos comerciais. Um agente de diálogo que responde a uma solicitação do usuário com base em uma matriz de documentos.
  15. Na transferência de domínio para previsão de intenção em texto. Um artigo sobre a situação em que existem conjuntos de dados públicos (e-mails), mas queremos usá-los em conjuntos de dados fechados (cartas reais do usuário). Eles podem vir de uma distribuição diferente e quebrar as premissas básicas da ML. Várias técnicas para detectar diferenças de distribuição são introduzidas.
  16. Para avaliadores de similaridade neural. O problema da soma e sua métrica de qualidade são considerados. Existem muitos problemas com o BLEU e o ROUGE, por isso pegamos a arquitetura RoBERTa e a concluímos na Tarefa de Similaridade de Frases. Métrica de qualidade - uma comparação das representações vetoriais resultantes.

No final, como esperado, conclusões. Nos primeiros dois ou três dias, a conferência se aquece; portanto, se você for para a ciência, poderá ignorá-los com segurança ou assistir a Vancouver e a área circundante, recuperando-se do jet lag. Se você vai conseguir um emprego em uma indústria ou academia (e conseguir uma mercadoria), na Expo você tem a chance de encontrar um emprego em uma grande (e não tão) empresa. Bem, todas as estrelas da academia, líderes de laboratório também estão na conferência, então há uma chance de conhecer e conversar.


Portanto, o NeurIPS 2019 ficou para nós :) Esperamos que o artigo seja interessante e útil para a comunidade habrovoy ML.

Source: https://habr.com/ru/post/pt485164/


All Articles