"Três em um barco, pobreza e cães", ou como o antiplagiarismo procura parafrasear

O novo ano escolar chegou. Os alunos receberam um horário de aula e começaram a pensar em violões, festas, garotas e garotas na próxima sessão. Escrever cursos, diplomas, artigos e dissertações está ao virar da esquina. E isso significa que uma análise de textos para empréstimos, relatórios de auditoria e outras dores de cabeça para estudantes e administradores está chegando. E centenas de milhares de pessoas (sem brincadeiras - calculamos!) Já têm uma pergunta lógica - como enganar o "Anti-plágio". No nosso caso, quase todos os métodos de engano estão de alguma forma relacionados com distorções do texto. Já ensinamos o Anti-Plágio a detectar texto "distorcido", traduzindo do inglês para o russo (escrevemos sobre isso no primeiro artigo do blog corporativo ). Hoje falaremos sobre como detectar a maneira mais eficaz, embora demorada, de distorcer o texto - paráfrase.




Do russo para o russo, ou a propósito


Do ponto de vista de uma pessoa comum, a paráfrase (reformulação) é uma reescrita de texto em outras palavras (geralmente com suas próprias palavras). Ao parafrasear, eles tentam preservar o significado do texto de origem o máximo possível, enquanto privam o próprio texto de uma semelhança formal com o original. Em geral, todas as paráfrases obedecem a certas regras que as pessoas usam com mais freqüência, sem nem se darem conta neste relatório (ver, por exemplo, Alberto Barrón-Cedeño ).

Vamos dar uma olhada mais de perto na conhecida história "Mumu" [como no título do artigo, também apresenta um cachorro, pessoas e um barco :-)], o que pode ser feito com o texto para que seu significado seja preservado e as frases pareçam diferentes.

1. A primeira coisa que vem à mente é substituir a maioria das palavras por sinônimos. Essa é a coisa mais simples que você pode fazer com o texto. Isso não altera o significado, mas o texto à primeira vista muda. Esse truque é usado pelos programas sinônimos. Ao mesmo tempo, eles substituem as palavras, não levando em consideração o contexto, mas simplesmente escolhendo uma palavra da lista de sinônimos; portanto, a sentença processada por um programa como esse muitas vezes parece bastante estranha. PerIphrase também se refere a esse método de paráfrase - uma designação descritiva de um objeto com base em destacar algumas de suas qualidades, atributos, características, por exemplo, "planeta azul" em vez de "Terra", "bandido de um braço" em vez de "caça-níqueis", etc.
O originalParáfrase
A senhora começou a chamá-la com uma voz afetuosa.A nobre começou a chamá-la com uma voz cortês.

2. Substituir algumas partes do discurso por outras também permite alterar a estrutura da frase. Por exemplo, muitas vezes substitua um verbo por um substantivo e vice-versa.
O originalParáfrase
Num belo dia de verão, a dama, com seus aconchegadores, caminhou pela sala de estar.A senhora andou com seus implantes em um lindo dia de verão.

3. Outra maneira simples de alterar a estrutura do texto é simplesmente dividir as frases em frases mais simples, ou vice-versa, combiná-las em frases longas.
O originalParáfrase
Gerasim ficou um pouco surpreso, mas ligou para Mumu, levantou-a do chão e entregou a Stepan.Gerasim ficou um pouco surpreso, mas depois chamou Mumu. Ele o pegou do chão e o entregou a Stepan.

4. Essencialmente e muito originalmente, a sentença é alterada por meio de uma voz passiva.
O originalParáfrase
A senhora ordenou que chamasse um curandeiro mais velho.O enxerto de ancião era chamado de amante.

Estes são apenas truques típicos. Obviamente, uma boa paráfrase é muito difícil de detectar. Às vezes, isso só é possível para especialistas com profundo conhecimento na área de assunto do texto. Mas para a tarefa que estamos resolvendo, isso não é necessário. Afinal, a reformulação profunda requer um esforço considerável e, portanto, muito tempo. Provavelmente, será mais fácil para um aluno escrever seu trabalho do que gastar um tempo parafraseando seriamente o texto de outra pessoa, que, apesar dos custos, pode ser detectado durante a verificação.

Portanto, nosso objetivo é uma paráfrase relativamente simples que possa ser realizada pela "medula espinhal", ou seja, sem as grandes despesas de esforço mental e tempo.

Em essência, parafrasear é uma "irmã" da tradução para outro idioma. As palavras mudam, mas o significado permanece. Podemos dizer que a paráfrase do texto em russo é na verdade uma tradução do russo para o russo.

É por isso que o algoritmo de detecção de paráfrase acabou sendo um "parente próximo" do algoritmo de detecção de empréstimos por transferência . Então, como é o processo de detecção de empréstimos neste caso:

1. O documento verificado no idioma russo é recebido na entrada.

2. A máquina traduz o texto em russo para o inglês.

3. Há uma procura de candidatos para fontes de empréstimos de uma coleção indexada de documentos em inglês em russo.

4. É feita uma comparação de cada candidato encontrado com a versão em inglês do documento sendo verificada e a definição dos limites dos fragmentos emprestados é determinada.

5. As bordas dos fragmentos são transferidas para a versão russa do documento que está sendo verificado. Após a conclusão do processo, um relatório de verificação é gerado.

Uma diferença importante é que os parâmetros do algoritmo são configurados em outros dados e levando em consideração as especificidades do idioma russo. Ao fazer isso, mantemos uma estratégia de ajuste com foco na precisão, sacrificando a integridade. Nossa tarefa é minimizar o número de falsos positivos, mesmo que com o custo de perder "alguns objetivos".

Ajustando a partir do "Alfaiate Alto"


A paráfrase é certamente uma maneira trabalhosa de distorcer o texto. No entanto, nem todos os métodos de reescrita são igualmente úteis tornam o texto irreconhecível. Tentando reduzir o tempo gasto, o autor usa as maneiras mais simples de modificar o texto, detectadas pelos algoritmos do sistema e não trazem nenhum resultado. Portanto, após a primeira tentativa frustrada de superestimar a originalidade, o texto começa a " ajustar ". Como funciona: várias combinações de métodos são usadas e, após cada combinação, o texto modificado é carregado no sistema para verificar o êxito da reformulação e se o usuário conseguiu obter a porcentagem estimada de originalidade. O resultado é uma cadeia de textos, cada um dos quais foi reformulado com vários graus de severidade. Recuperar essa cadeia é uma tarefa de engenharia bastante simples. Nosso estudo dessas “cadeias” revelou (ao mesmo tempo que confirma os resultados do mesmo Alberto Barrón-Cedeño ) os métodos de modificação mais frequentes e forneceu material rico para a aprendizagem de novos algoritmos.

Vamos fazer um pequeno experimento. Veja um pequeno trecho da história já mencionada de Turgenev:
Uma hora depois de todo esse alarme, a porta do armário se abriu e Gerasim apareceu. Ele estava usando um caftan festivo; ele levou Mumu em uma corda. Eroshka se afastou e o deixou passar. Gerasim foi até o portão. Os meninos e todos no quintal o observavam com os olhos, silenciosamente. Ele nem se virou; Ele vestia o chapéu apenas na rua. Gavrila enviou atrás dele o mesmo Eroshka que um observador. Eroshka viu de longe que ele entrou na taberna com o cachorro e começou a esperar sua libertação

Vamos tentar enganar o "Anti-plágio". Primeiro, vamos tentar o sinonizador automático de texto. Esses programas não diferem na qualidade especial do intelecto - eles apenas pegam as palavras e as substituem por sinônimos do dicionário, sem levar em consideração o contexto. Portanto, os textos processados ​​por esse programa geralmente parecem bastante desajeitados. Aqui está o que aconteceu após o processamento de um desses programas:
Algum tempo depois dessa inquietação, as portas dos canis se resolveram e Gerasim se apresentou. Ele estava usando um caftan solene; alguém levou Mumu em uma corda. Eroshka se afastou e o deixou seguir o caminho. Gerasim correu para o portão. Os meninos e todos os outros, sem exceção no quintal, o observavam sem dizer uma palavra. Inclusive ele não se virou: ele vestiu o cocar apenas na rua. Gavrila enviou atrás dele o mesmo Eroshka que um observador. Eroshka viu de longe que alguém havia entrado na taverna junto com o cachorro e começou a esperar sua libertação.

Observe que pelo menos uma palavra é substituída em cada frase. Uma mudança aparentemente tão pequena é suficiente para que o "Anti-Plágio comum" pare de comparar as frases reescritas com as originais.

Agora vamos tentar comparar pares de frases do texto de origem e reescritos usando nosso algoritmo. Para isso, usaremos a medida do cosseno de similaridade . Como no algoritmo de detecção de empréstimos transferíveis , cada sentença é representada como um vetor de grande dimensão. Ao medir o cosseno do ângulo entre um par desses vetores, podemos concluir como esses vetores são "semelhantes" um ao outro e, consequentemente, quão semelhantes são as sentenças às quais esses vetores correspondem.

Aqui está o que aconteceu depois de comparar as frases com nosso algoritmo:

Para maior clareza, descrevemos o valor do cosseno na forma de uma escala térmica. Ou seja, quanto mais quente for a cor entre o par de frases, maior será o valor do cosseno e mais semelhantes serão consideradas as frases desse par. Observe que os menores valores de cosseno foram recebidos por sentenças nas quais substituições por sinônimos são muito pouco adequadas ao contexto. Por exemplo, “so” e “dessa maneira” são de fato sinônimos com muita frequência, no entanto, nesse contexto, essa substituição está completamente fora de lugar.

Agora, vamos tentar o papel de sinônimos e reescrever o texto com o mesmo significado. Mas, diferentemente do programa, todas as nossas alterações são gramaticalmente consistentes e se encaixam bem no contexto. Aqui está o que temos:

E, nesse caso, o algoritmo fornece uma classificação bastante alta de similaridade para a maioria das frases. As sentenças, que receberam uma classificação baixa, foram sujeitas a uma transformação bastante profunda: nelas a estrutura gramatical foi bastante alterada. Mesmo uma pessoa não responde imediatamente se essas propostas são semelhantes, passando rapidamente por seus olhos.

E agora o que fazer com tudo isso?


Naturalmente, a melhor maneira de entender se um novo algoritmo funciona ou não é investigar a qualidade do seu trabalho em dados reais. Portanto, colocamos um novo módulo de detecção de paráfrase em produção e executamos solicitações reais por ele (embora ainda não mostremos os resultados aos usuários). Os trabalhos foram verificados tanto pelo atual algoritmo de busca de empréstimos - “comparação literal”, quanto pelo novo algoritmo - “detecção de paráfrase”. Em seguida, comparamos cerca de 10 mil relatórios sobre verificações do trabalho baixado criado pelos dois algoritmos. Os resultados foram interessantes.

Este gráfico mostra a distribuição da porcentagem de empréstimos para os dois algoritmos. Pode-se observar que a "detecção de paráfrase", em média, 10% a mais de empréstimos do que a "comparação literal".

No segundo gráfico, a diferença absoluta entre a porcentagem de empréstimos do algoritmo proposto e o atual é plotada no eixo horizontal. Uma diferença maior que 0 significa que a "descoberta da paráfrase" encontrou mais do que a "comparação literal".


Conclusões


  1. A paráfrase como forma de distorcer o texto é realmente usada quando a escrita funciona;
  2. O número de "positivos" não aumentou radicalmente, o algoritmo encontra um texto verdadeiramente reformulado;
  3. Como no caso de empréstimos transferíveis, o sistema antiplágio recebeu um novo módulo - o sistema de detecção de paráfrase;
  4. E, claro, nosso clássico é criar com sua própria mente!

A arquitetura do algoritmo de detecção de paráfrase e os primeiros resultados do trabalho foram mostrados no workshop do Big Scholar sobre a análise de dados científicos, que este ano foi realizado como parte de uma das principais conferências sobre aprendizado de máquina - KDD 2018 .

O módulo de detecção de paráfrase é implantado na produção e já é usado por professores e alunos ao verificar textos para empréstimos.

Este artigo foi co-escrito com Rita_Kuznetsova , Oleg_Bakhteev , Kamil Safin e chernasty . A imagem original para criar a ilustração de entrada foi tirada daqui: demotivators.cc .

Source: https://habr.com/ru/post/pt422941/


All Articles