El nuevo año escolar ha llegado. Los estudiantes recibieron un horario de clases y comenzaron a pensar en
las guitarras de fiesta de alcohol de la futura sesión. Escribir cursos, diplomas, artículos y disertaciones está a la vuelta de la esquina. Y eso significa que vendrá un análisis de textos para préstamos, informes de auditoría y otros dolores de cabeza para estudiantes y administradores. Y cientos de miles de personas (¡sin bromas, calculamos!) Ya tenemos una pregunta lógica: cómo engañar al "antiplagio". En nuestro caso, casi todos los métodos de engaño están de alguna manera conectados con distorsiones del texto. Ya hemos enseñado antiplagio para detectar texto "distorsionado" al traducir del inglés al ruso (escribimos sobre esto en el
primer artículo de nuestro blog corporativo ). Hoy hablaremos sobre cómo detectar la forma más efectiva, aunque lenta, de distorsionar el texto: la paráfrasis.

De ruso a ruso, o por cierto
Desde el punto de vista de una persona
normal y corriente, la paráfrasis (reformulación) es una reescritura de texto en otras palabras (más a menudo en sus propias palabras). Al parafrasear, intentan preservar el significado del texto fuente tanto como sea posible, mientras privan al texto mismo de una semejanza formal con el original. En general, todas las paráfrasis obedecen ciertas reglas que las personas usan con mayor frecuencia, sin siquiera darse cuenta en este informe (ver, por ejemplo,
Alberto Barrón-Cedeño ).
Echemos un vistazo más de cerca a la conocida historia "Mumu" [como en el título del artículo, también presenta un perro, personas y un bote :-)], lo que se puede hacer con el texto para que se conserve su significado y las oraciones se vean diferentes.
1. Lo primero que viene a la mente es reemplazar la mayoría de las palabras con sinónimos. Esto es lo más simple que puedes hacer con el texto. Esto no cambia el significado, pero el texto a primera vista cambiará. Este truco lo usan los programas de sinónimo. Al mismo tiempo, reemplazan las palabras, sin tener en cuenta el contexto, sino simplemente eligiendo una palabra de la lista de sinónimos, por lo tanto, la oración procesada por dicho programa a menudo parece bastante incómoda.
PerIphrase también se refiere a este método de paráfrasis: una designación descriptiva de un objeto basada en resaltar algunas de sus cualidades, atributos, características, por ejemplo, "planeta azul" en lugar de "Tierra", "bandido de un solo brazo" en lugar de "máquina tragamonedas", etc.
El original | Paráfrasis |
---|
La señora comenzó a llamarla con voz cariñosa. | La mujer noble comenzó a llamarla con una voz cortés. |
2. Reemplazar algunas partes del discurso con otras también le permite cambiar la estructura de la oración. Por ejemplo, muy a menudo reemplaza un verbo con un sustantivo y viceversa.
El original | Paráfrasis |
---|
Un buen día de verano, la señora, con sus acurrucadores, caminó por la sala de estar. | La dama caminó con sus implantes en un hermoso día de verano. |
3. Otra forma simple de cambiar la estructura del texto es simplemente dividir las oraciones en simples, o viceversa, combinarlas en largas.
El original | Paráfrasis |
---|
Gerasim estaba un poco asombrado, pero llamó a Mumu, la levantó del suelo y se la entregó a Stepan. | Gerasim estaba un poco sorprendido, pero luego llamó a Mumu. Lo recogió del suelo y se lo entregó a Stepan. |
4. Esencialmente y muy originalmente, la oración se cambia por medio de una voz pasiva.
El original | Paráfrasis |
---|
La señora ordenó llamar a un sanador mayor. | El injerto mayor se llamaba la amante. |
Estos son solo trucos típicos. Obviamente, una buena paráfrasis es muy difícil de detectar. A veces esto solo es posible para especialistas con un conocimiento profundo en el área temática del texto. Pero para la tarea que estamos resolviendo, esto no es obligatorio. Después de todo, la reformulación profunda requiere un esfuerzo considerable y, por lo tanto, mucho tiempo. Lo más probable es que sea más fácil para un estudiante escribir su trabajo que pasar tiempo parafraseando seriamente el texto de otra persona, que, a pesar de los costos, puede detectarse durante la verificación.
Por lo tanto, nuestro objetivo es una paráfrasis relativamente simple que puede ser realizada por la "médula espinal", es decir. sin el gran gasto de esfuerzo mental y tiempo.
En esencia, parafrasear es una "hermana" de la traducción a otro idioma. Las palabras cambian, pero el significado permanece. Podemos decir que la paráfrasis del texto en ruso es en realidad una traducción del ruso al ruso.
Es por eso que el algoritmo de detección de paráfrasis resultó ser un "pariente cercano" del
algoritmo de detección de préstamos de transferencia . Entonces, ¿cómo es el proceso de detección de préstamos en este caso?
1. El documento verificado en ruso se recibe en la entrada.
2.
La máquina traduce el texto ruso al inglés.3. Se buscan candidatos para obtener fuentes de préstamos de una colección indexada de documentos en
inglés y ruso.
4. Se hace una comparación de cada candidato encontrado con la
versión en inglés del documento que se verifica,
y se determina la definición de los límites de los fragmentos prestados.
5. Los bordes de los fragmentos se transfieren a la versión rusa del documento que se verifica. Al finalizar el proceso, se genera un informe de verificación.
Una diferencia importante es que los parámetros del algoritmo se configuran en otros datos y tienen en cuenta los detalles del idioma ruso. Al hacerlo, mantenemos una estrategia de ajuste con un enfoque en la precisión, sacrificando la integridad. Nuestra tarea es minimizar el número de falsos positivos, incluso a costa de perder "algunos objetivos".
Afinando desde el "Alto Sastre"
La paráfrasis es ciertamente una forma laboriosa de distorsionar el texto. Sin embargo, no todos los métodos de reescritura son igualmente útiles hacen que el texto sea irreconocible. Intentando reducir el tiempo empleado, el autor utiliza las formas más simples para modificar el texto, que son detectadas por los algoritmos del sistema y no producen ningún resultado. Por lo tanto, después del primer intento fallido de sobreestimar la originalidad, el texto comienza a "
sintonizarse ". Cómo funciona: se utilizan varias combinaciones de métodos, y después de cada combinación, el texto modificado se carga en el sistema para verificar qué tan exitosa fue la reformulación y si el usuario pudo obtener el preciado porcentaje de originalidad. El resultado es una cadena de textos, cada uno de los cuales ha sido reformulado con diferentes grados de severidad. Recuperar tal cadena es una tarea de ingeniería bastante simple. Nuestro estudio de tales "cadenas" reveló (al mismo tiempo que confirmó los resultados del mismo
Alberto Barrón-Cedeño ) los métodos de modificación más frecuentes y proporcionó material rico para aprender nuevos algoritmos.
Hagamos un pequeño experimento. Tome un pequeño extracto de la historia ya mencionada de Turgenev:
Una hora después de toda esta alarma, la puerta del armario se abrió y apareció Gerasim. Llevaba un festivo caftán; guió a Mumu con una cuerda. Eroshka se hizo a un lado y lo dejó pasar. Gerasim fue a la puerta. Los muchachos y todos en el patio lo miraban con los ojos en silencio. Ni siquiera se dio la vuelta; Se puso el sombrero solo en la calle. Gavrila envió tras él al mismo Eroshka como observador. Eroshka vio desde lejos que entró en la taberna con el perro y comenzó a esperar su liberación.
Intentemos engañar al "antiplagio". Primero, intentemos con el sinónimo automático de texto. Dichos programas no difieren en
la calidad del
intelecto especial: solo toman palabras y las reemplazan por sinónimos del diccionario, sin tener en cuenta el contexto. Por lo tanto, los textos procesados por dicho programa a menudo parecen bastante torpes. Esto es lo que sucedió después de procesar uno de estos programas:
Algún tiempo después de esta inquietud, las puertas de las perreras se resolvieron y Gerasim se presentó. Llevaba un solemne caftán; alguien condujo a Mumu con una soga. Eroshka se hizo a un lado y lo dejó por el camino. Gerasim corrió hacia la puerta. Los niños y todos los primeros sin excepción en el patio lo observaron sin decir una palabra. Incluso no se dio la vuelta: se puso el tocado solo en la calle. Gavrila envió tras él al mismo Eroshka como observador. Eroshka vio desde lejos que alguien había entrado en la taberna junto con el perro, y comenzó a esperar su liberación.
Tenga en cuenta que al menos una palabra se reemplaza en cada oración. Un cambio aparentemente tan pequeño es suficiente para que el "antiplagio ordinario" deje de comparar las oraciones reescritas con el original.
Ahora intentemos comparar pares de oraciones del texto fuente y reescribirlas usando nuestro algoritmo. Para esto, usaremos la
medida del coseno de similitud . Como en el algoritmo de
detección para préstamos transferibles , cada oración se representa como un vector de gran dimensión. Al medir el coseno del ángulo entre un par de tales vectores, podemos concluir cómo estos vectores son "similares" entre sí y, en consecuencia, cuán similares son las oraciones a las que corresponden estos vectores.
Esto es lo que sucedió después de comparar las oraciones con nuestro algoritmo:

Para mayor claridad, representamos el valor del coseno en forma de escala térmica. Es decir, cuanto más "caliente" sea el color entre el par de oraciones, mayor será el valor del coseno y más similares se considerarán las oraciones de este par. Tenga en cuenta que los valores de coseno más pequeños fueron recibidos por oraciones en las que las sustituciones de sinónimos son muy poco adecuadas para el contexto. Por ejemplo, "así" y "de esta manera" son, de hecho, muy a menudo sinónimos, sin embargo, en este contexto, dicho reemplazo está completamente fuera de lugar.
Ahora probémonos en el papel de sinónimos y reescribamos el texto con el mismo significado. Pero a diferencia del programa, todos nuestros cambios son gramaticalmente consistentes y se ajustan bien al contexto. Esto es lo que tenemos:

Y en este caso, el algoritmo otorga una calificación de similitud bastante alta para la mayoría de las oraciones. Las oraciones, que recibieron una calificación baja, fueron sometidas a una transformación bastante profunda: en ellas, la estructura gramatical cambió mucho. Incluso una persona no responderá de inmediato si estas propuestas son similares, pasando rápidamente por sus ojos.
¿Y ahora qué hacer con todo esto?
Naturalmente, la mejor manera de entender si un nuevo algoritmo funciona o no es investigar la calidad de su trabajo en datos reales. Por lo tanto, pusimos un nuevo módulo de detección de paráfrasis en producción y ejecutamos solicitudes reales a través de él (sin mostrar los resultados a los usuarios todavía). Los trabajos fueron verificados tanto por el algoritmo de búsqueda de préstamos actual - "comparación literal", como por el nuevo algoritmo - "detección de paráfrasis". Luego comparamos unos 10 mil informes sobre comprobaciones del trabajo descargado creado por ambos algoritmos. Los resultados fueron interesantes.

Este gráfico muestra la distribución del porcentaje de préstamos para ambos algoritmos. Se puede ver que la "detección de paráfrasis" en promedio es un 10 por ciento más de préstamos que la "comparación literal".
En el segundo gráfico, la diferencia absoluta entre el porcentaje de préstamos del algoritmo propuesto y el actual se representa en el eje horizontal. Una diferencia mayor que 0 significa que el "descubrimiento de la paráfrasis" encontró más que la "comparación literal".

Conclusiones
- La paráfrasis como una forma de distorsionar el texto se usa realmente cuando la escritura funciona;
- El número de "positivos" no ha crecido radicalmente, el algoritmo encuentra un texto verdaderamente reformulado;
- Como en el caso de los préstamos transferibles, el sistema antiplagio recibió un nuevo módulo: el sistema de detección de paráfrasis;
- Y, por supuesto, nuestro clásico es crear con tu propia mente.
La arquitectura del algoritmo de detección de paráfrasis y los primeros resultados del trabajo se mostraron en el taller
Big Scholar sobre el análisis de datos científicos, que este año se celebró como parte de una de las principales conferencias sobre aprendizaje automático:
KDD 2018 .
El módulo de detección de paráfrasis se implementa en la producción y los profesores y los alumnos ya lo utilizan al verificar los textos para pedir prestado.
Este artículo fue coescrito con
Rita_Kuznetsova ,
Oleg_Bakhteev , Kamil Safin y
Chernasty . La imagen original para crear la ilustración de entrada se tomó de aquí:
demotivators.cc .