«Trois dans un bateau, la pauvreté et les chiens», ou comment l'antiplagiat cherche la paraphrase

La nouvelle année scolaire est arrivée. Les étudiants ont reçu un horaire de cours et ont commencé à penser à l' alcool-fête-filles-guitares de la future session. La rédaction de cours, de diplômes, d'articles et de dissertations approche à grands pas. Et cela signifie qu'une analyse des textes d'emprunt, des rapports d'audit et d'autres maux de tête pour les étudiants et les administrateurs est à venir. Et des centaines de milliers de personnes (sans blagues - nous avons calculé!) Ont déjà une question logique - comment tromper "l'anti-plagiat". Dans notre cas, presque toutes les méthodes de tromperie sont en quelque sorte liées à des distorsions du texte. Nous avons déjà appris à l'anti-plagiat à détecter le texte «déformé» en traduisant de l'anglais vers le russe (nous en avons parlé dans le premier article de notre blog d'entreprise ). Aujourd'hui, nous allons discuter de la façon de détecter la manière la plus efficace, quoique longue, de déformer le texte - la paraphrase.




Du russe au russe, soit dit en passant


Du point de vue d'une personne ordinaire, la paraphrase (reformulation) est une réécriture du texte en d'autres mots (le plus souvent en vos propres termes). En paraphrasant, ils essaient de garder le sens du texte source autant que possible, tout en privant le texte lui-même d'une ressemblance formelle avec l'original. En général, toutes les paraphrases obéissent à certaines règles que les gens utilisent le plus souvent, sans même se rendre compte dans ce rapport (voir, par exemple, Alberto Barrón-Cedeño ).

Examinons de plus près la célèbre histoire «Mumu» [comme dans le titre de l'article, elle présente également un chien, des gens et un bateau :-)], ce qui peut être fait avec le texte afin que sa signification soit préservée et que les phrases soient différentes.

1. La première chose qui me vient à l'esprit est de remplacer la plupart des mots par des synonymes. C'est la chose la plus simple que vous puissiez faire avec du texte. Cela ne change pas le sens, mais le texte à première vue changera. Cette astuce est utilisée par les programmes de synonymisation. En même temps, ils remplacent les mots, sans tenir compte du contexte, mais simplement en choisissant un mot dans la liste des synonymes, donc la phrase traitée par un tel programme semble très souvent assez maladroite. PerIphrase fait également référence à cette méthode de paraphrase - une désignation descriptive d'un objet basée sur la mise en évidence de certaines de ses qualités, attributs, caractéristiques, par exemple, "planète bleue" au lieu de "Terre", "bandit manchot" au lieu de "machine à sous", etc.
L'originalParaphrase
La dame a commencé à l'appeler d'une voix affectueuse.La noble a commencé à l'appeler d'une voix courtoise.

2. Le remplacement de certaines parties du discours par d'autres vous permet également de modifier la structure de la phrase. Par exemple, très souvent, remplacez un verbe par un nom et vice versa.
L'originalParaphrase
Un beau jour d'été, la dame, avec ses snugglers, a fait le tour du salon.La dame a marché avec ses implants par une belle journée d'été.

3. Une autre façon simple de changer la structure du texte est de simplement diviser les phrases en phrases plus simples, ou vice versa, de les combiner en longues.
L'originalParaphrase
Gerasim était un peu étonné, mais il a appelé Mumu, l'a soulevée du sol et l'a remise à Stepan.Gerasim était un peu surpris, mais il a ensuite appelé Mumu. Il le ramassa du sol et le tendit à Stepan.

4. Essentiellement et très à l'origine, la phrase est modifiée au moyen d'une voix passive.
L'originalParaphrase
La dame a ordonné d'appeler un guérisseur plus âgé.La greffe aînée s'appelait la maîtresse.

Ce ne sont que des astuces typiques. De toute évidence, une bonne paraphrase est très difficile à détecter. Parfois, cela n'est possible que pour des spécialistes ayant une connaissance approfondie du sujet du texte. Mais pour la tâche que nous résolvons, ce n'est pas nécessaire. Après tout, une reformulation profonde nécessite des efforts considérables, et donc beaucoup de temps. Très probablement, il sera plus facile pour un étudiant d'écrire son travail que de passer du temps à paraphraser sérieusement le texte de quelqu'un d'autre, qui, malgré les coûts, peut être détecté lors de la vérification.

Par conséquent, notre objectif est une paraphrase relativement simple qui peut être réalisée par la «moelle épinière», c'est-à-dire sans la grande dépense d'effort mental et de temps.

En substance, la paraphrase est une «sœur» de la traduction dans une autre langue. Les mots changent, mais le sens demeure. Nous pouvons dire que la paraphrase du texte en russe est en fait une traduction du russe vers le russe.

C'est pourquoi l'algorithme de détection de paraphrase s'est avéré être un «proche parent» de l'algorithme de détection d'emprunt de transfert . Alors, comment se passe le processus de détection des emprunts dans ce cas:

1. Le document vérifié en langue russe est reçu à l'entrée.

2. La machine traduit le texte russe en anglais.

3. On recherche des candidats pour trouver des sources d'emprunt à partir d'une collection indexée de documents de langue russe de langue anglaise.

4. Une comparaison est faite de chaque candidat trouvé avec la version anglaise du document en cours de vérification, et la définition des limites des fragments empruntés est déterminée.

5. Les bordures des fragments sont transférées dans la version russe du document en cours de vérification. Une fois le processus terminé, un rapport de vérification est généré.

Une différence importante est que les paramètres de l'algorithme sont configurés sur d'autres données et prennent en compte les spécificités de la langue russe. Ce faisant, nous maintenons une stratégie de réglage en mettant l'accent sur la précision, en sacrifiant l'exhaustivité. Notre tâche est de minimiser le nombre de faux positifs, même au prix de manquer «certains objectifs».

Tuning du "High Tailor"


La paraphrase est certainement un moyen laborieux de déformer le texte. Cependant, toutes les méthodes de réécriture ne sont pas également utiles et rendent le texte méconnaissable. En essayant de réduire le temps passé, l'auteur utilise les moyens les plus simples pour modifier le texte, qui sont détectés par les algorithmes du système et n'apportent aucun résultat. Par conséquent, après la première tentative infructueuse de surestimer l'originalité, le texte commence à « s'accorder ». Comment cela fonctionne: diverses combinaisons de méthodes sont utilisées, et après chacune de ces combinaisons, le texte modifié est chargé dans le système pour vérifier le succès de la reformulation et si l'utilisateur a pu obtenir le pourcentage d'originalité recherché. Le résultat est une chaîne de textes, dont chacun a été reformulé avec différents degrés de gravité. La récupération d'une telle chaîne est une tâche d'ingénierie assez simple. Notre étude de ces «chaînes» a révélé (confirmant en même temps les résultats du même Alberto Barrón-Cedeño ) les méthodes de modification les plus fréquentes et fourni un matériel riche pour l'apprentissage de nouveaux algorithmes.

Faisons une petite expérience. Prenez un petit extrait de l'histoire déjà mentionnée de Turgenev:
Une heure après toute cette alarme, la porte du placard s'ouvrit et Gerasim apparut. Il portait un caftan de fête; il a conduit Mumu sur une corde. Eroshka s'écarta et le laissa passer. Gerasim est allé à la porte. Les garçons et tout le monde dans la cour le regardaient avec leurs yeux, silencieusement. Il ne s'est même pas retourné; Il n'a mis son chapeau que dans la rue. Gavrila a envoyé après lui le même Eroshka en tant qu'observateur. Eroshka a vu de loin qu'il est entré dans la taverne avec le chien et a commencé à attendre sa libération

Essayons de tromper "l'Anti-plagiat". Tout d'abord, essayons le synonymiseur automatique de texte. Ces programmes ne diffèrent pas par leur qualité intellectuelle particulière - ils prennent simplement des mots et les remplacent par des synonymes du dictionnaire, sans tenir compte du contexte. Par conséquent, les textes traités par un tel programme semblent souvent plutôt maladroits. Voici ce qui s'est passé après le traitement de l'un de ces programmes:
Quelque temps après ce malaise, les portes des chenils se sont résolues et Gerasim s'est présenté. Il portait un caftan solennel; quelqu'un a conduit Mumu dans une corde. Eroshka s'écarta et le laissa prendre le chemin. Gerasim se précipita vers la porte. Les garçons et tous les anciens sans exception dans la cour l'ont observé sans dire un mot. Y compris il ne s'est pas retourné: il n'a mis sa coiffure que dans la rue. Gavrila a envoyé après lui le même Eroshka en tant qu'observateur. Eroshka a vu de loin que quelqu'un était entré dans la taverne avec le chien et a commencé à attendre sa libération

Notez qu'au moins un mot est remplacé dans chaque phrase. Un tel changement en apparence minime suffit à «l'anti-plagiat ordinaire» pour arrêter de comparer les phrases réécrites avec l'original.

Essayons maintenant de comparer des paires de phrases du texte source et réécrites en utilisant notre algorithme. Pour cela, nous utiliserons la mesure de similitude cosinus . Comme dans l'algorithme de détection des emprunts transférables , chaque phrase est représentée comme un vecteur de grande dimension. En mesurant le cosinus de l'angle entre une paire de tels vecteurs, nous pouvons conclure comment ces vecteurs sont «similaires» les uns aux autres, et, par conséquent, comment similaires les phrases auxquelles ces vecteurs correspondent.

Voici ce qui s'est passé après avoir comparé les phrases avec notre algorithme:

Pour plus de clarté, nous avons représenté la valeur du cosinus sous la forme d'une échelle thermique. C'est-à-dire que plus la couleur est «chaude» entre la paire de phrases, plus la valeur du cosinus est grande et plus les phrases de cette paire sont similaires. Notez que les plus petites valeurs de cosinus ont été reçues par des phrases dans lesquelles les substitutions de synonymes sont très mal adaptées au contexte. Par exemple, «ainsi» et «de cette manière» sont en effet très souvent synonymes, mais dans ce contexte, un tel remplacement est complètement hors de propos.

Essayons maintenant de jouer le rôle de synonymiseurs et de réécrire le texte avec la même signification. Mais contrairement au programme, tous nos changements sont grammaticalement cohérents et s'inscrivent bien dans le contexte. Voici ce que nous avons obtenu:

Et dans ce cas, l'algorithme donne une cote de similitude assez élevée pour la plupart des phrases. Les phrases, qui ont reçu une note faible, ont subi une transformation assez profonde: en elles, la structure grammaticale a été considérablement modifiée. Même une personne ne répondra pas immédiatement si ces propositions sont similaires, traversant rapidement leurs yeux.

Et maintenant, que faire de tout ça?


Naturellement, la meilleure façon de comprendre si un nouvel algorithme fonctionne ou non est d'étudier la qualité de son travail sur des données réelles. Par conséquent, nous avons mis en production un nouveau module de détection de paraphrase et avons exécuté de vraies requêtes à travers celui-ci (tout en ne montrant pas encore les résultats aux utilisateurs). Les travaux ont été vérifiés à la fois par l'algorithme de recherche d'emprunt actuel - «comparaison textuelle» et par le nouvel algorithme - «détection de paraphrase». Ensuite, nous avons comparé environ 10 000 rapports sur les vérifications des travaux téléchargés créés par les deux algorithmes. Les résultats étaient intéressants.

Ce graphique montre la distribution du pourcentage d'emprunts pour les deux algorithmes. On peut voir que la «détection de paraphrase» représente en moyenne 10% d'emprunts en plus que la «comparaison textuelle».

Dans le deuxième graphique, la différence absolue entre le pourcentage d'emprunts de l'algorithme proposé et celui actuel est tracée sur l'axe horizontal. Une différence supérieure à 0 signifie que la «découverte de la paraphrase» a trouvé plus que la «comparaison textuelle».


Conclusions


  1. La paraphrase comme moyen de déformer le texte est en fait utilisée lors de l'écriture d'œuvres;
  2. Le nombre de «positifs» n'ayant pas augmenté radicalement, l'algorithme trouve un texte véritablement reformulé;
  3. Comme dans le cas des emprunts transférables, le système Anti-Plagiat a reçu un nouveau module - le système de détection de paraphrase;
  4. Et bien sûr, notre classique est de créer avec votre propre esprit!

L'architecture de l'algorithme de détection de paraphrase et les premiers résultats des travaux ont été présentés lors de l'atelier Big Scholar sur l'analyse des données scientifiques, qui s'est tenu cette année dans le cadre d'une des principales conférences sur l'apprentissage automatique - KDD 2018 .

Le module de détection de paraphrase est déployé en production et est déjà utilisé par les enseignants et les étudiants lors de la vérification des textes à emprunter.

Cet article a été co-écrit avec Rita_Kuznetsova , Oleg_Bakhteev , Kamil Safin et chernasty . L'image originale pour créer l'illustration d'entrée a été prise à partir d'ici: demotivators.cc .

Source: https://habr.com/ru/post/fr422941/


All Articles