Donc, le système ne se déplace pas

Dernière année scolaire, avril. Les étudiants commencent de plus en plus souvent à penser qu'il serait nécessaire de faire une thèse. Pour ce faire, il s'agit, en ce sens, de comprendre comment préparer rapidement quelque chose qui sera au moins en phase avec le sujet qui, semble-t-il, a été approuvé par le superviseur. Et, oui, vous avez besoin d'au moins 80 pages, vous devez également vous conformer à toutes sortes de GOST ... C'est clair, vous n'avez pas le temps de taper autant de texte connecté vous-même (et ils peuvent même entrer dans l'essence du travail, eh bien!). Évidemment - vous devez prendre le travail fini qui a déjà été défendu, un travail de qualité, testé et approuvé. La situation nous est familière à tous. La seule question qui reste ouverte est de savoir comment s'assurer que le travail est testé pour l'emprunt ... La recherche sur Internet et la communication avec des collègues malheureux conduisent l'étudiant aux options suivantes pour résoudre le problème:

  • Écrivez le travail vous-même;
  • Reformuler le texte (cher et difficile);
  • Surpassez le système avec des «solutions de contournement techniques».



Voyons ce que sont les tournées techniques, comment les attraper et pourquoi leur utilisation n'est pas une bonne idée ...

La reformulation peut aider à faire passer le texte de quelqu'un d'autre comme le vôtre s'il est bien fait. Cependant, une reformulation de haute qualité est en soi un processus très laborieux pour lequel l'étudiant n'a probablement pas le temps ni l'argent. Des moyens simples de reformulation (par exemple, la synonymisation) donneront un résultat qui sera non seulement détecté par le système anti-plagiat, mais qui, très probablement, amusera le superviseur et le comité de certification.


Ainsi, nous arrivons aux moyens les plus créatifs et les plus populaires parmi les étudiants - les solutions techniques - les transformations de documents, qui, sans changer l'affichage du document original, changent le texte extrait par le système de vérification .


Du point de vue du travail avec les tours techniques (nous les appellerons ci-après simplement «tours»), le système Antiplagiat a deux tâches:

  • Détection des contournements potentiels et notification de l'utilisateur à leur sujet;
  • Effacement du texte vérifié des analyses.

Le schéma général de traitement des tours peut être décrit comme suit:

  • Détection des contournements, sauvegarde des informations les concernant;
  • Effacement du texte extrait des analyses;
  • La définition du "soupçon" du document sur la base des détours;
  • Afficher des informations sur la suspicion à l'utilisateur, affichage des détours trouvés.

Voici à quoi cela ressemble dans la pratique.
Document au format docx:



Vérification d'un document sans fonctionnalité de détection de l'analyse:



Le document a une originalité à cent pour cent.


Nous vérifions le document avec la fonctionnalité de détection de contournement activée et constatons que l'originalité tombe à 0.



De plus, le système marque le document comme «suspect» et indique à l'utilisateur où et quels contournements ont été détectés:



Étant donné que le but des solutions de contournement techniques est d'augmenter l'originalité d'un document, il est intéressant de les classer en fonction de leur incidence sur la vérification du document. Étant donné que l'élément principal de la vérification d'un document à emprunter est les mots du document, les solutions de contournement peuvent être divisées en les types suivants selon leur effet sur les mots du document extraits:

  • Changer le mot (le mot dans le texte extrait diffère du mot affiché dans le document source);
  • Ajout d'un mot (le mot n'est pas visible dans le document source, apparaît dans le texte extrait du document);
  • Supprimer un mot (le mot est visible dans le document source, pas dans le texte extrait du document);
  • Séparation de mots (dans le document d'origine, le mot s'affiche normalement, dans le texte durci il est divisé en deux parties ou plus);
  • Fusion de mots (plusieurs mots sont affichés dans le document source, ils sont fusionnés en un seul mot dans le texte extrait).

Voyons quelles solutions de contournement nous rencontrons. Commençons par les plus simples et allons vers les plus intéressants.


Exploration de texte


Les contournements de ce type ne sont en aucun cas liés au format du document; ils modifient la valeur de chaîne des mots afin qu'ils continuent à ressembler aux mots d'origine.


Omoglyphes


L'une des premières solutions de contournement que nous avons enregistrées a été de remplacer les lettres par des omoglyphes - des caractères qui sont visuellement similaires aux lettres originales et qui ont des significations différentes. L'omoglyphie a été utilisée dès les premiers jours de l'existence du système anti-plagiat , et malgré le fait que nous l'attrapions depuis longtemps, nous rencontrons toujours des détours similaires dans le travail étudiant.



Les omoglyphes sont faciles à trouver et à nettoyer lorsque la langue de chaque mot est connue. Nous pouvons déterminer assez précisément la langue de chaque mot du texte, même lorsque le texte contient plusieurs langues et une grande quantité de «déchets» (homoglyphes et autres caractères supplémentaires). Comment est un sujet pour un article séparé. Ayant le mot langue et une liste d'homoglyphes possibles pour la langue, nous restaurons les lettres de la langue d'origine et enregistrons des informations sur les homoglyphes trouvés.


Caractères non imprimables


Une autre façon de modifier la valeur de chaîne des mots sans modifier de manière significative leur affichage consiste à utiliser des caractères Unicode invisibles ou faiblement visibles. L'insertion de tels caractères dans un mot modifie la signification de la chaîne du mot, tout en ne modifiant pratiquement pas son affichage.


Beaucoup de ces personnages appartiennent aux catégories Unicode "Autre, Contrôle" et "Marque, sans espacement" .


Le système supprime simplement ces caractères et, lorsqu'il y en a un grand nombre, avertit l'utilisateur du caractère suspect du document, affichant les caractères non imprimables effacés dans le rapport.


Solutions de contournement PDF


Comme nous l'avons dit précédemment , le format clé pour le traitement des documents est le pdf. Nous convertissons tous les autres types de documents en pdf, afin que la logique de base du traitement des documents soit unifiée pour tous les formats pris en charge. Ainsi, les solutions de contournement pouvant être implémentées dans les documents pdf nous intéressent particulièrement.


Petit texte


Une solution de contournement qui vient à l'esprit est de rendre quelque chose de petit et invisible. Le texte ainsi obtenu n'est pas visible lors de la visualisation du document d'origine, mais est récupéré par le système. L'implémentation est très simple - définissez la taille de police minimale pour le texte, changez la couleur du texte. La capture de contournements de ce type est tout aussi simple - il suffit de vérifier la taille de la police du texte et les dimensions géométriques des mots individuels. En raison de leur petite taille, les étudiants ajoutent souvent des paragraphes entiers d'un tel texte masqué à la page:



Affichage d'une tentative d'exploration détectée:



Changer la couleur du texte en arrière-plan


Malgré le fait que cette méthode soit souvent utilisée en combinaison avec la précédente, son utilisation indépendante est plus intéressante. Le fait est que pour détecter et effacer le bypass, il suffit de déterminer qu'au moins un paramètre du mot / symbole a une valeur «suspecte». Et, si la définition de petites tailles d'un mot est triviale, la définition d'un texte dont la couleur correspond à l'arrière-plan est une procédure plus compliquée.


La détection d'un texte invisible est compliquée par les circonstances suivantes:

  • Il n'est pas toujours possible d'obtenir la couleur d'un caractère spécifique du pdf;
  • L'arrière-plan du mot n'est peut-être pas blanc. De plus, le mot peut être sur le fond de l'image;
  • Les mots et les symboles peuvent se rencontrer.

Pour éliminer les deux premières difficultés, «l'invisibilité» du texte est déterminée en analysant l'image rendue de la page du document:

  • Déterminez la zone de la page contenant le mot;
  • Nous calculons la variance de la région obtenue. Si la variance est inférieure à un certain seuil - dans la zone analysée, nous avons une couleur uniforme, aucune lettre n'est visible. Par conséquent, il y a une tentative de contourner le système.

Mots et symboles cachés les uns après les autres


Les caractères invisibles ne peuvent pas être détectés en analysant la zone dans laquelle ils se trouvent si ces caractères sont cachés derrière d'autres caractères «visibles». Par conséquent, pour détecter de tels caractères «cachés», nous avons une procédure distincte qui analyse l'intersection des zones de symboles et marque les caractères qui se chevauchent largement par d'autres.



Contournement détecté:



Texte sous forme d'images


Que se passera-t-il si nous prenons et remplaçons une partie du texte par des images contenant ce texte? Avec une précision correcte, tout semblera que rien n'a changé dans le document, mais lorsque vous extrayez un calque de texte, naturellement, les mots des images ne seront pas extraits. Pour combler cet écart, nous utilisons la reconnaissance optique de texte.


Solutions de contournement utilisant les fonctionnalités de conversion docx en pdf


La conversion de documents en pdf n'est pas une tâche triviale. Vous pouvez découvrir comment nous avons choisi la solution la plus appropriée pour nous ici . Malheureusement, même la meilleure des options que nous avons analysées convertit imparfaitement les documents en pdf. Certaines "fonctionnalités" de conversion sont activement utilisées lorsque vous essayez de contourner le système.


Formules


Les formules et un certain nombre d'autres objets contenant du texte sont «perdus» après la conversion en pdf. Ainsi, vous pouvez essayer de masquer tout le paragraphe du texte, ou, par exemple, un mot sur deux dans le texte:



Lors de la conversion en pdf, nous obtenons le résultat suivant:



Pour détecter et nettoyer cela et d'autres solutions de contournement, accentuées par les fonctionnalités de conversion de docx en pdf, nous analysons et nettoyons le fichier docx source. En particulier, si un nombre important de formules se trouvent dans un document, nous les remplaçons par du texte brut, qui sera enregistré lors de la conversion du document en pdf. De plus, nous nous souvenons de la position des formules que nous avons traitées et, si nécessaire, informons l'utilisateur de la suspicion du document à vérifier et mettons en évidence le texte que nous avons restauré à partir des formules.


Échelle, petit espacement intersymbole / ligne


Lors de la conversion en pdf, un certain nombre de propriétés de texte ne sont pas prises en compte: l'échelle, l'intersymbole et l'espacement des lignes. Cela vous permet d'ajouter du texte invisible dans le document source (par exemple, il a une très petite échelle), qui en pdf devient un texte normal qui ne se démarque pas. Implémentation de contournement (docx):



Le résultat de la conversion en pdf (nous avons changé la couleur nous-mêmes):



La seule façon d'attraper ce texte est de le trouver dans docx et d'enregistrer des informations le concernant. Si nous trouvons beaucoup de texte dans le document, nous marquons le document comme suspect et montrons à l'utilisateur où nous avons trouvé du texte avec des attributs suspects dans le document.


Briser un mot en morceaux


Un cas particulier intéressant de l'application des propriétés décrites dans le paragraphe précédent consiste à ajouter un espace au mot et à le masquer. Dans le document d'origine, le mot apparaîtra normal, fusionné et après avoir converti le document en pdf, il sera divisé en deux parties, à mesure que l'espace devient de taille normale. Nous captons une feinte similaire avec nos oreilles de la même manière que dans le paragraphe précédent. Implémentation de contournement (docx):



Le résultat de la conversion en pdf:



Affichage d'un contournement de détour:



Sous le vieux châtaignier, à la lumière du jour, je t'ai trahi, et toi moi ...


Nous avons parlé de la base, mais en aucun cas de tous les moyens techniques de mise en œuvre de solutions de contournement. Bien sûr, il est peu probable que nous puissions jamais rendre la défense absolue. Néanmoins, nous améliorons constamment notre système, laissant de moins en moins d'occasions de le «tromper». Au cours de la session, nous essayons de fermer les failles détectables particulièrement rapidement - souvent à partir du moment où un écart est découvert jusqu'à ce qu'il soit fermé au niveau de la prod, seuls quelques jours passent. C'est pourquoi c'est un peu drôle et, en même temps, triste de lire les "promesses" publicitaires d'entreprises qui sont prêtes à aider les étudiants à augmenter l'originalité de leur travail et à donner une garantie pour leur travail, atteignant parfois 30 jours. Etudiant, vous serez trahi! Dans le meilleur des cas, cette «garantie» peut vous restituer le coût des services de la société de crawler, mais elle ne sera d'aucune utilité en cas d'échec de diplôme et d'expulsion éventuelle de l'université ...



Créez avec votre propre esprit!

Source: https://habr.com/ru/post/fr480580/


All Articles