"Drei in einem Boot, Armut und Hunde" oder wie Antiplagiat Paraphrase sucht

Das neue Schuljahr ist da. Die Schüler erhielten einen Stundenplan und begannen, über Alkohol-Party-Mädchen-Gitarren der zukünftigen Sitzung nachzudenken. Das Schreiben von Kursen, Diplomen, Artikeln und Dissertationen steht vor der Tür. Und das bedeutet, dass eine Analyse von Texten zum Ausleihen, Prüfungsberichten und anderen Kopfschmerzen für Studenten und Administratoren bevorsteht. Und Hunderttausende von Menschen (ohne Witze - wir haben gerechnet!) Haben bereits eine logische Frage - wie man "Anti-Plagiat" täuscht. In unserem Fall sind fast alle Methoden der Täuschung irgendwie mit Verzerrungen des Textes verbunden. Wir haben Anti-Plagiat bereits gelehrt, Text durch Übersetzen aus dem Englischen ins Russische „verzerrt“ zu erkennen (darüber haben wir im ersten Artikel unseres Unternehmensblogs geschrieben ). Heute werden wir darüber sprechen, wie man den effektivsten, wenn auch zeitaufwändigen Weg findet, um den Text zu verzerren - die Paraphrase.




Von Russisch nach Russisch oder übrigens


Aus der Sicht eines normalen Menschen ist Paraphrase (Umformulierung) ein Umschreiben von Text in anderen (meistens in Ihren eigenen) Wörtern. Beim Paraphrasieren versuchen sie, die Bedeutung des Ausgangstextes so weit wie möglich beizubehalten, während sie dem Text selbst eine formale Ähnlichkeit mit dem Original entziehen. Im Allgemeinen befolgen alle Paraphrasen bestimmte Regeln, die am häufigsten verwendet werden, ohne sich in diesem Bericht überhaupt selbst zu realisieren (siehe zum Beispiel Alberto Barrón-Cedeño ).

Schauen wir uns die bekannte Geschichte "Mumu" genauer an [wie im Titel des Artikels, in der auch ein Hund, Menschen und ein Boot abgebildet sind :-)], was mit dem Text gemacht werden kann, damit seine Bedeutung erhalten bleibt und die Sätze anders aussehen.

1. Das erste, was mir in den Sinn kommt, ist, die meisten Wörter durch Synonyme zu ersetzen. Dies ist das Einfachste, was Sie mit Text tun können. Dies ändert nichts an der Bedeutung, aber der Text ändert sich auf den ersten Blick. Dieser Trick wird von Synonymisierungsprogrammen verwendet. Gleichzeitig ersetzen sie die Wörter, ohne den Kontext zu berücksichtigen, sondern wählen einfach ein Wort aus der Liste der Synonyme aus, weshalb der von einem solchen Programm verarbeitete Satz sehr oft ziemlich umständlich aussieht. PerIphrase bezieht sich auch auf diese Methode der Paraphrase - eine beschreibende Bezeichnung eines Objekts, die auf der Hervorhebung einiger seiner Eigenschaften, Attribute, Merkmale basiert, z. B. "blauer Planet" anstelle von "Erde", "einarmiger Bandit" anstelle von "Spielautomat" usw.
Das OriginalParaphrase
Die Dame rief sie mit liebevoller Stimme an.Die Adlige rief sie mit höflicher Stimme an.

2. Wenn Sie einige Wortarten durch andere ersetzen, können Sie auch die Struktur des Satzes ändern. Ersetzen Sie beispielsweise sehr oft ein Verb durch ein Substantiv und umgekehrt.
Das OriginalParaphrase
An einem schönen Sommertag ging die Dame mit ihren Kuschlern durch das Wohnzimmer.Die Dame ging an einem schönen Sommertag mit ihren Implantaten spazieren.

3. Eine andere einfache Möglichkeit, die Struktur des Textes zu ändern, besteht darin, Sätze einfach in einfachere zu unterteilen oder sie umgekehrt in lange zu kombinieren.
Das OriginalParaphrase
Gerasim war ein wenig erstaunt, aber er rief Mumu an, hob sie vom Boden hoch und reichte sie Stepan.Gerasim war ein wenig überrascht, aber dann rief er nach Mumu. Er hob es vom Boden auf und gab es Stepan.

4. Im Wesentlichen und sehr ursprünglich wird der Satz mittels einer passiven Stimme geändert.
Das OriginalParaphrase
Die Dame befahl, nach einem älteren Heiler zu rufen.Die ältere Pfropfung wurde die Geliebte genannt.

Dies sind nur typische Tricks. Offensichtlich ist eine gute Paraphrase sehr schwer zu erkennen. Manchmal ist dies nur für Spezialisten möglich, die über fundierte Kenntnisse im Themenbereich des Textes verfügen. Für die Aufgabe, die wir lösen, ist dies jedoch nicht erforderlich. Immerhin erfordert eine tiefgreifende Umformulierung einen erheblichen Aufwand und damit viel Zeit. Höchstwahrscheinlich ist es für einen Schüler einfacher, seine Arbeit zu schreiben, als Zeit damit zu verbringen, den Text eines anderen ernsthaft zu paraphrasieren, was trotz der Kosten bei der Überprüfung festgestellt werden kann.

Daher ist unser Ziel eine relativ einfache Paraphrase, die vom "Rückenmark" durchgeführt werden kann, d.h. ohne den großen Aufwand an geistiger Anstrengung und Zeit.

Paraphrasierung ist im Wesentlichen eine „Schwester“ der Übersetzung in eine andere Sprache. Wörter ändern sich, aber die Bedeutung bleibt. Wir können sagen, dass die Paraphrase des russischsprachigen Textes tatsächlich eine Übersetzung vom Russischen ins Russische ist.

Aus diesem Grund stellte sich heraus, dass der Paraphrase-Erkennungsalgorithmus ein „enger Verwandter“ des Algorithmus zur Erkennung von Übertragungsausleihen ist . Wie ist der Prozess der Erkennung von Kreditaufnahmen in diesem Fall:

1. Das russischsprachige geprüfte Dokument geht am Eingang ein.

2. Die Maschine übersetzt den russischen Text ins Englische.

3. Es wird nach Kandidaten für Kreditquellen aus einer indexierten Sammlung englischsprachiger russischsprachiger Dokumente gesucht.

4. Jeder gefundene Kandidat wird mit der zu überprüfenden englischen Version des Dokuments verglichen und die Definition der Grenzen der ausgeliehenen Fragmente bestimmt.

5. Grenzen von Fragmenten werden in die russische Version des zu prüfenden Dokuments übertragen. Nach Abschluss des Vorgangs wird ein Überprüfungsbericht erstellt.

Ein wichtiger Unterschied besteht darin, dass die Algorithmusparameter für andere Daten konfiguriert werden und die Besonderheiten der russischen Sprache berücksichtigen. Dabei pflegen wir eine Optimierungsstrategie mit Fokus auf Genauigkeit und Einbußen bei der Vollständigkeit. Unsere Aufgabe ist es, die Anzahl der Fehlalarme zu minimieren, auch wenn dies auf Kosten des Fehlens „einiger Ziele“ geht.

Tuning vom "High Tailor"


Paraphrase ist sicherlich ein mühsamer Weg, um Text zu verzerren. Allerdings sind nicht alle Methoden zum Umschreiben gleichermaßen nützlich, sodass der Text nicht wiederzuerkennen ist. Um den Zeitaufwand zu reduzieren, verwendet der Autor die einfachsten Methoden, um den Text zu ändern, die von den Systemalgorithmen erkannt werden und kein Ergebnis bringen. Daher beginnt der Text nach dem ersten erfolglosen Versuch, die Originalität zu überschätzen, zu „ stimmen “. So funktioniert es: Es werden verschiedene Methodenkombinationen verwendet, und nach jeder solchen Kombination wird der geänderte Text in das System geladen, um zu überprüfen, wie erfolgreich die Neuformulierung war und ob der Benutzer den geschätzten Prozentsatz an Originalität erhalten konnte. Das Ergebnis ist eine Kette von Texten, die jeweils mit unterschiedlichem Schweregrad umformuliert wurden. Das Abrufen einer solchen Kette ist eine ziemlich einfache technische Aufgabe. Unsere Untersuchung solcher „Ketten“ ergab (und bestätigte gleichzeitig die Ergebnisse desselben Alberto Barrón-Cedeño ) die häufigsten Modifikationsmethoden und lieferte reichhaltiges Material zum Erlernen neuer Algorithmen.

Lass uns ein kleines Experiment machen. Nehmen Sie einen kleinen Auszug aus Turgenevs bereits erwähnter Geschichte:
Eine Stunde nach all dem Alarm öffnete sich die Schranktür und Gerasim erschien. Er trug einen festlichen Kaftan; Er führte Mumu an einem Seil. Eroshka trat beiseite und ließ ihn passieren. Gerasim ging zum Tor. Die Jungen und alle auf dem Hof ​​beobachteten ihn schweigend mit ihren Augen. Er drehte sich nicht einmal um; Er setzte seinen Hut nur auf der Straße auf. Gavrila schickte ihm dieselbe Eroshka als Beobachter nach. Eroshka sah von weitem, dass er mit dem Hund die Taverne betrat und begann auf seine Freilassung zu warten

Versuchen wir, das "Anti-Plagiat" auszutricksen. Versuchen wir zunächst den automatischen Synonymisierer für Text. Solche Programme unterscheiden sich nicht in der besonderen intellektuellen Qualität - sie nehmen nur Wörter und ersetzen sie durch Synonyme aus dem Wörterbuch, ohne den Kontext zu berücksichtigen. Daher sehen von einem solchen Programm verarbeitete Texte oft ziemlich ungeschickt aus. Folgendes ist passiert, nachdem eines dieser Programme verarbeitet wurde:
Einige Zeit nach diesem Unbehagen lösten sich die Türen der Zwinger und Gerasim stellte sich vor. Er trug einen feierlichen Kaftan; jemand führte Mumu in einem Seil. Eroshka trat beiseite und verließ ihn, um den Weg zu gehen. Gerasim eilte zum Tor. Die Jungen und alle ersteren ausnahmslos im Hof ​​beobachteten ihn wortlos. Einschließlich drehte er sich nicht um: Er zog seinen Kopfschmuck nur auf der Straße an. Gavrila schickte ihm dieselbe Eroshka als Beobachter nach. Eroshka sah von weitem, dass jemand zusammen mit dem Hund die Taverne betreten hatte und begann auf seine Freilassung zu warten

Beachten Sie, dass in jedem Satz mindestens ein Wort ersetzt wird. Eine solch scheinbar kleine Änderung reicht aus, damit das „gewöhnliche Antiplagiat“ aufhört, die umgeschriebenen Sätze mit dem Original zu vergleichen.

Versuchen wir nun, Satzpaare des Quelltextes zu vergleichen und mit unserem Algorithmus neu zu schreiben. Hierfür verwenden wir das Kosinus-Ähnlichkeitsmaß . Wie beim Erkennungsalgorithmus für übertragbare Anleihen wird jeder Satz als Vektor mit großer Dimension dargestellt. Indem wir den Kosinus des Winkels zwischen einem Paar solcher Vektoren messen, können wir schließen, wie diese Vektoren einander "ähnlich" sind und wie ähnlich die Sätze, denen diese Vektoren entsprechen.

Folgendes ist passiert, nachdem die Sätze mit unserem Algorithmus verglichen wurden:

Zur Verdeutlichung haben wir den Kosinuswert in Form einer thermischen Skala dargestellt. Das heißt, je „heißer“ die Farbe zwischen den Satzpaaren ist, desto größer ist der Kosinuswert und desto ähnlicher werden die Sätze aus diesem Paar betrachtet. Beachten Sie, dass die kleinsten Kosinuswerte von Sätzen empfangen wurden, in denen Substitutionen für Synonyme für den Kontext sehr schlecht geeignet sind. Zum Beispiel sind "so" und "auf diese Weise" in der Tat sehr oft Synonyme, aber in diesem Zusammenhang ist ein solcher Ersatz völlig fehl am Platz.

Versuchen wir uns nun als Synonymisierer und schreiben den Text mit derselben Bedeutung neu. Im Gegensatz zum Programm sind alle unsere Änderungen grammatikalisch konsistent und passen gut in den Kontext. Folgendes haben wir:

In diesem Fall liefert der Algorithmus für die meisten Sätze eine ziemlich hohe Ähnlichkeitsbewertung. Die Sätze, die eine niedrige Bewertung erhielten, wurden einer ziemlich tiefgreifenden Transformation unterzogen: In ihnen wurde die grammatikalische Struktur stark verändert. Selbst eine Person wird nicht sofort antworten, ob diese Vorschläge ähnlich sind, und schnell durch ihre Augen laufen.

Und was tun mit all dem?


Der beste Weg, um zu verstehen, ob ein neuer Algorithmus funktioniert oder nicht, besteht natürlich darin, die Qualität seiner Arbeit an realen Daten zu untersuchen. Aus diesem Grund haben wir ein neues Paraphrase-Erkennungsmodul in die Produktion aufgenommen und echte Anforderungen durchlaufen (ohne die Ergebnisse den Benutzern noch anzuzeigen). Die Arbeiten wurden sowohl vom aktuellen Ausleihsuchalgorithmus - "wörtlicher Vergleich" - als auch vom neuen Algorithmus - "Paraphrase-Erkennung" - überprüft. Dann verglichen wir ungefähr 10 Tausend Berichte über Überprüfungen heruntergeladener Arbeiten, die von beiden Algorithmen erstellt wurden. Die Ergebnisse waren interessant.

Diese Grafik zeigt die Verteilung des Prozentsatzes der Anleihen für beide Algorithmen. Es ist ersichtlich, dass die "Erkennung von Paraphrasen" im Durchschnitt 10 Prozent mehr Anleihen enthält als der "wörtliche Vergleich".

In der zweiten Grafik ist die absolute Differenz zwischen dem Prozentsatz der Ausleihen des vorgeschlagenen Algorithmus und dem aktuellen auf der horizontalen Achse aufgetragen. Ein Unterschied größer als 0 bedeutet, dass die "Entdeckung der Paraphrase" mehr als den "wörtlichen Vergleich" ergab.


Schlussfolgerungen


  1. Paraphrase als Mittel zum Verzerren von Text wird beim Schreiben von Werken verwendet.
  2. Die Anzahl der "Positiven" ist nicht radikal gestiegen, der Algorithmus findet einen wirklich umformulierten Text;
  3. Wie bei übertragbaren Anleihen erhielt das Anti-Plagiat-System ein neues Modul - das Paraphrase-Erkennungssystem;
  4. Und natürlich ist es unser Klassiker, mit Ihrem eigenen Verstand zu kreieren!

Die Architektur des Paraphrase-Erkennungsalgorithmus und die ersten Ergebnisse der Arbeit wurden auf dem Big Scholar- Workshop zur Analyse wissenschaftlicher Daten gezeigt, der dieses Jahr im Rahmen einer der Hauptkonferenzen zum maschinellen Lernen - KDD 2018 - abgehalten wurde.

Das Paraphrase-Erkennungsmodul wird in der Produktion eingesetzt und wird bereits von Lehrern und Schülern verwendet, wenn Texte auf Ausleihe überprüft werden.

Dieser Artikel wurde gemeinsam mit Rita_Kuznetsova , Oleg_Bakhteev , Kamil Safin und chernasty geschrieben . Das Originalbild zum Erstellen der Eingabeillustration stammt von hier: demotivators.cc .

Source: https://habr.com/ru/post/de422941/


All Articles