وصل العام الدراسي الجديد. تلقى الطلاب جدولًا زمنيًا للصفوف وبدأوا يفكرون في
احتفالات الخمر للفتيات والقيثارات في الجلسة المستقبلية. كتابة الدورات الدراسية والدبلومات والمقالات والأطروحات قاب قوسين أو أدنى. وهذا يعني أن تحليل نصوص الاقتراض ، وتدقيق التقارير ، والصداع الآخر للطلاب والإداريين قادم. ومئات الآلاف من الناس (بدون نكات - حسبنا!) لديهم بالفعل سؤال منطقي - كيفية خداع "مكافحة الانتحال". في حالتنا ، ترتبط جميع طرق الخداع تقريبًا بطريقة ما بتشوهات النص. لقد علمنا بالفعل مكافحة الانتحال لكشف النص "المشوه" من خلال الترجمة من الإنجليزية إلى الروسية (كتبنا عن هذا في
المقالة الأولى من مدونة شركتنا ). سنتحدث اليوم عن كيفية اكتشاف الطريقة الأكثر فعالية ، وإن كانت تستغرق وقتًا طويلاً ، لتشويه النص - إعادة الصياغة.

من الروسية إلى الروسية ، أو بالمناسبة
من وجهة نظر شخص عادي عادي ، إعادة الصياغة (إعادة صياغة) هي إعادة كتابة نص في كلمات أخرى (غالبًا في كلماتك الخاصة). عند إعادة الصياغة ، يحاولون الحفاظ على معنى النص المصدر قدر الإمكان ، مع حرمان النص نفسه من التشابه الرسمي مع النص الأصلي. بشكل عام ، تخضع جميع العبارات المعاد صياغتها لقواعد معينة يستخدمها الناس في أغلب الأحيان ، حتى دون إدراك أنفسهم في هذا التقرير (انظر ، على سبيل المثال ،
ألبرتو بارون سيدينو ).
دعونا نلقي نظرة فاحصة على القصة المعروفة "Mumu" [كما هو الحال في عنوان المقالة ، كما أنها تحتوي على كلب وأشخاص وقارب :-)] ، ما يمكن عمله بالنص بحيث يتم الحفاظ على معناه وتبدو الجمل مختلفة.
1. أول ما يتبادر إلى الذهن هو استبدال معظم الكلمات بمرادفات. هذا هو أبسط شيء يمكنك القيام به مع النص. هذا لا يغير المعنى ، لكن النص للوهلة الأولى سيتغير. يتم استخدام هذه الحيلة من قبل برامج مرادف. في الوقت نفسه ، يستبدلون الكلمات ، دون مراعاة السياق ، ولكن ببساطة اختيار كلمة من قائمة المرادفات ، وبالتالي فإن الجملة التي يعالجها مثل هذا البرنامج تبدو في الغالب محرجة إلى حد ما. يشير
PerIphrase أيضًا إلى طريقة إعادة الصياغة هذه - تسمية وصفية لكائن بناءً على إبراز بعض صفاته وسماته وميزاته ، على سبيل المثال ، "الكوكب الأزرق" بدلاً من "الأرض" و "قطاع الطرق أحادي الذراع" بدلاً من "آلة القمار" وما إلى ذلك.
الأصل | إعادة صياغة |
---|
بدأت السيدة في الاتصال بها بصوت حنون. | بدأت المرأة النبيلة في الاتصال بها بصوت مهذب. |
2. إن استبدال بعض أجزاء الكلام بأجزاء أخرى يسمح لك أيضًا بتغيير بنية الجملة. على سبيل المثال ، غالبًا ما يستبدل الفعل بالاسم والعكس صحيح.
الأصل | إعادة صياغة |
---|
في أحد الأيام الصيفية الجميلة ، تجولت السيدة مع عشاقها حول غرفة المعيشة. | مشيت السيدة مع غرساتها في يوم صيفي جميل. |
3. طريقة أخرى بسيطة لتغيير بنية النص هي ببساطة تقسيم الجمل إلى أبسط ، أو العكس ، دمجها في جمل طويلة.
الأصل | إعادة صياغة |
---|
كان Gerasim مندهشًا قليلاً ، لكنه اتصل بـ Mumu ، ورفعها من الأرض وسلمها إلى Stepan. | كان Gerasim مندهشًا بعض الشيء ، ولكن بعد ذلك دعا إلى Mumu. التقطه من الأرض وسلمه إلى ستيبان. |
4. في الأساس وبشكل أساسي جدا ، يتم تغيير الجملة عن طريق صوت سلبي.
الأصل | إعادة صياغة |
---|
أمرت السيدة بالدعوة إلى معالج أقدم. | كان يسمى النقش الأكبر عشيقة. |
هذه مجرد حيل نموذجية. من الواضح أن إعادة صياغة جيدة يصعب اكتشافها. في بعض الأحيان يكون هذا ممكنًا فقط للمتخصصين الذين لديهم معرفة عميقة في مجال موضوع النص. ولكن بالنسبة للمهمة التي نقوم بحلها ، فهذا غير مطلوب. بعد كل شيء ، تتطلب إعادة الصياغة العميقة جهدًا كبيرًا ، وبالتالي الكثير من الوقت. على الأرجح ، سيكون من الأسهل على الطالب كتابة عمله من قضاء الوقت بجدية في إعادة صياغة نص شخص آخر ، والذي ، على الرغم من التكاليف ، يمكن اكتشافه أثناء التحقق.
لذلك ، فإن هدفنا هو إعادة صياغة بسيطة نسبيًا يمكن إجراؤها بواسطة "النخاع الشوكي" ، أي بدون نفقات كبيرة من الجهد العقلي والوقت.
من حيث الجوهر ، فإن إعادة الصياغة هي "أخت" للترجمة إلى لغة أخرى. تتغير الكلمات ، ولكن يبقى المعنى. يمكننا القول أن إعادة صياغة نص اللغة الروسية هي في الواقع ترجمة من الروسية إلى الروسية.
هذا هو السبب في أن خوارزمية الكشف عن إعادة صياغة أصبحت "قريبة قريبة" من
خوارزمية كشف اقتراض النقل . إذن ، كيف يتم الكشف عن الاقتراضات في هذه الحالة:
1. يتم استلام الوثيقة التي تم فحصها باللغة الروسية عند المدخل.
2.
الجهاز يترجم النص الروسي إلى اللغة الإنجليزية.3. يوجد بحث عن مرشحين لمصادر الاقتراض من مجموعة مفهرسة للوثائق باللغة
الإنجليزية باللغة الروسية.
4. تم إجراء مقارنة بين كل مرشح تم العثور عليه مع
النسخة الإنجليزية من الوثيقة التي يتم التحقق منها ، وتحديد حدود الأجزاء المستعارة.
5. يتم نقل حدود الأجزاء إلى النسخة الروسية من الوثيقة الجاري فحصها. عند الانتهاء من العملية ، يتم إنشاء تقرير التحقق.
هناك اختلاف مهم هو أن معلمات الخوارزمية يتم تكوينها على بيانات أخرى ومع مراعاة خصوصيات اللغة الروسية. من خلال القيام بذلك ، نحافظ على استراتيجية ضبط مع التركيز على الدقة ، والتضحية بالاكتمال. مهمتنا هي تقليل عدد الإيجابيات الخاطئة ، حتى لو كان على حساب "بعض الأهداف" المفقودة.
ضبط من "خياط عالية"
إعادة الصياغة هي بالتأكيد طريقة شاقة لتشويه النص. ومع ذلك ، ليست كل طرق إعادة الكتابة مفيدة بنفس القدر تجعل النص لا يمكن التعرف عليه. في محاولة لتقليل الوقت المستغرق ، يستخدم المؤلف أبسط الطرق لتعديل النص ، والتي يتم اكتشافها بواسطة خوارزميات النظام ولا تحقق أي نتيجة. لذلك ، بعد أول محاولة فاشلة للإفراط في تقدير الأصالة ، يبدأ النص في "
ضبط ". كيف يعمل: يتم استخدام مجموعات مختلفة من الأساليب ، وبعد كل تركيبة ، يتم تحميل النص المعدل في النظام للتحقق من مدى نجاح إعادة الصياغة وما إذا كان المستخدم قادرًا على الحصول على النسبة المئوية العزيزة من الأصالة. والنتيجة هي سلسلة من النصوص ، تم إعادة صياغة كل منها بدرجات متفاوتة من الشدة. إن استرداد مثل هذه السلسلة مهمة هندسية بسيطة إلى حد ما. كشفت دراستنا لمثل هذه "السلاسل" (في نفس الوقت تؤكد نتائج نفس
ألبرتو بارون سيدينو ) طرق التعديل الأكثر شيوعًا وقدمت مادة غنية لتعلم الخوارزميات الجديدة.
لنقم بتجربة صغيرة. خذ مقتطفًا صغيرًا من قصة تورغنيف المذكورة بالفعل:
بعد ساعة من كل هذا الإنذار ، فتح باب الخزانة وظهر جراسيم. كان يرتدي قفطان احتفالي. قاد مومو على حبل. تنحى Eroshka جانبا وتركه يمر. ذهب Gerasim إلى البوابة. شاهده الصبية والجميع في الفناء بأعينهم بصمت. حتى أنه لم يستدير ؛ ارتدى قبعته فقط في الشارع. أرسل Gavrila بعده نفس Eroshka كمراقب. رأى إروشكا من بعيد أنه دخل الحانة مع الكلب ، وبدأ في انتظار إطلاق سراحه
دعونا نحاول خداع "مكافحة الانتحال". أولاً ، دعنا نجرب المترادف التلقائي للنص. لا تختلف هذه البرامج في جودة
الفكر الخاصة - فهي تأخذ الكلمات وتستبدلها بمرادفات من القاموس ، دون مراعاة السياق. لذلك ، غالبًا ما تبدو النصوص التي يعالجها هذا البرنامج خرقاء إلى حد ما. إليك ما حدث بعد معالجة أحد هذه البرامج:
بعد فترة من عدم الارتياح ، حلت أبواب بيوت الكلاب ، وقدم Gerasim نفسه. كان يرتدي قفطاناً رسمياً. قاد شخص مومو في حبل. تنحى إروشكا جانبا وتركه ليذهب في الطريق. هرع جراسيم إلى البوابة. راقبه الأولاد وجميع السابقون دون استثناء في الفناء دون أن ينبس ببنت شفة. بما في ذلك أنه لم يستدير: لقد وضع غطاء رأسه في الشارع فقط. أرسل Gavrila بعده نفس Eroshka كمراقب. رأى إروشكا من بعيد أن أحدهم دخل الحانة مع الكلب ، وبدأ في انتظار إطلاق سراحه
لاحظ أنه يتم استبدال كلمة واحدة على الأقل في كل جملة. إن مثل هذا التغيير الصغير الذي يبدو كافياً بالنسبة لـ "مناهضة الانتحال العادية" للتوقف عن مقارنة الجمل التي أعيد كتابتها بالأصل.
الآن دعونا نحاول مقارنة أزواج جمل النص المصدر وإعادة كتابتها باستخدام الخوارزمية. لهذا ، سنستخدم
مقياس جيب التماثل للتشابه . كما هو الحال في خوارزمية
الكشف عن القروض القابلة للتحويل ، يتم تمثيل كل جملة كمتجه ذي أبعاد كبيرة. من خلال قياس جيب التمام للزاوية بين زوج من هذه المتجهات ، يمكننا أن نستنتج كيف تكون هذه المتجهات "متشابهة" مع بعضها البعض ، وبالتالي ، مدى تشابه الجمل التي تتوافق معها هذه المتجهات.
إليك ما حدث بعد مقارنة الجمل مع الخوارزمية:

من أجل الوضوح ، قمنا بتصوير قيمة جيب التمام في شكل مقياس حراري. أي أنه كلما زاد "سخونة" اللون بين زوج الجمل ، زادت قيمة جيب التمام وكلما تشابهت الجمل من هذا الزوج. لاحظ أن أصغر قيم جيب التمام تم استلامها من خلال الجمل التي تكون فيها بدائل المرادفات مناسبة جدًا للسياق. على سبيل المثال ، "so" و "بهذه الطريقة" هما في الواقع مترادفان في كثير من الأحيان ، ومع ذلك ، في هذا السياق ، فإن مثل هذا الاستبدال ليس في مكانه تمامًا.
الآن دعونا نجرب أنفسنا في دور المرادفات ونعيد كتابة النص بنفس المعنى. ولكن على عكس البرنامج ، فإن جميع تغييراتنا متسقة نحويًا وتتناسب جيدًا مع السياق. إليك ما حصلنا عليه:

وفي هذه الحالة ، تعطي الخوارزمية درجة عالية من التشابه لمعظم الجمل. خضعت الجمل ، التي حصلت على تصنيف منخفض ، إلى تحول عميق إلى حد ما: حيث تغيرت البنية النحوية فيها بشكل كبير. حتى الشخص لن يجيب على الفور عما إذا كانت هذه المقترحات متشابهة ، وسرعان ما تمر عبر أعينهم.
والآن ماذا تفعل بكل هذا؟
بطبيعة الحال ، فإن أفضل طريقة لفهم ما إذا كانت الخوارزمية الجديدة تعمل أم لا هي التحقق من جودة عملها على البيانات الحقيقية. لذلك ، وضعنا وحدة جديدة للكشف عن إعادة صياغة في الإنتاج وأجرينا طلبات حقيقية من خلالها (بينما لم نعرض النتائج للمستخدمين بعد). تم التحقق من الأعمال من خلال خوارزمية بحث الاقتراض الحالية - "مقارنة حرفية" ، ومن خلال الخوارزمية الجديدة - "الكشف عن إعادة صياغة". ثم قارنا حوالي 10 آلاف تقرير عن عمليات التحقق من الأعمال التي تم تنزيلها التي أنشأتها كلتا الخوارزميات. كانت النتائج مثيرة للاهتمام.

يوضح هذا الرسم البياني توزيع نسبة الاقتراض لكل من الخوارزميات. ويمكن ملاحظة أن "الكشف عن إعادة صياغة" في المتوسط يزيد بنسبة 10 في المائة عن الاقتراضات عن "مقارنة حرفية".
في الرسم البياني الثاني ، يتم رسم الفرق المطلق بين نسبة الاقتراض من الخوارزمية المقترحة والنموذج الحالي على المحور الأفقي. يعني الاختلاف الأكبر من 0 أن "اكتشاف إعادة الصياغة" وجد أكثر من "مقارنة حرفية".

الاستنتاجات
- إعادة الصياغة كوسيلة لتشويه النص تستخدم في الواقع عند كتابة الأعمال ؛
- لم يزد عدد "الإيجابيات" بشكل جذري ، حيث وجدت الخوارزمية نصًا تمت إعادة صياغته حقًا ؛
- كما في حالة القروض القابلة للتحويل ، تلقى نظام مكافحة الانتحال وحدة جديدة - نظام الكشف عن إعادة صياغة ؛
- وبالطبع ، فالكلاسيكية الخاصة بنا هي إنشاء عقلك!
تم عرض بنية خوارزمية الكشف عن إعادة صياغة والنتائج الأولى للعمل في ورشة عمل
Big Scholar حول تحليل البيانات العلمية ، التي عقدت هذا العام كجزء من أحد المؤتمرات الرئيسية حول التعلم الآلي -
KDD 2018 .
يتم نشر
وحدة الكشف عن إعادة الصياغة عند الإنتاج ويستخدمها بالفعل المعلمون والطلاب عند التحقق من النصوص لاقتراضها.
تمت كتابة هذا المقال بالاشتراك مع
Rita_Kuznetsova و
Oleg_Bakhteev و Kamil Safin و
chernasty . تم التقاط الصورة الأصلية لإنشاء الرسم التوضيحي للإدخال من هنا:
demotivators.cc .