العام الدراسي الماضي ، أبريل. يبدأ الطلاب في كثير من الأحيان في حضور الفكر بأنه سيكون من الضروري القيام أطروحة. إن القيام بذلك يعني ، بمعنى ، معرفة كيفية طهي الطعام بسرعة بما يتوافق مع الموضوع الذي يبدو أنه وافق عليه المشرف. ونعم ، أنت بحاجة إلى 80 صفحة على الأقل ، يجب عليك أيضًا الامتثال لجميع أنواع GOSTs ... من الواضح ، ليس لديك الوقت لكتابة الكثير من النصوص المتصلة بنفسك (ويمكنهم حتى الدخول في جوهر العمل ، حسناً ،!). من الواضح - يجب أن تأخذ العمل النهائي الذي تم الدفاع عنه بالفعل وجودة العمل واختباره واعتماده. الوضع مألوف لنا جميعًا. والسؤال الوحيد الذي لا يزال مفتوحًا هو كيفية التأكد من اختبار العمل من أجل الاقتراض ... يؤدي البحث على الإنترنت والتواصل مع الزملاء في حالة سيئة إلى توجيه الطالب إلى الخيارات التالية لحل المشكلة:
اكتب العمل بنفسك- لإعادة صياغة النص (باهظ الثمن وصعب) ؛
- خداع النظام مع "الحلول التقنية".

دعونا نرى ما هي الجولات الفنية ، وكيف نلحق بها ولماذا استخدامها ليست فكرة جيدة ...
يمكن أن تساعد إعادة الصياغة في تمرير نص شخص آخر كنصك إذا تمت بشكل جيد. ومع ذلك ، فإن إعادة الصياغة عالية الجودة في حد ذاتها هي عملية شاقة للغاية لا يملك الطالب على الأرجح الوقت والمال فيها. ستؤدي الطرق البسيطة لإعادة الصياغة (على سبيل المثال ، الترادف) إلى الحصول على نتيجة لن يتم اكتشافها فقط من خلال نظام مكافحة الانتحال ، ولكن أيضًا ، على الأرجح ، سوف يروق المشرف ولجنة إصدار الشهادات.
وبالتالي ، فإننا نتوصل إلى أكثر الوسائل إبداعًا وشعبية بين الطلاب - الحلول التقنية - تحويلات المستندات ، والتي ، دون تغيير عرض المستند الأصلي ، تغير النص المستخرج بواسطة نظام التحقق .
من وجهة نظر العمل مع الجولات الفنية (فيما يلي سوف نطلق عليها ببساطة "جولات") ، فإن نظام مكافحة الأكياس له مهمتان:
- الكشف عن تجاوزات المحتملة وإخطار المستخدم عنها ؛
- مسح النص المحدد من عمليات الزحف.
يمكن وصف المخطط العام لجولات المعالجة كما يلي:
- الكشف عن الطرق الالتفافية وحفظ المعلومات عنها ؛
- مسح النص المستخرج من عمليات الزحف ؛
- تعريف "الشكوك" في المستند بناءً على التحويلات ؛
- عرض معلومات حول الشكوك للمستخدم ، وعرض الطرق الالتفافية التي تم العثور عليها.
هذه هي الطريقة التي تبدو بها في الممارسة.
المستند بتنسيق docx:

التحقق من مستند بدون وظيفة الكشف عن الزحف:

يحتوي المستند على مائة بالمائة الأصالة.
نحن نتحقق من المستند مع تشغيل وظيفة الاكتشاف الالتفافية ونرى أن الأصالة تنخفض إلى 0.

بالإضافة إلى ذلك ، يقوم النظام بتمييز المستند على أنه "مشبوه" ويوضح للمستخدم مكان تواجده وتجاوزه:

نظرًا لأن الغرض من الحلول التقنية هو زيادة أصالة المستند ، فمن المثير للاهتمام تصنيفها وفقًا لكيفية تأثيرها في التحقق من المستند. استنادًا إلى حقيقة أن العنصر الرئيسي في التحقق من مستند للاقتراض هو كلمات المستند ، يمكن تقسيم الحلول إلى الأنواع التالية وفقًا لتأثيرها على كلمات الوثيقة المستخرجة:
- تغيير الكلمة (الكلمة في النص المستخرج تختلف عن الكلمة المعروضة في المستند المصدر) ؛
- إضافة كلمة (الكلمة غير مرئية في المستند المصدر ، تظهر في النص المستخرج من المستند) ؛
- حذف كلمة (الكلمة مرئية في المستند المصدر ، وليس في النص المستخرج من المستند) ؛
- كسر الكلمة (في المستند الأصلي يتم عرض الكلمة بشكل طبيعي ، وفي النص المعالج يتم تقسيمها إلى جزأين أو أكثر) ؛
- دمج الكلمات (يتم عرض عدة كلمات في المستند المصدر ، يتم دمجها في كلمة واحدة في النص المستخرج).
دعونا نرى ما الحلول التي نواجهها. لنبدأ من الأشياء البسيطة ونتجه نحو أكثرها إثارة للاهتمام.
زحف النص
لا يتم بأي شكل من الأشكال ربط هذا النوع من الحروف بتنسيق المستند ؛ بل يغيرون قيمة السلسلة للكلمات بحيث يظلوا متطابقين مع الكلمات الأصلية.
حروف متشابهة
كان أحد الحلول الأولى التي سجلناها هو استبدال الحروف بأحرف مكتوبة - وهي أحرف تشبه بصريًا الأحرف الأصلية ولديها معان مختلفة. تم استخدام Omoglyphia منذ الأيام الأولى لوجود نظام مكافحة الانتحال ، وعلى الرغم من أننا كنا نلاحظه لفترة طويلة ، فإننا لا نزال نواجه طرقًا مماثلة في العمل الطلابي.

يسهل العثور على أوميغليفس وتنظيفه عندما تكون لغة كل كلمة معروفة. يمكننا تحديد لغة كل كلمة في النص بدقة ، حتى عندما يحتوي النص على عدة لغات وكمية كبيرة من "القمامة" (الأشكال المتجانسة والأحرف الإضافية الأخرى). كيف هو موضوع لمقال منفصل. امتلاك لغة الكلمة وقائمة بالتماثلات الممكنة للغة ، نقوم باستعادة حروف اللغة الأصلية وحفظ المعلومات حول التماثلات الموجودة.
شخصيات غير قابلة للطباعة
هناك طريقة أخرى لتغيير قيمة سلسلة الكلمات دون تغيير ملحوظ في عرضها وهي استخدام أحرف Unicode غير المرئية أو التي تكون مرئية بشكل ضعيف. يؤدي إدخال مثل هذه الأحرف في كلمة إلى تغيير معنى السلسلة للكلمة ، بينما لا يغير عملياً عرضها.
العديد من هذه الأحرف موجودة في فئات Unicode من "Other، Control" و "Mark، Nonspacing . "
يقوم النظام ببساطة بحذف هذه الأحرف ، وعندما يكون هناك عدد كبير منها ، يقوم بإخطار المستخدم بالارتياب في المستند ، ويعرض أحرفًا غير قابلة للطباعة في التقرير.
حلول قوات الدفاع الشعبي
كما قلنا سابقًا ، فإن التنسيق الأساسي لمعالجة المستندات هو pdf. نقوم بتحويل جميع أنواع المستندات الأخرى إلى pdf ، بحيث أصبح المنطق الأساسي لمعالجة المستندات قد أصبح موحداً لجميع التنسيقات المدعومة. وبالتالي ، فإن الحلول التي يمكن تنفيذها في مستندات pdf تهمنا بشكل خاص.
نص صغير
الحل البديل الذي يتبادر إلى الذهن هو جعل شيء صغير وغير مرئي. النص الذي تم الحصول عليه على هذا النحو غير مرئي عند عرض المستند الأصلي ، ولكن يتم استرجاعه بواسطة النظام. التنفيذ بسيط للغاية - قم بتعيين الحد الأدنى لحجم الخط للنص ، وقم بتغيير لون النص. يعد التقاط تجاوزات هذا النوع بنفس السهولة - فقط تحقق من حجم خط النص والأبعاد الهندسية للكلمات الفردية. نظرًا لصغر حجمها ، غالبًا ما يضيف الطلاب فقرات كاملة من هذا النص المخفي إلى الصفحة:

عرض محاولة الزحف المكتشفة:

تغيير لون النص إلى الخلفية
على الرغم من أن هذه الطريقة تستخدم غالبًا مع الطريقة السابقة ، إلا أن استخدامها المستقل أكثر إثارة للاهتمام. الحقيقة هي أنه بالنسبة لنا لاكتشاف وتجاوز المسار ، يكفي تحديد أن هناك معلمة واحدة على الأقل للكلمة / الرمز لها قيمة "مشبوهة". وإذا كان تعريف الأحجام الصغيرة للكلمة هو تافه ، فإن تعريف النص الذي يتطابق لونه مع الخلفية هو إجراء أكثر تعقيدًا.
الكشف عن نص غير مرئي معقد بسبب الظروف التالية:
- ليس من الممكن دائمًا الحصول على لون حرف معين من pdf ؛
- قد لا تكون خلفية الكلمة بيضاء. علاوة على ذلك ، قد تكون الكلمة على خلفية الصورة ؛
- الكلمات والرموز يمكن أن تصطدم ببعضها البعض.
للتخلص من الصعوبات الأولى والثانية ، يتم تحديد "إخفاء" النص من خلال تحليل الصورة المقدمة لصفحة الوثيقة:
- تحديد مساحة الصفحة التي تحتوي على الكلمة ؛
- نحسب تباين المنطقة التي تم الحصول عليها. إذا كان التباين أقل من حد معين - في المنطقة التي تم تحليلها لدينا لون موحد ، لا توجد رسائل مرئية. لذلك ، هناك محاولة لتجاوز النظام.
الكلمات والرموز مخفية واحدة تلو الأخرى
لا يمكن اكتشاف الأحرف غير المرئية عن طريق تحليل المنطقة التي توجد فيها هذه الأحرف إذا كانت مخفية وراء أحرف "مرئية" أخرى. لذلك ، لاكتشاف مثل هذه الأحرف "المخفية" ، لدينا إجراء منفصل يحلل تقاطع مساحات الرموز ويميز تلك الأحرف التي يتداخل فيها الآخرون إلى حد كبير.

تم اكتشاف تجاوز:

النص كصور
ماذا سيحدث إذا أخذنا واستبدلنا جزءًا من النص بصور تحتوي على هذا النص؟ بدقة عالية ، سيبدو كل شيء كما لو لم يتغير شيء في المستند ، ولكن عندما تستخرج طبقة نصية ، بطبيعة الحال ، لن يتم استخراج الكلمات من الصور. لإغلاق هذه الفجوة ، نستخدم التعرف الضوئي على النص.
الحلول باستخدام docx لتحويل ميزات pdf
تحويل المستندات إلى ملفات pdf ليس مهمة تافهة. يمكنك أن تقرأ كيف اخترنا الحل الأنسب لنا هنا . لسوء الحظ ، حتى أفضل الخيارات التي قمنا بتحليلها بشكل غير صحيح تحول المستندات إلى ملف pdf. يتم استخدام بعض "ميزات" التحويل بنشاط عند محاولة تجاوز النظام.
صيغة
يتم "فقدان" الصيغ وعدد من الكائنات الأخرى التي تحتوي على نص بعد التحويل إلى pdf. وبالتالي ، يمكنك محاولة إخفاء الفقرة بأكملها من النص ، أو ، على سبيل المثال ، كل كلمة ثانية في النص:

عند التحويل إلى pdf ، نحصل على النتيجة التالية:

لاكتشاف وتنظيف هذا وغيره من الحلول ، شحذها بواسطة ميزات تحويل docx إلى pdf ، نقوم بتحليل وتنظيف ملف docx المصدر. على وجه الخصوص ، إذا تم العثور على عدد كبير من الصيغ في مستند ، فإننا نستبدلها بنص عادي ، والذي سيتم حفظه عند تحويل المستند إلى pdf. علاوة على ذلك ، فإننا نتذكر مواضع الصيغ التي قمنا بمعالجتها ، وإذا لزم الأمر ، نعلم المستخدم بالارتياب في المستند الجاري فحصه ونسلط الضوء على النص الذي استعادناه من الصيغ.
مقياس ، تباعد intersymbol / خط صغير
عند التحويل إلى pdf ، لا يتم أخذ عدد من خصائص النص في الاعتبار: النطاق ، intersymbol وتباعد الأسطر. يتيح لك ذلك إضافة نص غير مرئي في المستند المصدر (على سبيل المثال ، يحتوي على نطاق صغير جدًا) ، والذي يصبح بتنسيق pdf نصًا عاديًا لا يظهر. تجاوز التنفيذ (docx):

نتيجة التحويل إلى pdf (قمنا بتغيير اللون بأنفسنا):

الطريقة الوحيدة لالتقاط هذا النص هي العثور عليه في docx وحفظ المعلومات عنه. إذا وجدنا الكثير من هذا النص في المستند ، فإننا نحتفظ بالوثيقة المشبوهة ونظهر للمستخدم حيث وجدنا نصًا به سمات مشبوهة في المستند.
تقسيم الكلمة إلى قطع
هناك حالة خاصة مثيرة للاهتمام لتطبيق الخصائص الموضحة في الفقرة السابقة تتمثل في إضافة مسافة إلى الكلمة وإخفائها. في المستند الأصلي ، ستبدو الكلمة عادية ، مدمجة ، وبعد تحويل المستند إلى pdf ، سيتم تقسيمها إلى جزأين ، حيث تصبح المساحة بالحجم الكامل. نحن نلاحظ خدعة مماثلة مع آذاننا بالطريقة نفسها كما في الفقرة السابقة. تجاوز التنفيذ (docx):

نتيجة التحويل إلى pdf:

عرض الالتفافية الالتفافية:

تحت شجرة الكستناء القديمة ، في ضوء النهار ، خنتك وأنت لي ...
تحدثنا عن الأساسية ، ولكن بأي حال من الأحوال جميع الطرق التقنية لتنفيذ الحلول. بالطبع ، من غير المحتمل أن نكون قادرين على جعل الدفاع مطلقًا. ومع ذلك ، فإننا نعمل باستمرار على تحسين نظامنا ، وترك فرص أقل وأقل "للخداع". في الجلسة ، نحاول إغلاق الثغرات التي يمكن اكتشافها بسرعة خاصة - غالبًا من اللحظة التي يتم فيها اكتشاف فجوة حتى يتم إغلاقها في منطقة الإنتاج ، تمر بضعة أيام فقط. هذا هو السبب في أنه من المضحك بعض الشيء ، وفي الوقت نفسه ، من المحزن أن تقرأ "الوعود" الإعلانية للشركات التي هي على استعداد لمساعدة الطلاب على زيادة أصالة أعمالهم وتقديم ضمان لعملهم ، الذي يصل أحيانًا إلى 30 يومًا. طالب ، سوف يخونك! في أفضل الأحوال ، يمكن لهذا "الضمان" أن يعيد تكلفة خدمات شركة الزاحف إليك ، لكنه لن يساعد بأي شكل من الأشكال في فشل الدبلوم وإمكانية الطرد من الجامعة ...
خلق مع عقلك الخاص!