नया स्कूल वर्ष आ गया है। छात्रों ने एक क्लास शेड्यूल प्राप्त किया और भविष्य के सत्र के
बोइंग-पार्टी-गर्ल्स-गिटार के बारे में सोचना शुरू किया। कॉर्नर, डिप्लोमा, लेख और शोध प्रबंध लिखना कोने के आसपास ही है। और इसका मतलब है कि छात्रों और प्रशासकों के लिए उधार, ऑडिट रिपोर्ट और अन्य सिरदर्द के लिए ग्रंथों का विश्लेषण आ रहा है। और सैकड़ों हजारों लोग (चुटकुले के बिना - हमने गणना की!) पहले से ही एक तार्किक सवाल है - "विरोधी साहित्यवाद" को कैसे धोखा देना है। हमारे मामले में, धोखे के लगभग सभी तरीके किसी न किसी तरह से पाठ की विकृतियों से जुड़े हैं। हमने पहले से ही अंग्रेजी से रूसी में अनुवाद करके पाठ "विकृत" का पता लगाने के लिए एंटी-प्लाजरिज़्म सिखाया है (हमने
अपने कॉर्पोरेट ब्लॉग के
पहले लेख में इसके बारे में लिखा था)। आज हम इस बारे में बात करेंगे कि सबसे प्रभावी, यद्यपि समय लेने वाली, पाठ को विकृत करने का तरीका - विरोधाभास का पता कैसे लगाया जाए।

रूसी से रूसी, या रास्ते से
एक
सामान्य सामान्य व्यक्ति के दृष्टिकोण से, paraphrase (rephrasing) अन्य (सबसे अधिक बार आपके स्वयं के) शब्दों में पाठ का पुनर्लेखन है। जब पैराफ्रासिंग करते हैं, तो वे मूल पाठ के अर्थ को जितना संभव हो सके, मूल पाठ से खुद को वंचित रखने का प्रयास करते हैं। सामान्य तौर पर, सभी पैराप्रैसेस कुछ नियमों का पालन करते हैं, जो लोग अक्सर उपयोग करते हैं, यहां तक कि इस रिपोर्ट में खुद को महसूस किए बिना (उदाहरण के लिए,
अल्बर्टो बैरोन-केडेनो )।
आइए जाने-माने कहानी "मुमू" [लेख के शीर्षक में देखें, इसमें एक कुत्ते, लोग और एक नाव :-) भी शामिल हैं, पाठ के साथ क्या किया जा सकता है ताकि इसका अर्थ संरक्षित रहे और वाक्य अलग दिखें।
1. सबसे पहली बात जो दिमाग में आती है, वह है अधिकतर शब्दों को पर्यायवाची शब्दों से बदलना। यह सबसे सरल बात है जो आप पाठ के साथ कर सकते हैं। यह अर्थ नहीं बदलता है, लेकिन पहली नज़र में पाठ बदल जाएगा। इस ट्रिक का उपयोग सिनेमाइज़र प्रोग्राम्स द्वारा किया जाता है। इसी समय, वे शब्दों को प्रतिस्थापित करते हैं, संदर्भ को ध्यान में नहीं रखते हुए, लेकिन केवल समानार्थक शब्द की सूची से एक शब्द का चयन करते हैं, इसलिए इस तरह के कार्यक्रम द्वारा संसाधित वाक्य बहुत बार अजीब लगते हैं।
पेरिफेरेज़ भी इस पद्धति को संदर्भित करता है - एक वस्तु का वर्णनात्मक पदनाम जो इसके कुछ गुणों, विशेषताओं, विशेषताओं को उजागर करने पर आधारित है, उदाहरण के लिए, "पृथ्वी" के बजाय "नीला ग्रह", "स्लॉट मशीन" के बजाय "एक-हथियारबंद डाकू", आदि।
मूल | संक्षिप्त व्याख्या |
---|
महिला ने स्नेह भरे स्वर में उसे अपने पास बुलाना शुरू कर दिया। | रईस ने उसे विनम्र स्वर में अपने पास बुलाना शुरू किया। |
2. भाषण के कुछ हिस्सों को दूसरों के साथ बदलने से भी आप वाक्य की संरचना को बदल सकते हैं। उदाहरण के लिए, बहुत बार एक क्रिया को संज्ञा के साथ बदलें और इसके विपरीत।
मूल | संक्षिप्त व्याख्या |
---|
एक ठीक गर्मी के दिन, महिला अपने स्नग्लर्स के साथ लिविंग रूम में घूमती थी। | महिला एक सुंदर गर्मियों के दिन अपने प्रत्यारोपण के साथ चली। |
3. पाठ की संरचना को बदलने का एक और सरल तरीका यह है कि वाक्यों को सरल शब्दों में विभाजित करें, या इसके विपरीत, उन्हें लंबे लोगों में संयोजित करें।
मूल | संक्षिप्त व्याख्या |
---|
गेरासिम थोड़ा चकित था, लेकिन उसने मुमु को बुलाया, उसे जमीन से उठा लिया और स्टीफन को सौंप दिया। | गेरासिम थोड़ा हैरान हुआ, लेकिन फिर उसने मुमु को बुलाया। उन्होंने इसे जमीन से उठाया और स्टीफन को सौंप दिया। |
4. अनिवार्य रूप से और बहुत मूल रूप से, वाक्य को निष्क्रिय आवाज के माध्यम से बदल दिया जाता है।
मूल | संक्षिप्त व्याख्या |
---|
महिला ने एक पुराने चिकित्सक को बुलाने का आदेश दिया। | बड़ी प्रतिमा को मालकिन कहा जाता था। |
ये सिर्फ टिपिकल ट्रिक्स हैं। जाहिर है, अच्छे विरोधाभास का पता लगाना बहुत मुश्किल है। कभी-कभी यह केवल पाठ के विषय क्षेत्र में गहन ज्ञान वाले विशेषज्ञों के लिए संभव है। लेकिन जिस कार्य के लिए हम हल कर रहे हैं, उसके लिए यह आवश्यक नहीं है। आखिरकार, गहरी रीफ़्रेशिंग के लिए काफी प्रयास की आवश्यकता होती है, और इसलिए बहुत समय लगता है। सबसे अधिक संभावना है, किसी छात्र के लिए किसी अन्य के पाठ को गंभीरता से समय बिताने की तुलना में अपना काम लिखना आसान होगा, जो कि लागत के बावजूद, सत्यापन के दौरान पता लगाया जा सकता है।
इसलिए, हमारा लक्ष्य एक अपेक्षाकृत सरल विरोधाभास है जिसे "रीढ़ की हड्डी" द्वारा निष्पादित किया जा सकता है, अर्थात। मानसिक प्रयास और समय के महान खर्च के बिना।
संक्षेप में, पैराफ़्रास्टिंग दूसरी भाषा में अनुवाद की "बहन" है। शब्द बदलते हैं, लेकिन अर्थ रहता है। हम यह कह सकते हैं कि रूसी भाषा के पाठ का भावानुवाद वास्तव में रूसी से रूसी में अनुवाद है।
यही वजह है कि
ट्रांसफ़ॉर्म डिटेक्शन एल्गोरिथ्म के "करीबी रिश्तेदार" के रूप
में पैराप्रेज़ डिटेक्शन एल्गोरिदम निकला। तो, इस मामले में उधारी का पता लगाने की प्रक्रिया कैसी है:
1. प्रवेश द्वार पर रूसी-भाषा के चेक किए गए दस्तावेज़ प्राप्त होते हैं।
2.
मशीन रूसी पाठ का अंग्रेजी में अनुवाद करती है।3.
अंग्रेजी भाषा के रूसी भाषा के दस्तावेजों के अनुक्रमित संग्रह से उधार लेने के स्रोतों के लिए उम्मीदवारों की तलाश है।
4. एक तुलना प्रत्येक उम्मीदवार से
की जाती है जो दस्तावेज़ के
अंग्रेजी संस्करण के साथ पाया जाता है, सत्यापित किया जाता है,
और उधार अंशों की सीमाओं की परिभाषा निर्धारित की जाती है।
5. टुकड़ों की सीमाओं को चेक किए जा रहे दस्तावेज़ के रूसी संस्करण में स्थानांतरित किया जाता है। प्रक्रिया पूरी होने पर, एक सत्यापन रिपोर्ट तैयार की जाती है।
एक महत्वपूर्ण अंतर यह है कि एल्गोरिथ्म पैरामीटर अन्य डेटा पर कॉन्फ़िगर किए गए हैं और रूसी भाषा की बारीकियों को ध्यान में रखते हैं। ऐसा करते हुए, हम पूर्णता का त्याग करते हुए सटीकता पर ध्यान देने के साथ एक ट्यूनिंग रणनीति बनाए रखते हैं। हमारा काम झूठे सकारात्मकता की संख्या को कम करना है, भले ही "कुछ लक्ष्यों" की कमी हो।
"उच्च दर्जी" से ट्यूनिंग
Paraphrase निश्चित रूप से पाठ को विकृत करने का एक श्रमसाध्य तरीका है। हालांकि, पुनर्लेखन की सभी विधियां समान रूप से उपयोगी नहीं हैं, यह पाठ को पहचानने योग्य बनाता है। बिताए समय को कम करने की कोशिश करते हुए, लेखक पाठ को संशोधित करने के सबसे सरल तरीकों का उपयोग करता है, जो सिस्टम एल्गोरिदम द्वारा पता लगाया जाता है और कोई परिणाम नहीं लाता है। इसलिए, मौलिकता को पछाड़ने के पहले असफल प्रयास के बाद, पाठ "
धुन " के लिए शुरू होता है। यह कैसे काम करता है: तरीकों के विभिन्न संयोजनों का उपयोग किया जाता है, और प्रत्येक ऐसे संयोजन के बाद संशोधित पाठ को सिस्टम में लोड किया जाता है यह जांचने के लिए कि रीफ़्रेशिंग कितना सफल था और क्या उपयोगकर्ता मौलिकता का पोषित प्रतिशत प्राप्त करने में सक्षम था। परिणाम ग्रंथों की एक श्रृंखला है, जिनमें से प्रत्येक को गंभीरता की बदलती डिग्री के साथ पुन: पेश किया गया है। इस तरह की श्रृंखला को पुनः प्राप्त करना एक काफी सरल इंजीनियरिंग कार्य है। इस तरह की "श्रृंखलाओं" के हमारे अध्ययन से पता चला (एक ही
अल्बर्टो बैरोन-केडेनो के परिणामों की पुष्टि करने के लिए) सबसे लगातार संशोधन के तरीके और नए एल्गोरिदम सीखने के लिए समृद्ध सामग्री प्रदान की।
चलो थोड़ा प्रयोग करते हैं। तुर्गेनेव की पहले से वर्णित कहानी से एक छोटा सा अंश लें:
इस सारे अलार्म के एक घंटे बाद, कोठरी का दरवाजा खुला और गेरासिम दिखाई दिया। वह एक उत्सव के कपड़े पहने हुए था; उन्होंने मुमु को रस्सी पर चढ़ाया। इरशका ने एक तरफ कदम रखा और उसे पास होने दिया। गुरसीम गेट पर गया। यार्ड में लड़के और हर कोई उसे चुपचाप अपनी आँखों से देखता था। उसने मुड़कर भी नहीं देखा; उसने अपनी टोपी सड़क पर ही डाल दी। गाव्रीला ने उनके बाद उसी इरशका को पर्यवेक्षक के रूप में भेजा। इरशका ने दूर से देखा कि वह कुत्ते के साथ मधुशाला में प्रवेश कर गया, और अपनी रिहाई की प्रतीक्षा करने लगा
आइए "एंटी-प्लाजिअरिज्म" को ट्रिक करने की कोशिश करें। सबसे पहले, पाठ के लिए स्वचालित पर्यायवाची का प्रयास करें। ऐसे कार्यक्रम विशेष
बुद्धि गुणवत्ता में भिन्न नहीं होते हैं - वे केवल शब्द लेते हैं और उन्हें शब्दकोष से पर्यायवाची के रूप में प्रतिस्थापित करते हैं, संदर्भ को ध्यान में नहीं रखते हैं। इसलिए, इस तरह के एक कार्यक्रम द्वारा संसाधित ग्रंथ अक्सर अनाड़ी दिखते हैं। इनमें से किसी एक कार्यक्रम को संसाधित करने के बाद यहां क्या हुआ:
इस बेचैनी के कुछ समय बाद, केनेल्स के दरवाजे हल हो गए, और गेरासिम ने अपना परिचय दिया। वह एक गंभीर दुपट्टा पहने हुए था; किसी ने रस्सी में मुमू का नेतृत्व किया। इरशका ने एक तरफ कदम बढ़ाया और उसे रास्ते पर जाने के लिए छोड़ दिया। गैरीसिम फाटक की ओर बढ़ा। लड़कों और यार्ड में अपवाद के बिना सभी पूर्व उसे एक शब्द कहे बिना बंद देखा। जिसमें वह शामिल नहीं था: उसने सड़क पर ही अपनी हेडड्रेस लगाई। गाव्रीला ने उनके बाद उसी इरशका को पर्यवेक्षक के रूप में भेजा। इरशका ने दूर से देखा कि कोई कुत्ते के साथ मिलकर सराय में घुस गया था, और उसकी रिहाई का इंतजार करने लगा
ध्यान दें कि प्रत्येक वाक्य में कम से कम एक शब्द को बदल दिया जाता है। इस तरह के एक छोटे से परिवर्तन "साधारण विरोधी साहित्यिक चोरी" के लिए मूल के साथ फिर से लिखे गए वाक्यों की तुलना को रोकने के लिए पर्याप्त है।
अब चलो स्रोत पाठ के वाक्यों की जोड़ी की तुलना करने की कोशिश करते हैं और हमारे एल्गोरिथ्म का उपयोग करके फिर से लिखा जाता है। इसके लिए, हम
समानता के
कोसाइन माप का उपयोग करेंगे।
हस्तांतरणीय उधार के लिए डिटेक्शन एल्गोरिथ्म में, प्रत्येक वाक्य को बड़े आयाम के वेक्टर के रूप में दर्शाया गया है। ऐसे वैक्टरों की एक जोड़ी के बीच के कोण के कोसाइन को मापकर, हम यह निष्कर्ष निकाल सकते हैं कि ये वैक्टर एक-दूसरे के लिए "समान" कैसे हैं, और, तदनुसार, इन वैक्टरों के साथ वाक्यों के समान कैसे।
यहाँ हमारे एल्गोरिथ्म के साथ वाक्यों की तुलना करने के बाद क्या हुआ है:

स्पष्टता के लिए, हमने तापीय पैमाने के रूप में कोसाइन मान को चित्रित किया। यही है, "हॉटटर" वाक्यों की जोड़ी के बीच का रंग, अधिक से अधिक कोसाइन मूल्य और इस जोड़ी से वाक्यों के समान अधिक माना जाता है। ध्यान दें कि सबसे छोटे कोसाइन मान वाक्यों द्वारा प्राप्त किए गए थे जिनमें पर्यायवाची शब्दों के प्रतिस्थापन के संदर्भ में बहुत खराब हैं। उदाहरण के लिए, "ऐसा" और "इस तरह से" वास्तव में बहुत समानार्थी शब्द हैं, हालांकि, इस संदर्भ में, ऐसा प्रतिस्थापन पूरी तरह से जगह से बाहर है।
अब हम पर्यायवाची की भूमिका में खुद को आजमाते हैं और उसी अर्थ के साथ पाठ को फिर से लिखते हैं। लेकिन कार्यक्रम के विपरीत, हमारे सभी परिवर्तन व्याकरणिक रूप से सुसंगत हैं और संदर्भ में अच्छी तरह से फिट हैं। यहाँ हमें क्या मिला है:

और इस मामले में, एल्गोरिथ्म अधिकांश वाक्यों के लिए समानता की काफी उच्च रेटिंग देता है। जिन वाक्यों को कम रेटिंग मिली, वे काफी गहरा परिवर्तन के अधीन थे: उनमें व्याकरणिक संरचना को बहुत बदल दिया गया था। यहां तक कि एक व्यक्ति तुरंत जवाब नहीं देगा कि क्या ये प्रस्ताव समान हैं, जल्दी से उनकी आंखों के माध्यम से चल रहे हैं।
और अब इस सब का क्या किया जाए?
स्वाभाविक रूप से, यह समझने का सबसे अच्छा तरीका है कि एक नया एल्गोरिथ्म काम करता है या नहीं, वास्तविक डेटा पर इसके काम की गुणवत्ता की जांच करना है या नहीं। इसलिए, हम उत्पादन में एक नया पैराफेयर डिटेक्शन मॉड्यूल डालते हैं और इसके माध्यम से वास्तविक अनुरोध चलाते हैं (जबकि अभी तक उपयोगकर्ताओं को परिणाम नहीं दिखा रहे हैं)। कार्यों को वर्तमान उधार खोज एल्गोरिथ्म - "शब्दशः तुलना", और नए एल्गोरिथ्म - "पैराफ़्रेस डिटेक्शन" दोनों द्वारा जाँच की गई थी। तब हमने दोनों एल्गोरिदम द्वारा बनाए गए डाउनलोड किए गए कार्यों के बारे में 10 हजार रिपोर्टों की तुलना की। परिणाम दिलचस्प थे।

यह ग्राफ दोनों एल्गोरिदम के लिए उधार के प्रतिशत के वितरण को दर्शाता है। यह देखा जा सकता है कि "शब्दशः तुलना" की तुलना में औसतन 10 प्रतिशत अधिक उधार।
दूसरे ग्राफ में, प्रस्तावित एल्गोरिथ्म और वर्तमान एक के उधार के प्रतिशत के बीच पूर्ण अंतर क्षैतिज अक्ष पर प्लॉट किया गया है। 0 से अधिक के अंतर का अर्थ है कि "पैराफेरेस की खोज" "वर्बटीम तुलना" से अधिक पाया गया।

निष्कर्ष
- पाठ को विकृत करने के एक तरीके के रूप में पैराफ्रेज़ का उपयोग वास्तव में काम करते समय किया जाता है;
- "सकारात्मक" की संख्या मौलिक रूप से नहीं बढ़ी है, एल्गोरिथ्म वास्तव में रीफ़्रेश किए गए पाठ को ढूंढता है;
- जैसा कि हस्तांतरणीय उधार के मामले में, एंटी-प्लाजियरिज़्म सिस्टम को एक नया मॉड्यूल प्राप्त हुआ - पैराफ्रेज डिटेक्शन सिस्टम;
- और निश्चित रूप से, हमारे क्लासिक को अपने मन से बनाना है!
पैराफेरेस डिटेक्शन एल्गोरिदम की वास्तुकला और काम के पहले परिणामों को वैज्ञानिक डेटा के विश्लेषण पर
बिग स्कॉलर कार्यशाला में दिखाया गया था, जिसे इस वर्ष मशीन लर्निंग पर मुख्य सम्मेलनों में से एक
केडीडी 2018 के रूप में आयोजित किया गया था।
पैराफ्रेज़ डिटेक्शन मॉड्यूल उत्पादन पर तैनात किया गया है और पहले से ही शिक्षकों और छात्रों द्वारा उधार लेने के लिए ग्रंथों की जांच करते समय उपयोग किया जाता है।
यह लेख
Rita_Kuznetsova ,
Oracle_Bakhteev , Kamil Safin और
chernasty के साथ सह-लिखा गया था। इनपुट चित्रण बनाने के लिए मूल छवि यहां से ली गई थी:
demotivators.cc ।