“三只小船,贫穷和狗儿”,或Anti窃如何寻求释义

新学年到了。 学生收到了课程表,并开始考虑未来课程的酒鬼派对女孩吉他 。 编写课程作业,文凭,文章和学位论文指日可待。 这意味着对借用文本,审计报告以及其他令学生和管理人员头痛的分析即将到来。 成千上万的人(没有开玩笑-我们算过账!)已经有一个逻辑上的问题-如何欺骗“反抄袭”。 在我们的案例中,几乎所有的欺骗方法都以某种方式与文本的变形有关。 我们已经教过Anti-Plagiarism通过将英语翻译成俄语来检测“扭曲”的文本(我们在公司博客第一篇文章中对此进行了介绍 )。 今天,我们将讨论如何检测最有效,最耗时的方法来使文本变形-释义。




从俄语到俄语,或者


从普通普通人的角度来看,复述(改写)是用其他(通常是您自己的)单词重写文本。 释义时,他们试图尽可能地保留源文本的含义,同时使文本本身与原始文本在形式上没有相似之处。 通常,所有释义都遵循人们最常使用的某些规则,甚至在本报告中也没有意识到自己(例如,参见AlbertoBarrón-Cedeño )。

让我们仔细看一下著名的故事“ Mumu”​​(正如文章标题中一样,它还包含一只狗,人和一条船:-)],可以对文本进行什么处理,以便保留其含义并且使句子看起来有所不同。

1.首先想到的是用同义词替换大多数单词。 这是您可以对文本执行的最简单的操作。 这不会改变含义,但是乍一看文字会发生变化。 同义词程序使用此技巧。 同时,它们不考虑上下文而是仅从同义词列表中选择一个单词来替换单词,因此,由此类程序处理的句子通常看起来很尴尬。 PerIphrase也指这种释义方法-一种对象的描述性命名,其基于突出其某些质量,属性,特征,例如,“蓝色星球”代替“地球”,“单臂匪徒”代替“老虎机”等。
原来的释义
那位女士开始用深情的声音呼唤她。贵族开始用礼貌的声音呼唤她。

2.用其他词代替某些词,也可以改变句子的结构。 例如,经常用名词代替动词,反之亦然。
原来的释义
夏季晴朗的一天,这位女士和她的依ugg者在客厅里走来走去。在一个美丽的夏日,那位女士带着她的植入物走路。

3.更改文本结构的另一种简单方法是将句子简单地分为较简单的句子,反之亦然,将它们组合为较长的句子。
原来的释义
Gerasim有点惊讶,但他叫Mumu,将她从地面抬起,交给了Stepan。格拉西姆有些惊讶,但随后他要求穆姆。 他从地上捡起它,交给了斯蒂芬。

4.本质上且非常原始地,句子是通过被动语态来更改的。
原来的释义
这位女士下令要求一位年长的治疗师。长者的嫁接被称为情妇。

这些只是典型的把戏。 显然,好的复述很难检测。 有时,这仅对在文本主题领域有深入了解的专家才有可能。 但是对于我们正在解决的任务,这不是必需的。 毕竟,深层改写需要大量的精力,因此需要很多时间。 与花大量时间认真地改写别人的文字相比,对于学生而言,写作业更容易,尽管花费很大,但可以在验证过程中发现。

因此,我们的目标是可以由“脊髓”执行的相对简单的释义,即 无需花费大量的精力和时间。

本质上,释义是翻译成另一种语言的“姐妹”。 语言改变了,但含义仍然存在。 可以说,俄语文本的释义实际上是从俄语到俄语的翻译。

这就是为什么复述检测算法被证明是转移借用检测算法的“近亲”。 因此,在这种情况下,检测借贷的过程如何:

1.在入口处收到俄语检查过的文件。

2. 机器将俄语文本翻译成英语。

3.从索引的英语 -俄语-语言文档中搜寻借源的候选人。

4.将找到的每个候选者与要验证文档的英语版本进行比较, 确定借用片段边界定义。

5.碎片的边界转移到正在检查的文档的俄文版本。 该过程完成后,将生成验证报告。

一个重要的区别是算法参数是在其他数据上配置的,并且要考虑俄语的具体情况。 在此过程中,我们将维护调整策略,并着重于准确性,以牺牲完整性。 我们的任务是最大程度地减少误报的发生,即使以错过“某些目标”为代价。

从“高级裁缝”调音


释义无疑是一种扭曲文本的费力方法。 但是,并非所有的重写方法都同样有用,因此文本无法识别。 为了减少花费的时间,作者使用最简单的方法来修改文本,这是系统算法检测到的,不会带来任何结果。 因此,在第一次高估原创性的失败尝试之后,文本开始“ 调整 ”。 工作原理:使用各种方法组合,每次组合后,将修改后的文本加载到系统中,以检查重述的成功程度以及用户是否能够获得珍贵的原创性百分比。 结果是一连串的文本,每个文本的措辞都具有不同的严重程度。 检索这样的链是相当简单的工程任务。 我们对此类“链”的研究揭示了(同时证实了同一阿尔贝托·巴隆·塞德尼奥的结果 )最频繁的修改方法,并为学习新算法提供了丰富的资料。

让我们做一个小实验。 请从Turgenev的故事中摘录一下:
发出警报一小时后,壁橱门打开,格拉西姆出现了。 他穿着节日的长衫。 他用绳子牵着Mumu。 埃罗什卡走到一边,让他过去。 格拉西姆去了大门。 男孩和院子里的每个人都静静地看着他。 他甚至没有转过身。 他只在大街上戴上帽子。 加夫里拉(Gavrila)向他寄来了与观察员相同的埃罗斯卡(Eroshka)。 埃罗什卡(Eroshka)从远处看到他与狗一起进入小酒馆,开始等待释放。

让我们尝试欺骗“反抄袭”。 首先,让我们尝试使用文本自动同义词。 这样的程序在特殊的智力质量上没有区别-它们只是采用单词并将其替换为词典中的同义词,而不考虑上下文。 因此,由这种程序处理的文本通常看起来很笨拙。 这是处理这些程序之一后发生的事情:
在这种不安之后的一段时间,狗窝的门解决了,格拉西姆介绍了自己。 他穿着严肃的长衫。 有人用绳子牵着木牧。 埃罗什卡走到一边,离开了他。 格拉西姆冲到大门。 男孩和所有前院无一例外地在院子里看着他,只字不提。 包括他没有回头:他只在街上戴上头饰。 加夫里拉(Gavrila)向他寄来了与观察员相同的埃罗什卡(Eroshka)。 埃罗什卡从远处看到有人与狗一起进入小酒馆,开始等待他的释放。

请注意,每个句子中至少要替换一个单词。 这种看似很小的变化足以使“普通反-窃主义”停止将重写后的句子与原始句子进行比较。

现在,让我们尝试比较源文本的句子对并使用我们的算法进行重写。 为此,我们将使用相似度余弦度量 。 就像在可转移借贷检测算法中一样 ,每个句子都表示为一个大维向量。 通过测量一对这样的向量之间的角度的余弦值,我们可以得出这些向量如何彼此“相似”的结论,并因此得出这些向量所对应的句子如何相似的结论。

将句子与我们的算法进行比较后,会发生以下情况:

为了清楚起见,我们以热标尺的形式描述了余弦值。 也就是说,这对句子之间的颜色“越热”,余弦值越大,并且该对句子中的句子就越相似。 注意,最小的余弦值是由句子接收的,其中同义词的替代非常不适合上下文。 例如,“ so”和“以此方式”确实确实经常是同义词,但是,在这种情况下,这样的替换完全不合适。

现在,让我们尝试一下同义词的作用,并用相同的含义重写文本。 但是与程序不同,我们所有的更改在语法上都是一致的,并且非常适合上下文。 这是我们得到的:

在这种情况下,该算法为大多数句子提供了相当高的相似度等级。 评分较低的句子经历了相当深刻的转变:语法结构发生了很大变化。 即使是一个人,也不会立即通过他们的眼睛立即回答这些建议是否相似。

现在如何处理所有这些?


自然,了解新算法是否有效的最佳方法是调查其在真实数据上的工作质量。 因此,我们将一个新的复述检测模块投入生产,并通过它运行了真实的请求(同时还没有向用户显示结果)。 目前的借阅搜索算法(“ verbatim比较”)和新算法(“释义检测”)都对作品进行了检查。 然后,我们比较了关于这两种算法创建的下载作品检查的大约1万份报告。 结果很有趣。

该图显示了两种算法的借贷百分比分布。 可以看出,“比喻的检测”平均比“普通比对”多出10%的借款。

在第二张图中,在水平轴上绘制了所提出算法的借入百分比与当前借入百分比之间的绝对差。 大于0的差异表示“发现复述”比“常规比较”发现的更多。


结论


  1. 改写实际上是在写作作品时使用的一种扭曲文本的方式。
  2. “正数”的数量并没有激增,该算法找到了一个真正改写的文本。
  3. 与可转让借款一样,反P窃系统收到了一个新模块-复述检测系统;
  4. 当然,我们的经典是用自己的思想创造!

在科学研究的大学者研讨会上展示了复述检测算法的架构和这项工作的最初结果,该研讨会今年是机器学习主要会议之一-KDD 2018的一部分

复述检测模块已部署在生产环境中,教师和学生在检查要借用的文本时已使用它。

本文与Rita_KuznetsovaOleg_Bakhteev ,Kamil Safin和chernasty共同撰写。 用于创建输入插图的原始图像是从此处获取的: demotivators.cc

Source: https://habr.com/ru/post/zh-CN422941/


All Articles