
可能在各个年龄段都有文学翻译者和自由思想者。 后者认为完全有权更改文本,重新编辑,丢弃某些内容并附加其他内容。 现代研究人员面临一个典型的问题:“原件的转换过程中发生了什么细节? 划掉的是什么,保存了什么,重做了什么,添加了什么?”
在认真阅读文本之前,我想尝试将它们交给机器人进行初步研究。 我们对机器人几乎没有希望,但是我们从机器人那里获得了巨大的帮助。 关于我们如何使Google Translate和Yandex.Translator竞争在Invisible Battle的希腊文字上的工作,该文字在猫底下读着。
工作材料
“ 无形的虐待 ”是一部禁欲专着,最初用意大利语写成,然后在18世纪被翻译成希腊文,按照东方基督教的禁欲做法进行编辑,然后被译成俄语。 但是,从字面上看也没有,但是有很大的变化。 隐士Saint Theophan描述了他翻译成俄语的工作原理,写道:
我不翻译[本书],但我自由地使用自己的讲话……与原文相加,删减和更改。
ep的工作是对编辑更改的总体概述。 Feoktista ,但我想在整个文本中获得确切的差异。
配套方式
为此,两个文本(现代希腊语和俄语)都分为几段。 结果每个大约有700个段落。
我们两次将希腊文字翻译成俄文-一次使用Yandex.Translator,另一次使用Google Translate。 他们只创建带有全文的大页面,然后通过相应的网络枪口将其打开。 阅读译文几乎是不可能的:显然原文太复杂了,但从这种恐怖中可以学到一些东西。 某个地方的关键字应该重合,数字也应重合。
查找模糊重复的工具没有特别多种,它们抓住fuzzywuzzy
,考虑了Levenshtein的距离 。 在这四个函数中: ratio
, partial_ratio
, token_sort_ratio
, token_set_ratio
选择了最后一个,与单词顺序或其重复无关。 而且,后来发现,选择是正确的。
对于所有成对的段落(俄语对希腊语),计算token_set_ratio
Feofanov翻译token_set_ratio
token_set_ratio与Yandex和Google的相似度。 我们决定不单独依赖他们中的任何一个,而是依靠他们的总和(双货币篮子-这也证明是正确的决定),然后使用此总和的高价值的候选人用他们的眼睛和钢笔以及周围的对象查看和检查经过验证的夫妇。
结果,在几个小时的工作中,可以比较2/3的段落,其余的只能手动比较。
重新检查方法
完成工作并获得结果后,很有趣的是要返回并再次查看哪个fuzzywuzzy
函数以及哪个翻译器最适合这种任务。
对partial_ratio
的计算非常耗时(连续驱动您的计算机token_sort_ratio
120个小时的时间),但是其余的三个函数的计算大约需要一个小时:Yandex和Google翻译的ratio
, token_sort_ratio
和token_set_ratio
。 邻近文字共有六种功能,第七种是我们的“双币种篮子”。
现在,您可以看一下以下平板电脑。 第一个回答了这个问题:“如果对于给定的俄罗斯段落,我们以相似度从高到低的顺序(通过此函数计算)寻找相应的希腊语,那么仅查看前三个候选者 ,我们将看到正确的段落的概率是多少?”
机能 | 三次尝试发现的可能性 |
---|
google_set_ratio + yandex_set_ratio | 66.5% |
google_ratio | 65.0% |
google_set_ratio | 64.8% |
yandex_ratio | 62.0% |
google_sort_ratio | 61.8% |
yandex_set_ratio | 56.2% |
yandex_sort_ratio | 54.6% |
也就是说,在大约2/3的情况下,我们几乎立即发现了所需的段落。 在剩下的三分之一情况下,您将遭受很多痛苦。 因此,请看第二个板,它回答了以下问题:“ 在看到正确的段落之前,平均要看多少候选人?”
机能 | 平均尝试次数 |
---|
google_set_ratio + yandex_set_ratio | 36.7 |
google_set_ratio | 37.6 |
yandex_set_ratio | 47.0 |
google_sort_ratio | 65.9 |
yandex_sort_ratio | 69.7 |
google_ratio | 71.7 |
yandex_ratio | 75.3 |
查看40段或更多段-这是悲伤的悲伤,在这种情况下,汽车看起来不像是合理的线索。 因此,比较文本时,最佳策略是仅查看最可能的候选者来“脱脂”,并根据结构和其他因素进行其余的比较。
称赞自己的直觉
令我们感到惊讶的是,“从最高处”采取的“双币种篮子” google_set_ratio + yandex_set_ratio
效果最好,甚至比每个单独的功能都更好。 此外,两个表中的值均表明Google Translate在所有方面都比Yandex.Translator处理得更好。 因此,家用机器人有增长的空间。
PS:所使用的脚本没有特别的知识,但是如果有人需要,我们可以将其发布。 比较的结果就在这里 。
PPS如果您有兴趣,标题中的图片是Fyodor Polikarpov-Orlov的“ 斯拉夫希腊语拉丁语入门 ”(1701)中的一部分。
PPPS也许有一本科学期刊,应该适当地将此文本提供出版?