云机器翻译服务格局。 Yandex讲座

这是第六届Hyperbaton的最新报告,我们将在Habré上发布。 来自Intento的Grigory Sapunov分享了一种评估云机器翻译服务质量的方法,谈到了评估结果以及可用服务之间的主要区别。


-我叫Grigory Sapunov,我将告诉您有关云机器翻译服务的概况。 我们已经测量了这种景观一年多了,它非常动态且有趣。



我将告诉您这是什么,为什么它对了解那里发生的事情有用,关于价格合理的解决方案,有很多,关于比较库存模型,经过预先训练的机器翻译模型,关于去年开始活跃的自定义模型的,我将给出建议。选择模型。

机器翻译已经成为非常有用的工具,可以帮助自动执行许多不同的任务。 它仅在某些主题中替代人员,但至少可以大大降低成本。 如果您需要在大型Web服务上翻译大量产品说明或评论,那么这里的人员根本无法应付大量的工作,并且机器翻译确实不错。 市场上已经有许多现成的解决方案。 这些是一些经过预训练的模型,它们通常称为股票模型,以及具有领域适应性的模型,这些模型最近得到了大力发展。

同时,创建自己的机器翻译解决方案既困难又昂贵。 现代机器翻译技术,即神经网络机器翻译,需要在内部进行大量处理。 我们需要能够做到这一点的人才,我们需要大量的数据来对其进行培训,并且需要时间来做到这一点。 此外,与以前的机器翻译版本(例如SMT或基于规则的)相比,神经网络机器翻译需要大量的机器资源。

同时,云中可用的机器翻译也有很大不同。 正确的机器翻译选择可以极大地简化您的生活,节省时间,金钱,并最终解决您的问题或不解决问题。 在我们衡量的基于参考的指标中,质量的差异可以达到四倍。



同时,以价格计算,价差通常可以是200倍。 这是完全异常的情况。 具有差不多相同质量的服务可能相差200倍。 这是您节省或花费额外资金的简便方法。

同时,服务在产品特征上有很大的不同。 这可能是对格式的支持,对文件的支持,批处理模式的存在或不存在,这是一次服务可以翻译的最大文本量,等等。 选择服务时必须了解所有这些内容。 如果您选择了错误的服务,您将不得不重做,否则您将无法获得想要的质量。 结果,可以归结为以下事实:您可以更快地将产品推向市场,节省资金并为您的产品提供最佳质量。 还是不提供。



比较这些服务,以了解适合您的长期且昂贵的服务。 如果您自己执行此操作,则必须与所有云机器翻译服务集成,编写这些集成,签订协议,首先安排单独的账单,与所有人集成。 然后遍历所有这些服务,评估一些数据。 它非常昂贵。 此类项目的预算可能会超出您正在执行的主要项目的预算。

因此,这是一个重要的主题,但是我们自己很难做到这一点,我们在这个地方可以帮助我们了解什么。



市场上有各种各样的技术。 几乎所有服务都转换为神经网络机器翻译或某种混合形式。 市场上仍然有许多统计机器翻译器。



每个都有自己的特点。 BDC似乎是更先进的先进技术,但也有一些微妙之处。

通常,神经网络机器翻译比以前的模型工作得更好,但是您也需要遵循它,这完全是出乎意料的结果。 作为一名真正的尤达,他可以保持沉默,对某行给出空洞的答案,您需要能够抓住它并了解他在您的数据中的行为。 还是电子商务中的一个很好的例子,当商品的大量描述发送到机器翻译时,他只是说这是一个背包,仅此而已。 这是该机器服务的稳定行为,这很好,并且可以在常规数据,新闻数据上正常工作。 但是,电子商务在该特定领域不能很好地工作。 您需要了解这一点,您需要对数据运行所有这些服务,以便选择最适合您数据的服务。 这不是一项可以更好地处理新闻或其他问题的服务。 对于您的特定情况,这应该是更好的选择。 在每种情况下都必须理解这一点。



有许多级别的自定义。 零级-缺席。 有一些经过预先训练的库存模型,所有这些模型现在都已在不同的提供商处部署在云中。 您的案例中有一个完全定制的模型选项,当您有条件地向一家从事机器翻译的公司下订单时,它将根据您的数据从头开始为您训练模型。 但是,这需要很长时间,很昂贵,并且需要大型外壳。 有一个大的提供者,将从您那里收取$ 5,000进行这样的实验,该命令的价格。 尝试昂贵的东西。 这并不能保证您获得任何东西。 您可以训练该模型,结果它会比市场上的模型差,并且钱会被扔掉。 这是两个极端的选择。 股票模型,或根据情况定制。

有中间情况。 有术语表,这是一件非常好的事情,可以帮助改进当前的机器翻译模型。 现在正在积极开发领域适应,一种迁移学习,这些词背后隐藏的任何东西,这使您可以训练一些通用模型甚至是特殊模型以对数据进行重新训练,并且这种模型的质量将比仅通用模型更好。 这是一项很好的技术,正在运行,现在正在积极开发中。 跟着她,我会告诉你更多关于她的事情。



还有另一个重要方面,可以在家中使用或使用云。 这个地方存在一个普遍的误解,人们仍然认为,如果使用云机器翻译服务,它们将获取您的数据并在其上训练他们的模型。 在过去的一两年中,情况并非如此。 他们在服务方面明确指出,所有主要服务都拒绝这样做,我们不使用您的数据来训练我们的模型。 这很重要。 这消除了适应云机器翻译的一系列障碍。 现在,您可以安全地使用这些服务,并确保该服务不会使用您的数据来训练其模型,并且随着时间的推移它也不会成为您的竞争对手。 很安全

与两年前相比,这是云的第一个优势。

第二个优势是,如果您在自己内部部署神经网络转换,则需要使用图形加速器来提升相当沉重的基础架构来训练所有这些神经网络。 即使经过推理训练,您仍然需要使用高性能的图形卡才能正常工作。 原来很贵。 这种解决方案的拥有成本确实很高。 一家不打算向市场专业提供API的公司也不需要这样做,您需要使用现成的云服务并使用它。 在这个地方,您可以节省金钱,时间,并保证不因服务需要而使用您的数据。

关于比较。



我们处理这个主题已经很长时间了,一年半,我们定期测量质量。 我们选择了自动参考指标,它们允许以大规模的方式完成工作,并获得一定的置信区间。 我们或多或少都知道有多少数据质量指标可以确定下来,我们可以在不同的服务之间做出适当的选择。 但是我们必须记住,自动指标和人工指标是相辅相成的。 自动度量标准适合进行初步分析,选择人们特别应该注意的地方,然后语言学家或领域专家应查看这些翻译选项并选择适合您的内容。



我将向您介绍市场上有哪些系统,我们如何对其进行分析,如何将它们与价格进行比较,并告诉您我们的分析结果,在质量上这里重要的是什么以及在选择服务时质量之外的重要的。



首先,已经有大量的基于云的机器翻译服务,我们仅考虑了其中包含可以使用并开始使用的预训练模型并且它们具有公共API的服务。

仍然有许多服务没有公共API或在内部部署;我们在研究中不考虑它们。 但是,即使在这些服务中,已经有很多这些服务,我们对其中的19个服务进行了测量和评估。 实践表明,普通人认识几个市场领导者,但不了解其他人。 他们是,在某些地方,他们是很好的。



我们利用网络上语言的流行度,将其分为四类。 最受欢迎,超过2%的网站,不那么受欢迎,甚至更少。 我们将对四类语言进行进一步分析,从所有这些语言中,我们将重点放在第一类,最受欢迎的语言上,而另一部分则集中在第二类上。



前三组的支持率几乎为100%。 如果您需要的语言不是超级奇特的,那么您将从云中获取它。 而且,如果您需要一对异国情调的夫妇,可能会发现任何机器云翻译服务都不支持某些语言。 但是即使有所有限制,也可能支持所有可能的配对中的大约一半。 这还不错。



在所有这些中,我们测试了48对,组成了这样一个矩阵,主要选择了英语和第一组的所有语言,第一组中的部分语言以及第二组的少量英语和语言。 这或多或少涵盖了典型的使用场景,但是还有很多其他有趣的事情。 我们评估了这些对,对其进行了测量,并告诉您那里发生了什么。 完整的报告在这里,它是免费的,我们会定期对其进行更新,我将争取您使用它。



数字和轴在此图中不可见,但这是关于通过不同的机器翻译系统支持不同的语言。 X轴上有不同的机器翻译系统,Y轴上有对数比例的机器翻译系统,通常支持的对数是唯一的。 在这张照片中,红色是唯一的,蓝色是一切。 可以看出,如果您具有非常奇特的语言组合,则可能会发现由于唯一性,您需要使用七个不同的提供程序,因为只有其中一个可以支持您需要的非常特定的一对。



为了评估质量,我们选择了新闻楼,普通领域楼。 这不能保证您在其他领域的特定数据上的情况会相同,很可能不一样,但这很好地说明了如何进行此类研究,如何选择适合您的服务。 我将向您展示新闻领域的示例。 它可以轻松转移到您的任何其他区域。



我们选择了hLEPOR指标,它与BLEU大致相同,但是从我们的直觉角度来看,它对服务之间的相互关系有更好的印象。 为简单起见,请考虑从0到1,1的度量标准是与某个参考转换的完全对应,0是完全差异。 hLEPOR具有更好的直观感觉,与BLEU相比,相差10个单位。 您可以单独阅读有关该指标的信息,所有内容均在研究方法中进行了描述。 这是一个普通指标,不是一个代理指标,不是很完美,但可以很好地传达其本质。



价格差异巨大。 我们编制了一个矩阵,您可以为此价格获得100万个字符的翻译。 您可以下载并看到,差别是巨大的,从每百万个字符5美元到1,000美元不等。 选择错误的服务只会大大增加您的成本,或者选择正确的服务可以帮助您节省很多钱。 市场是不透明的,您需要了解什么是有价值的,什么是什么质量。 记住这个矩阵。 很难比较所有服务,对于价格,价格往往不是很透明,政策不是很明确,有一定档次。 一切都很复杂,此表有助于做出决定。



我们将分析结果简化为有趣的图片。 这张图片显示了我们测量的那些对的最大可用质量是什么,绿色–更高的质量,这些对的竞争是什么,是否真的有任何选择,有条件地,大约有8家提供商提供了这些最实惠的质量,大约只有2个,还有一个美元图标,这是您获得最高质量的价格。 价差很大,便宜的地方可以获得可以接受的质量,便宜的地方不是可以接受并且昂贵,可以有不同的组合。 情况很复杂,没有一个超级球员到处都有更好,便宜,好的等等。 到处都有选择,到处都必须合理地进行选择。



在这里,我们为这些语言对绘制了最好的系统。 可以看出,没有一个更好的系统,在这个特定区域中的不同对上,不同的服务会更好-新闻,在其他区域中,情况将会改变。 Google擅长的地方,Deepl擅长的地方,是新鲜的欧洲翻译,很少有人知道,这是一家成功与Google对抗并击败它的小公司,质量非常好。 Yandex在俄语和英语方面一直很出色。 亚马逊最近出现了,它连接了俄语和其他语言,也不错。 这些都是新鲜的变化。 一年前,其中很多不是,领导人更少。 现在情况非常动态。



了解最佳系统并不总是很重要。 通常,了解最佳系统很重要。 如果您以最高的质量查看系统的5%,那么其中最高的5%是最便宜的,从而为您提供高质量的系统。 在这个地方,情况截然不同。 谷歌留下了这个比较,微软上升了很多,它变得更加Yandex,亚马逊爬出了更多,更多的异国情调的提供商出现了。 情况正在变得不同。



如果您横向查看所有机器翻译提供程序-不同的提供程序,垂直查看-提供程序出现在其中一个最高级别中的频率,那么排名最高的5%几乎早晚都是其中每个。 对于某些特定的度量对,最好的是7个提供程序,最佳的也是7个提供程序。这意味着,如果您需要翻译成某种语言并且想要确保最高或最佳质量,则需要一个提供程序还不够,您需要连接这些提供商的产品组合,然后您将具有最高的质量,最高的资金效率等。 没有哪个球员更好。 如果您有复杂的任务,则需要许多不同的对,您可以直接使用不同的提供程序,这比使用一个提供程序更好。



市场非常活跃,要约数量正在迅速增长。 我们从17年年初开始进行测量,7月发布了新的基准。 可用服务的数量正在增长,其中一些仍处于预览状态,它们没有公开的价格表,它们处于您可以使用的某种Alpha或Beta版本,但条件不是很清楚。



质量增长缓慢,但也在增长。 主要兴趣发生在特定的语言对中。



例如,英俄语言对内部的情况非常动态。 在过去六个月中,Yandex大大提高了其质量。 亚马逊出现了,它由右边的一个圆点表示,也紧随Yandex之后。 GTCom提供程序运行良好,几乎没人知道,它是一家中文提供程序,可以将中文很好地翻译成英语和俄语,英语-俄语也能很好地处理。

在所有语言对中或多或少会出现相似的情况。 到处都有变化,新的参与者不断出现,他们的质量在变化,模型正在重新训练。 您会发现,有稳定的提供程序,其质量不会改变。 在这种情况下,稳定的更可能会死掉,因为还有其他不稳定的质量或多或少有所改善。 这是一个好故事,他们几乎一直在进步。



如果您考虑一个关于价格质量的更复杂的指标,那么会有稳定的改进。 这意味着高质量机器翻译的成本在不断降低,每年,每月,每年都有越来越多的高质量机器翻译供您使用,而费用却更少。 很好


幻灯片链接

除了价格和质量外,还有很多问题在选择特定提供商时也很重要。 这些都是各种各样的产品功能,包括html,xml支持,对棘手但不是很严格的格式的支持,批量模式,语言的自动检测-热门主题,对词汇表的支持,定制,服务可靠性。 还有我们所谓的开发者的幸福,然后您可以阅读该链接的含义。



这是造成汽车灾难的原因。 DX , , , HTTP, , API, , , . , API, . , , API , - . .

, . , , SDK, , , . . .

, , API NDA. . . , - .

, . , , , . - , , .

— , . , , .



- . , , . , - , Google, Microsoft, IBM, - , , , .



? , , , . — , . 10 . 1 . 2 . , 2 . . 50 .

hLEPOR, , , , , , . , . — . , . , , - , . , . , , , . .



, . Microsoft, 3 API. , , , Microsoft . . , , . , , 10 . Microsoft . , . , , .



IBM, , . , . 2% — .



Google AutoML , , 10 100 . .



, Microsoft, Google, - — , Deepl, Amazon, Google, Microsoft. , . ? , - , - . , Google Deepl, , , . . , . .

, , , , . . , , . , , . . , . , .

?



. . , , .

, . , - . . , , , -. , , , . , , , - , , . — .

- , , . -, . , , . , , , . . — , , .


: , , , ,

? . , . , , , . , .

, , . API . , , . SDK NodeJS, .NET, CLI. , API, . . , , . , , , — .

web tools . , , , API. . , , .

, . -, , . 事实并非如此。 , . . , , , , . , , , , . Deepl? , Google .

, , , , . , , , , , . 谢谢啦

Source: https://habr.com/ru/post/zh-CN430266/


All Articles