Sberbank AI实验室研究员-有关数据科学和RnD任务



神经网络不仅可以娱乐Prisma和FindFace。 如今,机器学习和大数据能够解决实际的业务问题。 MTS数据科学部门的前负责人Dmitry Babaev是Yandex搜索引擎中完成查询算法的开发人员,他了解B2B领域的新技术。

现在,他在Sberbank的人工智能实验室担任研究员。 不幸的是,该银行的大部分发展都是商业秘密,但这位专家急切地告诉了一切允许的事情。

采访者:达里亚·科兹洛娃(Daria Kozlova)
受访者:德米特里·巴巴耶夫(Dmitry Babaev)

哪些俄罗斯公司拥有自己的AI实验室和大数据?

在俄罗斯,很少有公司拥有类似的实验室,因为这在很大程度上是一个学术历史。 Yandex肯定有一个研究部门。 外国公司也可以使用它们,例如Google,Microsoft,Facebook。 大型和中型公司都有数据科学部门,但他们通常并不十分重视理论研究。

您认为他们正在尝试解决哪些任务?

数据科学部门应对业务所需的挑战。 在执行任务之前,他们会评估执行任务的经济效果,并在此基础上决定是否做某事。 但是在研究部门,这更容易-解决问题的潜在好处已经被认为是很高的。

你会举一些例子吗?

数据科学的通常任务可以通过电信领域的一个例子来说明:找到对新资费感兴趣的人。 另一个例子:优化零售链中的商品分类。 通常,公司仅通过将正确的商品分类带入合适的商店来设法节省大量资金,例如,将昂贵的商品发送到将要购买的商店,而不是将灰尘收集在货架上的商店。

研究任务可能看起来有所不同。 此类任务的一个示例是了解为什么神经网络针对一个或另一个输入数据给出一个或另一个预测。 但总的来说,RnD任务非常多样化。

在与AI和机器学习相关的开发中投入了多少资金?

取决于公司。 在大型公司中,他们准备花更多的钱,在小型公司中花更少的钱。 根据我的观察,在电信业中,一个大型项目的数据量为数百TB,需要几千万至几亿卢布。 另一方面,完美无极限(微笑-约编)

在Yandex,您已经开发了一种自动完成搜索查询的机制。 可以将其视为神经网络技术吗? 该算法如何工作?

不,这是一种基于搜索查询统计信息的经典机器学习(ML)方法。 根据输入的查询开始和典型的用户查询,选择了最适合的选项,用于从数据库中自动添加最频繁的搜索查询。 这是在神经网络出现之前,当时每个人都将其视为死胡同的技术。 那时它们仍然不如经典ML算法。

告诉我们俄罗斯在AI领域最重要的成就。

最著名的例子是Prisma。 该公司未在俄罗斯注册,但该州的骨干是国内专家。 顺便说一下,开发用于棱镜的图像处理方法的科学家也来自俄罗斯(Victor Lempitsky的小组)。

在Yandex,AI算法是排名搜索结果的核心。 使用神经网络对查询文本和站点的接近度进行排序的算法称为Palekh。

另一个著名的例子是NTechLab的FindFace。 这些是她的人脸识别算法操作的演示,该算法作为商业产品出售。

从事语音技术的俄罗斯公司,例如语音技术中心,在世界市场上也很知名。

顺便说一下,在Sberbank,俄罗斯一家公司的面部生物识别技术已经使用了几年。 它用于打击零售贷款中的身份盗用。 实验室雇用了参与该项目的人员。

向新技术的过渡需要更换硬件和软件,最终用户会以网络故障和错误的形式感觉到自己。 对于客户来说,如何尽可能不显眼地进行过渡阶段?

实际上,这是开发中的经典任务;他们已经解决了很长时间。 一种方法是测试。 在引入新版本之前,已经进行了长时间的测试:他们检查边界情况以及软件是否可以承受所需的负载,然后为一小组用户打开新版本。 在这种情况下,如果出现问题,将使最小比例的用户受苦。

AI是否能够独立修复系统中的错误和崩溃?

有些算法只是针对此类情况而设计的。 但是他们的任务不是检测或修复故障,而是预测即将发生的故障-查看系统中的异常模式。 通常,在复杂的系统中,有很多指示它现在处于什么状态的指标。 发现异常模式后,人工智能可以向管理员发送消息:出问题了-看什么-需要做的事情。 例如,负载增加了,有必要添加空闲容量以使系统承受它。

今天,AI具有“提前”(例如两个小时)的观察特性和检测功能。 但是要解决此问题,仍然需要一个人。

他们现在在AI Sberbank的实验室中从事什么工作?

Sberbank AI实验室的创建是为了提高组织的AI能力。 现在,随着有效的深度神经网络教学方法的出现,这一领域取得了长足的进步。 大型公司需要精通新AI技术的人员来跟上快速发展的步伐。 了解AI在哪些方面投入精力和金钱也很重要。 实验室将帮助您找出答案。

实验室的另一个重要任务是在这一领域进行自己的研究,并创造出使银行受益的新技术。 当然,我们从事可以在银行中应用的研究,但也尝试确保我们的结果不仅在金融领域有用。 例如,我们对时间序列分析的方向感兴趣; 银行业务中有很多具有这种结构(事务性和其他结构)的数据。 在具有较大科学组成部分的作品中,人们可以回想起有关创建新方法以解释神经网络工作结果的研究。

Sberbank与谁一起工作?

世行与几所大学合作:莫斯科物理技术学院,HSE,莫斯科国立大学。 现在正在聆听与MIPT合作的项目iPavlov。 这是一个开发用于以自然语言与计算机通信的对话系统的项目。 从解决复杂的优化问题到基础开发以改善深度学习算法,其他大学也开展了非常有趣的活动。 还有许多学习和促进知识的活动-例如,针对学生的AI讲座。

Sberbank AI算法的特殊性是什么?

有一个经典的银行部分。 例如,评分是对客户信誉的评估。 在所有国家/地区,它都受到中央银行的监管,因此很大程度上基于良好解释的方法-Logistic回归和决策树。 这些经典方法可靠且稳定。 将来,我们希望监管机构将允许使用更复杂的方法。 为此,有必要证明新方法足够可靠。

在Sberbank的AI实验室中,我们处理更复杂的方法,主要是针对银行典型数据的深度神经网络和AI算法。 银行的典型数据类型是时间序列:例如,产品价格(昨天,前一天的价格等)。

4月19日,您将在AI Conference上作为演讲者发言。 您告诉访客什么?

在过去的几年中,深度学习方法取得了巨大的成功。 他们已经在解决以前害怕解决的问题。 例如,他们在图像识别的语音到文本和文本到语音方面已经达到了人类水平。 但是它们有自己的局限性,无法继续前进。 我想谈谈这个问题,以及可能被规避的方法。 从许多方面来看,这仍然是一个研究领域,而不是用于日常工作的现成解决方案。 但是,对于更有效的AI技术,人们对未来有合理的期望。

Source: https://habr.com/ru/post/zh-CN411431/


All Articles