三星莫斯科人工智能中心员工故事

我们的帖子为您提供了了解三星研究新部门-莫斯科人工智能中心(AI)的研究的机会。 它于2018年5月开放,并在一年半的时间里召集了机器学习领域的最佳专业人员。

以下是该中心工作人员的小型访谈-去年12月在该中心举行的年度人工智能论坛的发言人。 我们采访了两个实验室的同事:计算机视觉和视觉建模实验室以及多模式数据分析实验室。



关于三星AI中心


三星在研发方面的投入约为年销售收入的8%,这是全球领先的指标之一。 该公司拥有美国最大的主动专利产品组合,并已申请了欧洲大多数最热门技术的申请。 未来三年,三星将在人工智能领域投资220亿美元用于5G和技术的开发。

三星电子的研究部门三星研究院联合全球21个研究中心:


世界地图上的三星研究部门(来自https://research.samsung.com/

其中有7个是仅专注于AI的中心。 莫斯科AI中心于2018年5月29日开放,其余六个分别位于首尔,蒙特利尔,多伦多,纽约,剑桥和山景城。

莫斯科三星AI AI中心的主要研究领域是机器学习,该方法已成功应用于语音识别,计算机视觉和数据分析中。 该中心的负责人是维克多·莱姆皮茨基(Viktor Lempitsky)博士,斯科尔科沃科学技术学院副教授,他是2018年该学科类别中被引用最多的俄罗斯科学家,并因其对行业发展的贡献而于2018年获得了俄罗斯Scopus奖。

设计莫斯科AI中心办公室的建筑师和设计师受到数字无限理念的启发。 办公概念旨在创造一个在舒适环境中最大程度发挥创造力的空间:移动家具和可移动多功能隔断,您可以使用该隔断组合多个会议室并创建工作区的必要配置。


Mikhail Romanov(视觉理解实验室高级工程师)在Matrix会议室为Samsung AI Bootcamp 2018的学生讲课

会议室标有人工智能电影的名称(《黑客帝国》,《终结者》,《百年纪念男人》,《车外》等),每部电影的两侧都有屏幕,您可以在墙上用记号笔写字。 使用面部识别技术将平板电脑固定在会议室门口,可让您了解空闲时间并预定会议室。


带人体工学家具的开放空间:可移动桌子,特别设计的椅子

AI中心设有运动和休闲区,您可以在设有吸音功能的特殊房间打乒乓球,做瑜伽和健身,洗澡和洗衣服。 甚至还有一些胶囊可以使您短暂入睡!



每年,三星AI论坛都会在莫斯科AI中心举行。 人工智能论坛的目的是俄罗斯和国外杰出科学家的交流与互动。 在活动现场,他们可以分享他们的知识和经验,提供解决AI领域最紧迫问题的想法。 去年12月,在第二届年度论坛的框架内,介绍了莫斯科同事的研究结果,这些研究结果将来可用于基于AI技术创建成熟的服务,以及在开发公司产品的应用程序和组件时使用。



计算机视觉与视觉建模实验室


实验室负责人是HSE和VMK莫斯科国立大学副教授Anton Konushin博士,他还是三星和莫斯科国立大学联合实验室的负责人。

“神经网络和计算机视觉”课程的作者Mikhail Romanov和Igor Slinko也在计算机视觉和视觉建模实验室中工作。 这是三星研究院于2019年在俄罗斯推出的第一门免费大众在线课程,这些都是我们的先驱。 本课程从基础知识开始讨论神经网络在图像分析中的使用,不需要专门知识,只需要高级数学和统计学领域的基础知识,并需要具备使用Python编程的准备即可。 该课程已招收24,000名学生。 杀手级特征:就业前景-接受采访后,已有几人成为该中心的雇员。

丹妮拉·鲁霍维奇(Danila Rukhovich)


他25岁,毕业于莫斯科国立大学机械学院,目前正在研究生院学习“信息学的理论基础”学位。 他曾在IBM Research,愤怒的开发人员,SMTDP Tech工作。 在三星AI论坛上,Danila Rukhovich和Danil Galeev提交了报告“ MixMatch域适应:VisDA 2019挑战赛的获奖解决方案 ”( 源代码 )。

我们的实验室有两个大小组:第一个小组从事深度估计(测量图像的深度),第二个小组从事SLAM(通过同时定位和地图构建的方法)。 而且有一些小团队负责不同的任务,例如,我的同事Danil Galeev和我曾经从事GAN(生成竞争网络),现在从事领域适应。

领域适应是指我们在一个领域(领域)上训练神经网络模型,然后在另一个领域进行测试。 两个最常见的域是合成数据和实数据。 最相关的问题是此陈述,因为可以生成所需的任意数量的合成数据,因此它们很便宜。 例如,您可以生成许多城市图像并在其上训练无人驾驶汽车,这比在真实城市的街道上驾驶真实汽车并收集真实数据要容易得多。

显然,如果我们在合成数据上训练神经网络并将其传输到真实数据,那么它将无法很好地工作。 如何减少这种差异? 您可以生成然后使用大量带标签的合成数据,以在其上训练神经网络。 然后使用大量未分配的实际数据(即花费了资源,但仅用于数据收集,而不用于其标记)。 因此,结合标记和未分配的数据,我们正在实现神经网络模型准确性的显着提高。


DomainNet数据集中不同域的示例:剪贴画,信息图,绘画,素描,照片,图形。 对象是相同的,但是域是不同的。

康斯坦丁·索菲尤克


25岁,毕业于VMK莫斯科国立大学。 他喜欢慢跑,单板滑雪和计算机视觉。
康斯坦丁在三星AI论坛上发表了题为“ AdaptIS:自适应实例选择网络”的报告

我对处理有助于解决实际问题的算法感兴趣。 例如,使日常例行任务自动化。 人工是最昂贵的。 因此,我有兴趣做那些可以转变为造福人民的事情。

我认为,人工智能有两条发展道路:要么是“强大”的,要么是类似“圣杯”的东西。 “强大”的AI的出现将改变我们生活中的一切; 我发现很难预测会发生什么。 或者,有可能谈论“弱”的AI,那么机器人技术可能是最有趣的方向。 无人驾驶车辆属于同一方向,因为它本质上是道路机器人。 用机器人代替驾驶员会引发一个问题:它将带来什么社会后果? 我们每个人都生活在一个社会中,技术可以带来全球社会变革。 我对这个话题进行了思考。

我的最后一篇文章专门讨论“实例分割”主题-在图像上搜索并突出显示我们需要的所有对象。 我们使用逐个像素的遮罩来选择它们,即在每个点上指示该像素是否属于对象。 这与“视觉场景理解”的概念非常吻合,因为理解图像的第一步是了解图像上存在哪些对象。 有一些对象检测算法可以解决此问题,但是每个对象都用一个矩形突出显示,并且这些对象强烈重叠:这给出了对象所在位置的太简单,太粗糙的近似。 如果您看看普通的室内场景是什么样(我不是在谈论理想的设计房间,它们既干净又整洁),那么真实的公寓将看起来像这样:沙发,枕头在上面躺着,还有其他一些东西。

当我开始这项任务时,我面临的事实是,现有算法无法很好地应对此类情况。 我们来到了工作中提出的一种新算法。 它使您可以选择具有任意复杂交点的对象:主要是该对象的至少一个像素可见。 该算法基于假设,根据该假设,您始终可以在图片中找到属于特定对象的像素。 如果图片中没有物体的单个像素,则没有物体。 并且如果有一个对象,如果一个人看到了该对象,那么就会有一个属于他的像素。 因此,该算法允许您找到此类像素并通过这些像素选择对象的整个蒙版。

现在,我们正在处理交互式细分的主题,这也是一项非常重要的任务。 返回上一个任务:训练“实例分割”,您需要对图片中所有对象进行高质量的逐像素标记,这是一件很昂贵的事情,因为长时间坐在Photoshop中手动选择每个对象的轮廓是很平常的。 交互式分段使您可以自动执行此标记。 我们不是通过选择该对象的多边形来标记每个对象,而只是一个人单击该对象-进行所谓的正点击。 从第一次单击中选择了该对象,或者如果该对象不起作用(例如,该对象的某些部分被跳过,或者相反地,一些不必要的掉落),则我们点击否定。

结果,我们没有选择一个像素一个像素的轮廓来选择整个对象,而是将问题简化为不应该通过单击来选择该区域的事实。 实践表明,在大多数图片中,单击十次即可选择高精度的对象。 这是一个巨大的差异,数据标记有时会加速。


选择对象点时算法显示的遮罩

多峰数据分析实验室


实验室的负责人是谢尔盖·尼古连科(Sergey Nikolenko)博士,她是V.A.斯特洛夫数学学院(POMI RAS)圣彼得堡分院的高级研究员,圣彼得堡高等经济学院的副教授,也是《深度学习》一书的合著者 沉浸在神经网络的世界中

格莱布·斯特金(Gle​​b Sterkin)


Gleb今年25岁;他毕业于莫斯科国立大学物理系。 多模式数据分析实验室的工程师和项目经理。 “没有兴趣,没有兴趣,是由机器人构成的。”
在三星AI论坛上,Gleb发表了关于不带域标签的高分辨率日间翻译的演讲

我的实验室从事生成模型,计算摄影。 恢复三维结构有许多任务,即 当几张照片需要重建复杂物体的三维形状时。 同样,这些是与获取图片或图片中对象的通用表示相关的任务。 总的来说,所有这些都围绕着神经网络。 从应用的角度来看,人与生成模型交互作用的应用令人印象深刻,从隐式效果到模型充当人的工具(例如在音乐合成中)的情况。

我主要处理结合人机交互的生成模型。 这很有趣! 诸如神经网络之类的复杂事物变成了像照相机之类的工具,适用于获得短暂的愉悦或某种感官体验:我按下三个按钮,获得了一些很棒的东西,对它的工作原理没有太多的思考,但是大致了解了结果,尽管有时会发现和一些意想不到的东西。

乍看之下,我们的研究解决了一个相当简单的任务。 该算法在输入处接收到风景照片,然后在一天中的不同时间提供一组相同风景的照片。 例如,如果在入口处有一张白天城市的照片,那么在晚上,晚上,早晨以及一天中这段时间之间的时间看起来如何,以制作出流畅而优美的视频? 这项技术可在高达4K的高分辨率下工作。



我们使用景观,因为在景观中,白天或季节的变化最为明显。 建筑物的内部白天不会有太大变化,除了反射和眩光,反射和眩光取决于各种因素-格栅和百叶窗在窗户上的位置。 风景中的一切都清晰无比:您拥有阳光,天空,广阔的空间,需要对其进行不同的照明,才能在上面绘制一些东西。 如果该算法从黑夜过渡到白天,则需要拉长黑暗区域;如果从黑夜到白天,则需要正确地使所有区域变暗。

看到风景,一个人很难想象确切的变化取决于一天或一年中的时间。 模拟本质上的人类感知非常有趣,而无需花费大量时间为每个景观收集真实的图像和视频。

德米特里·尼古林


25岁。 他于2017年毕业于圣彼得堡国立大学代数系。 他在Google伦敦实习,在Google My Business改进了用户验证系统,然后在Yandex Research实习,并在Serokell工作,后者是Haskell编程领域的专业咨询和外包公司。 同时,他从ShAD毕业,现在他正在那里帮助进行RL课程。 三星已经一年多了。 他学习语言:除了英语之外,他还对法语,西班牙语和世界语有点熟悉。

德米特里(Dmitry)在三星AI论坛上发表了两份报告: “通过Atari代理商的关注获得免费午餐显着性”和“感知梯度网络”。

实验室中用于分析多峰数据的主要研究领域是与图像的生成和处理相关的任务,并且在过去的一年中,我设法在该领域进行了两个项目。 在上半年,我参加了强化学习(RL)-这是机器学习技术之一,测试系统(代理)通过与特定环境的交互来学习。 简而言之,可以将学习过程视为一种游戏:鼓励采取行动以产生回报,并避免导致失败。

我的项目是了解了解神经网络正在查看的哪些部分实现了RL中的代理。 即 我们需要了解它的工作原理以及最终要教的内容,为此,我们在其中构建了一个“东西”网络,以显示它正在查看原始图像的哪些部分。 我在论坛上的第一份报告是关于我们如何通过一系列不同的方法将这一部分嵌入神经网络的。 问题在于嵌入方式,使得不再有任何损坏。 我们似乎已经成功了,但有一些缺陷-图片部分重要性的地图可视化不是很清楚。 我们进行了实验以提高清晰度,但不幸的是,代理从此开始工作变差。


左:清晰的画面,弱者。 右图:粗略图,强势代理。

第二份报告称为“感知梯度网络”,它是关于优化感知损失的-这是一种损失函数,几乎在所有通过神经网络生成图像的地方都使用。 要使用知觉损失,开发人员首先要通过神经网络,然后再进行神经网络。 回溯在计算上很复杂。 我们希望摆脱这种双重传递,而用另一个神经网络代替它,通过该神经网络可以一次传递所有内容,从而提高了速度,减少了内存需求。 现在,我们正在努力改善第二个网络的体系结构,我们正在努力从根本上降低内存成本,而又不会破坏质量。

我对与强化学习相关的所有事物都感兴趣,因为这是最接近通用人工智能(General AI)的领域。 其余领域,例如计算机视觉,人体姿势重建,声音分析,则更加专业化。 它们肯定会在不久的将来更加有用,它们已经可以被带入无人机汽车或进行搜索。 关于RL,除了少数例外,这不能说,但是有了它,就可以解决根本不再解决的任务。 例如,感谢这些技术的人们已经学会了很好地玩非常复杂的计算机游戏,例如DotA和StarCraft。 通常,RL是一种针对您设置的目标优化任何内容的方法。

结论


如果您到文章末尾并且仍然感兴趣,尽管大多数术语尚不清楚,那么好消息是三星提供了免费的在线Stepik 课程 ,我们邀请您参加。 我们之前在博客( 1,2 )中写过关于它们的文章。

对于那些不是刚接触同事的人来说, 三星研究院的空缺职位可能会很有趣。 现在有数据科学家(2人),机器学习工程师(2人),深度学习工程师的职位空缺。

Source: https://habr.com/ru/post/zh-CN484376/


All Articles