计算机视觉:人工智能如何监视我们

最近,我们谈到了如何在电影院中使用计算机视觉技术对我们进行分析:情感,手势,仅此而已。 今天,我们正在与Microsoft Research的同事发布对话。 他致力于实现这一愿景。 在裁切下,将详细介绍技术发展,GDPR以及应用领域。 立即加入!



从技术角度来看,计算机视觉专家“创建了用于自动分析图像并从可见世界中提取信息的算法和系统”。 从外行的角度来看,他们创建了可以看到的机器。 首席研究员兼研究部门负责人Gang Hua博士和计算机视觉专家团队就是这样做的。 对于我们在日常生活中越来越遇到的诸如个人机器人,无人驾驶车辆和无人机之类的设备,视觉非常重要。

今天,华博士将告诉我们,人工智能和机器学习的最新进展如何帮助改善了图像识别和视频“理解”技术,并为艺术的发展做出了贡献。 他还将解释分布式集成方法主动学习的本质,在这种方法中,人和机器在实验室中协同工作,以创建可以看到和识别开放世界的计算机视觉系统。


华刚,首席研究员,研究负责人。 照片由Maryatt Photography提供。

面试


如果回首十到十五年,我们将看到计算机视觉专家社区中的多样性越来越多。 为了从不同角度考虑问题并找到解决方案,应用了各种机器学习方法和来自各个领域的知识,例如物理和光学。 我们强调多样性在所有活动领域中的重要性,因此我认为,如果我们拥有更多不同的观点,科学界将会受益。

我们向您介绍先进的技术研究及其背后的科学家。

从技术角度来看,计算机视觉专家“创建了用于自动分析图像并从可见世界中提取信息的算法和系统”。 从外行的角度来看,他们创建了可以看到的机器。 首席研究员兼研究部门负责人Gang Hua博士和计算机视觉专家团队就是这样做的。 对于我们在日常生活中越来越遇到的诸如个人机器人,无人驾驶车辆和无人机之类的设备,视觉非常重要。

今天,华博士将告诉我们AI和机器学习的最新进展如何帮助改善图像识别和视频“理解”技术,并为艺术发展做出了贡献。 他还将解释分布式集成方法主动学习的本质,在这种方法中,人和机器在实验室中协同工作,以创建可以看到和识别开放世界的计算机视觉系统。 有关此内容以及更多内容-在新版的Microsoft Research播客中。

您是MSR(微软研究院)的首席研究员和研究部门的主管,您的专业是计算机视觉。

是的

一般而言,为什么计算机视觉专家会早上起床? 它的主要目标是什么?

计算机视觉是一个相对年轻的研究领域。 简而言之,我们正在尝试创造一种可以像看到人类一样感知世界的机器。 用更专业的语言来说,以简单图像和视频形式输入计算机的信息可以表示为数字序列。 我们要从这些数字中提取一些描述世界的结构和一些语义信息。 例如,我可以说图像的某些部分对应于猫。 而另一部分对应于机器,我的意思是这种解释。 这就是计算机视觉的目标。 对于人们来说,这似乎是一项简单的任务,但是,为了教计算机,在过去的十年中,我们不得不做很多工作。 但是,计算机视觉作为研究领域已经有50年的历史了。 尽管如此,我们仍然必须解决许多问题。

是的 5年前,您说过以下话:“为什么经过30年的研究,我们仍在研究人脸识别问题吗?” 告诉我们您如何回答这个问题,以及这段时间发生了什么变化。

如果我们从五年前的角度回答,那么我要说的是,自从计算机视觉和面部识别领域的研究开始以来已经过去的30年中,我们取得了很多成就。 但在大多数情况下,我们谈论的是一个受控的环境,在该环境中,当您捕捉面部时,可以调整照明,相机,装饰品等。 五年前,当我们开始在不受控制的环境中进行更多体内工作时,事实证明识别的准确性存在巨大差距。 但是,在过去的五年中,我们的社区通过使用更先进的深度学习方法取得了长足的进步。 即使在体内人脸识别领域,我们也取得了进步,并真正达到了将这些技术用于各种商业目的的地步。

事实证明,在过去的几年中,深度学习确实使在计算机视觉和图像识别领域取得巨大成功成为可能。

对啊

当我们谈论完全受控且不可预测的环境中的条件差异时,我记得播客的几位科学家,他们注意到当数据不够完整时计算机将发生故障……例如,序列“狗,狗,狗,三腿狗” “-计算机开始怀疑后者是否也是狗?

是的

是真的吗 那么,什么是以前无法访问的深度学习方法可以让您今天在识别领域中做呢?

这是一个很大的问题。 从研究的角度来看,深度学习提供了多种可能性。 首先,您可以进行全面的培训,以便确定语义图像的正确表示形式。 例如,回到狗身上。 假设我们查看狗的各种照片,例如64×64像素的图像,其中每个像素可以采用大约250个不同的值。 如果您考虑一下,这是大量的组合。 但是,如果我们以狗为模板,像素相互关联,那么与“狗”相对应的组合数量将少得多。

使用全面的深度学习方法,您可以教系统确定“狗”的正确数字表示。 由于结构的深度,我们可以创建真正复杂的模型,可以掌握大量数据进行训练。 因此,如果我的训练数据涵盖了模板的所有可能选项和表示形式,那么最后,我将能够在更广泛的范围内识别出它,因为我考虑了几乎所有可能的组合。 这是第一。

另一个深度学习机会是一种构想行为。 因此,有一层结构和一层表示层,当信息或图像落入深层网络并且开始提取低级原始图像时,该模型可以逐渐从这些原始图像中收集越来越复杂的语义结构。 深度学习算法会识别与较大模式匹配的较小模式,并将它们组合在一起以形成最终模式。 因此,它是一个非常强大的工具,尤其是对于视觉识别任务。

因此,CVPR会议的主要主题是利用计算机视觉识别模式。

是的,没错。

模式识别是技术真正追求的目标。



当然可以 实际上,计算机视觉的目的是捕获像素中的含义。 从技术角度来讲,计算机需要了解图像是什么,然后从中获得一定的数值​​或符号结果。 例如,数值结果可以是描述空间结构或物体形状的三维点云。 正如我之前所说,它也可以与某些语义标签相关联,例如“狗”或“猫”。

知道了 因此,让我们谈谈标签。 机器学习过程的一个有趣且重要的特征是计算机需要同时提供像素和标签。

当然可以

您谈到了在计算机视觉环境中最有趣的三件事。 视频,面部,艺术和多媒体。 让我们分别讨论它们中的每一个,然后从您当前的研究开始,您称之为视频的“理解”。

是的 “了解视频”一词不言自明。 作为输入,我们使用视频而不是图像。 在这里,不仅要识别像素,还要考虑像素的移动方式,这一点很重要。 对于计算机视觉,图像识别是一个空间问题。 就视频而言,它成为时空的,因为出现了第三个时间维度。 而且,如果您查看与流视频相关的许多实际任务,无论是室内监控摄像机还是高速公路上的公路摄像机,最重要的是对象正在以恒定的帧流移动。 我们需要从该流中提取信息。

这样的相机产生大量的视频材料。 在超市等地方全天候拍摄的安全摄像机。 从这些记录中可以为人们带来什么好处?

我的团队正在研究一个孵化项目,我们在其中创建了一项基础技术。 作为该项目的一部分,我们正在尝试分析道路上的交通。 城市中已经安装了大量的公路摄像机,但是他们录制的大多数视频都是浪费的。 但是,这些相机可能有用。 让我们看一个例子:您想更有效地控制交通灯。 通常,红色和绿色信号的变化取决于设置的时间表。 但是,如果我看到一个方向上行驶的汽车比其他方向上行驶的汽车少得多,那么为了优化运动,我可以在过载的方向上将绿色保持更长的时间。 这只是一个应用程序。

请翻译这个想法!

我们会尽力!

尽管几乎没有人在另一个方向上开车驶向绿色,我们中哪一个没有站在红色的交通信号灯旁?

在这里!

大约,您问自己:为什么我必须等待?



我同意 这项技术也可以应用在其他情况下,例如,当我们积累了大量的录像资料时。 假设市民要求增加自行车道。 我们可以使用视频,分析路况数据,然后决定是否要在此地点骑自行车。 通过引入该技术,我们可以显着影响交通流量并帮助城市做出此类决策。

我认为这是个好主意,因为在大多数情况下,我们是根据自己的想法而不是根据数据做出此类决定的,因此我们可以说:“嘿,你知道,这里的自行车道非常顺便说一句 而且这里只会使运动复杂化。”

没错 有时为此使用其他传感器。 他们雇用了一家在道路上安装特殊设备的公司。 但这在经济上效率低下。 但是道路摄像头已经安装好了,只能在周围闲逛。 视频流已经可用。 对不对 那么为什么不利用这一点呢?

我同意 这是如何应用机器学习和视频理解的一个很好的例子。

没错

因此,应用程序的另一个重要领域是人脸识别。 我们再次回到“为什么我们还在研究面部识别问题?”这一问题。

没错

顺便说一下,这种技术在某些情况下可以以非常有趣的方式应用。 告诉我们在面部识别领域正在发生什么。 这是谁做的,有什么新变化?

回顾过去,当我还在Live Labs Research工作时,Microsoft就对人脸识别技术进行了研究。 然后,我们创建了第一个面部识别库,各种产品开发小组都可以使用该库。 这项技术是在Xbox上首次引入的。 然后,开发人员尝试使用面部识别来自动登录系统。 我认为这是第一种情况。 随着时间的流逝,面部识别研究的中心已经转移到了Microsoft Research Asia,在那里我们仍然有一群与我合作的研究人员。

我们一直在努力扩大可能性的界限。 我们现在正在与技术服务合作,以帮助我们收集更多数据。 根据这些数据,我们可以训练更高级的模型。 最近,我们专注于研究方向,我们称之为“保留识别权的人脸合成”。 专家的深度学习社区也非常成功。 他们使用深层网络来训练可模拟图像分布的生成模型,以便可以从中提取数据,即实际合成图像。 因此,您可以创建可创建图像的深层网络。

但是,我们想更进一步。 我们要合成面孔。 同时,我们希望保持对这些人的认可。 我们的算法不应只创建没有语义含义的任意面孔。 假设我们要重现布拉德·皮特的脸。 您需要创建一张看起来像他的面孔。 如果您需要重现我认识的人的面孔,那么结果必须是准确的。

也就是说,您想保持对要重新创建的人的认可吗?

对啊

顺便说一句,我想知道随着人们的年龄增长,这项技术是否可以长期使用,还是有必要不断地更新个人数据库?

这是一个很好的问题。 我们目前正在进行研究以解决此问题。 在当前的技术水平上,仍然有必要不时更新数据库。 尤其是当面孔发生很大变化时。 例如,如果进行了整容手术,现代系统将无法产生正确的结果。

等等,不是你。

是的,完全不同。 这个问题可以从多方面解决。 在17-18岁到大约50岁之间,人脸的变化并不大。但是,出生后立即发生什么呢? 孩子们的脸会发生很大的变化,因为骨头会长大,而且脸和皮肤的形状也会发生变化。 但是,只要一个人长大并进入成熟阶段,变化就会开始非常缓慢。 现在,我们正在进行研究,并在此框架内开发老化过程的模型。 他们将帮助创建一个基于年龄的改进的面部识别系统。 实际上,这是一项非常有用的技术,可以应用于执法中,例如,以便识别多年前被绑架的儿童,他们...

他们看起来很不一样。

是的,它们看起来不同。 如果智能人脸识别算法可以考虑原始照片...

可以这么说,如果他们在更早的时候被绑架,在14岁时会是什么样?

是的,是的。

这是一个很棒的应用程序。 让我们谈谈您正在积极探索的另一个领域-多媒体和艺术。 告诉我们科学如何与艺术相交,尤其是关于您在艺术风格深层转移领域的工作。

好啊 看一下人的需求。 首先,我们需要食物,水和睡眠,对吗? 一旦基本需求得到满足,一个人就会对艺术产生强烈的渴望。

和创造的欲望。

并创建艺术品。 作为这一研究领域的一部分,我们希望将计算机视觉与多媒体和艺术的艺术品联系起来。 我们可以使用计算机视觉来给人们带来艺术乐趣。 作为过去两年来我们一直在进行的一个单独研究项目的一部分,我们创建了一系列算法,如果提供了这种风格的样本,您可以使用这些算法来创建任何艺术风格的图像。 例如,我们可以创建梵高风格的图像。

梵高?

是的,或者其他艺术家...

雷诺阿或莫奈...或毕加索。

是的,其中任何一个。 你记得的任何人...

有趣 使用像素?

是的,使用像素。 深度网络也使用我们开发的一些深度学习技术来创建此模型。

这项研究似乎需要许多领域的知识。 您在哪里找到有能力...

我想说的是,从某种意义上说,我们的目标是……您知道,艺术品并不总是向所有人提供。 有些艺术品确实非常昂贵。 在这种数字技术的帮助下,我们正在努力使普通人可以进行此类工作。

使他们民主化。

是的,正如您所说,使艺术民主化。

这令人印象深刻。

我们的算法可让您为每种样式创建清晰的数值模型。 如果我们要创建新样式,甚至可以混合使用它们。 这让人想起一个艺术空间的创建,在这里我们可以研究中间选项,并观察技术从一位艺术家转移到另一位艺术家时的变化。 我们甚至可以更深入地研究,并试图了解是什么决定了特定艺术家的风格。

我特别感兴趣的事实是,一方面,我们正在谈论使用数字:计算机科学,算法和数学。 另一方面,谈论艺术则是形而上学的范畴。 但是您将它们组合在一起,这表明科学家的大脑可以具有艺术性。

没错 我认为我们用来帮助​​将所有内容整合在一起的最重要工具是统计信息。

有趣

.

, … – - MSR, – . , ?

. , , -. … . , - . - , , . . .

, , Amazon Mechanical Turk. . , . . , . -, , . -, , .

. . . , . , , . .

, . . , , ?

, . , , . ( ), , , -, .

, .

. , , , , , . . , NIH, - (co-robots).

- ?

-. . , . , . , . , . , . , - , , .

, , . , , ? , , ? . . , , , .

Microsoft Research ?

Microsoft . , 2006-2009 Live Labs. . . , . Nokia Research, IBM Research …

-, ?

, -, . Microsoft Research 2015 . , 2017 .

. ?

. Microsoft Research — . . — . . . . , , , Intelligent Group , .

.

是的

, , . - , ? -, ?

, , . . : . , , , , , - . . , , , , . , .

… , : , , ? , , , ?

Microsoft (GDPR). , , , , . , . - -, . . , - . , ? , , . . , , , …

, . : « . ».

是的,没错。

, , . ? 10 ?

. , . . , . . , .

, , «» . , - , . - , ? . — . , . , , . , . , . . . , …

.



. . . 10-15 , , . , , . , , , .

. , , , .

是的,完全是!

要了解有关Gang Hua博士的更多信息以及计算机视觉方面的惊人进步,请访问我们的网站:Microsoft.com/research

Source: https://habr.com/ru/post/zh-CN418251/


All Articles