
直到它学会了如何用人脸创造奇迹,我们与计算机视觉的关系才变得如此嘈杂。 算法取代了照片和视频中的人物,改变了年龄,种族和性别。 这是近年来主要的在线娱乐活动,也是焦虑的根源。 今天的应用程序风靡全球,明天的抗议者看到带有识别人脸的摄像头的支柱。 而且,看来,我们才刚刚开始。 电脑可以从我们的脸上读取的内容将会越来越多。
本月初,我们访问了Neurodata Lab的办公室。 公司的主要方向是识别人类情感。 我们试图找出这样做的原因以及原因。
在My Circle中,Neurodata Lab的平均得分为4.6 ,平均推荐率为95%。该员工对诸如职业发展,有趣的任务,与同事的良好关系以及公司使世界变得更美好这一事实等标准进行了评分。
2016年,十名演员(五男五女)参加了不寻常的枪击事件。 他们去了一个穿着黑色紧身西装的空旷区域,在房间不同角落的摄像机上,在绿墙的背景下,他们什么也没画,只是他们的中立状态。
然后,演员们表演了短剧本。 剧本中没有副本,只有情况的描述,所以演员们即兴创作。 在每个场景中,他们都需要体验六种情绪中的一种-愤怒,悲伤,厌恶,喜悦,恐惧或惊奇。 经验丰富的演员的面部表情和手势通常会被刻板印象化,更适合戏剧而不是现实生活,因此这里的所有演员都是学生。

随后是电影学校的一位老师,但不仅限于此。 主要负责人是科学家和研究员Olga Perepelkina。 除了现场的视频和声音,还记录了皮肤表面的生物电反应和其他生理特征。 每个场景都由不同的演员多次拍摄,结果,他们收集了大约七个小时的素材。
演员们完成了他们的工作后,描述了他们在比赛中实际经历的情感和地点。 然后又有21个人观看了这些视频,并在每个视频中都记录了演员似乎感受到的情感。 这种情感在什么时候开始,什么时候结束。

这样就开始了第一个用于情绪识别的俄语多模式数据集
-RAMAS的工作 。
但是获得的材料仅适用于科学研究和实验,不适用于训练工业规模的算法。
-(Olga Perepelkina)我们需要收集一个巨大的数据集。 不是7,而是107个小时以上。 我们构建了Emotion Miner Web平台,上传了一系列在Internet上公开可用的视频,吸引了来自世界各地的成千上万的人,他们开始为数据加标签。 因此,我们在20个等级(不仅是情感,还包括各种认知和社会特征)上标记了140小时的视频,并收集了世界上最大的情感数据集。
-您如何找到这么多人来标记?-(O.P.)很简单-我们为工作付了钱。 进行促销,在营销上投入少量预算。 原则上,这不是很困难。 现在,该平台上已有近7万人注册。 但实际上,大约有2000人标记了该数据集。
产品展示
创业公司Neurodata Lab由企业家George Pliev和Maxim Ryabov创建。 他们资助的研究不是出于科学的好奇心,而是为了寻找该技术的商业应用。 现在,情感计算或“情感计算”已不是神经网络和计算机视觉市场上最受欢迎的领域。 人脸识别领域竞争激烈。 娱乐应用程序一个接一个地成为焦点。 能够情绪化的系统几年来一直没有“有前途”的状态。 但是,根据Gartner和其他研究的预测,她预测会快速增长。
Neurodata Lab进行了大约三年的研究,收集数据并开发算法。 现在他们将研究结果用于商业产品。 例如,Neurodata Lab已经为Promobot机器人开发了一种情感AI。 该机器人使用情绪识别系统来正确响应转向它的人们的提示。 该演示在今年的CES上进行了
展示 。
该算法在呼叫中心中用于监视呼叫和评估员工绩效。 现在,所有这些都是手动完成的-经理们必须选择性地收听通话记录,并检查员工是否对客户不礼貌或是否保持礼貌。 系统可以自动实时执行此操作。 在此过程中,还会评估服务对象的情绪状态-他对治疗是否满意。 Rosbank推出了类似产品Neurodata Lab的飞行员。 该算法分析呼叫以衡量客户满意度。
第二个产品分支更具全球化性。 该公司开发了自己的
API-面向第三方开发人员的一整套工具。 现在,它包括情绪分析,面部跟踪器,声音分析器,您可以使用它们将具有多种声音的音频记录拆分为不同的音轨并分离噪音。 很快就会有人体追踪器,脉搏检测器,来自人的视频的呼吸追踪器以及其他技术或算法。
工作原理
一个人学会了无意识地定义情绪-从童年开始,他就开始将某些行为模式与周围的人所经历的情绪联系起来。 已经了解了这一点,他可以分析它的作用。 最明显的是通过嘴和眼睛的表情。 但是,脸上有很多面部肌肉,它们产生了令人难以置信的细微差别。 我们可以自动感知它们,尽管我们可以有意识地注意到某些细节。
该神经网络还可以分析数百小时由人标记的视频。 系统对情绪进行分类的迹象并不总是很明显。
-(Andrey Belyaev)有些班级有共同的模式。 例如,“愤怒”和“惊讶”类别的特征是面部表情强烈-眉毛抬高,眼睛发圆,耳朵冒烟。 网格肯定会响应它们,但不仅如此。 例如,在看起来像眉毛的小眉毛的情况下,她会冷静地确定正确的班级,因为她也会对变化的动态做出反应。 在这方面有趣的一类是“悲伤”。 大多数情况下,当一个人悲伤时,他的脸不会在相当长的时间内改变。 网格注意到表达式的动态为零,并假设它是“中性”或“悲伤”,然后才弄清其余符号并得出该类正确的结论。
-声音呢? 某些频率,范围,音调?-(A.B.)声音更复杂。 每个人都有自己的标准音量,您无法获得对声音强度的依附。 有人可以安静而均匀地说话,但实际上他非常生气。 而且,即使我们将声音可视化并了解系统要注意的内容,我们也无法像面部一样对它进行解释。 面部具有清晰的点:眉毛,眼睛,耳朵等。 但是没有声音。 声音以频谱图的形式馈入网格,其中哪些特定部分负责什么以及在什么时候更难理解。 因此,没有标准答案,即在处理声音时网格要注意什么。
-如何记录脉搏?-(O.P.)跟踪肤色的微小变化。 当心脏跳动时,血液中充满了氧气,血液中的氧合改变了,因此皮肤的颜色也改变了。 用眼睛无法解决问题,但借助算法可以实现。
-但这很大程度上取决于视频的质量。-(O.P.)我们已经看到这种算法很长时间了,不仅可以使用出色的相机,还可以使用常规的网络摄像头。 屏幕闪烁时,我们知道如何工作。 例如,当一个人看电影时,他的光照强度不断变化。 当一个人移动和讲话时,我们能够在一定条件下工作。
脉冲是一个周期性信号,并且受到清晰监控,并且胶片的照明不会周期性变化。 因此,可以将有用信号与噪声分离。 我们甚至将此技术与健身追踪器进行了比较。 我们的算法同样出色-甚至比其中一些更好。
-系统可以看到一个人看不到的东西,但是一个人仍然可以更好地识别情绪。 怎么了-(O.P.)一个人做得更好,因为他考虑了上下文信息。 但是为此,需要一种多模式系统,该系统可以通过立即分析文本的脸部,语音,手势,脉搏,呼吸和语义分析来提高准确性。
这就是人类感知的原理。 您会从后面看到一个男人,看着他坐下,然后想:“看来他很伤心。” 我们的目标是创建一种算法,该算法可以感知人的情绪-通常在任何情况下,对于所有信息都是如此。
但是现在,该系统优于人类的优势是它可以自动分析大量数据。 有时候,一个人可以做得更好,但是您不会让他全天候坐下来,用耳朵听,例如打给呼叫中心的电话。
-如果我遇到了情绪却试图隐藏它,系统会理解吗?-(O.P.)也许。
进展如何
Neurodata Lab是一家小型公司,直到最近才以实验室的形式存在。 它有一个科学部门,一个数据科学团队和一个开发部门,将新的开发和发现整合到产品中。 每个部门是5-6人。 该团队共有大约30名员工。
研究科学家
心理学家,生理学家和生物学家在科学部门工作。 员工只有四个人和三个实习生,但是他们已经建立了一个完整的国际协作网络。 例如,在俄罗斯,有与莫斯科国立大学,高等经济学院和RANEPA合作的项目。 国外-与格拉斯哥大学,巴黎工业大学,日内瓦大学以及热那亚的工程实验室一起从事运动分析。
进行情感计算的科学家是整个社区。 他们定期聚会在世界各地的各大学举行联合研讨会。 每两年召开一次专门针对情感技术的大型会议。 今年,Neurodata Lab将在此会议上组织自己的研讨会。
-我想知道研究员的日常工作是什么?-(O.P.)首先,他们阅读文章。 例如,我们想学习如何识别一个谎言,而不仅仅是情感,我们需要弄清楚什么是谎言,谎言检测器是如何工作的,在该领域已经完成的工作,经典测谎仪的问题是什么,如何被愚弄,哪种算法最酷,人的心理安排如何,一个人躺着时有什么心理特征,生理如何运作,一个人为什么作弊时鼻子会变冷,耳朵变红等等。
然后,我们进行了大量的实验。 为了创建一个可以从视频中识别脉搏和呼吸频率的系统,有必要收集大量数据。 主题不断地来到我们身边,我们拥有设备和各种各样的东西,它们可以通过接触的方式来测量一个人的脉搏。 我们测量心电图,光电容积描记法,皮肤电反应。 当我们想了解血液如何流经面部时,我们进行了有趣的实验,然后将电极直接粘在面部上。

最后,我们向人们展示了不同的vidosiki。 我们正试图吓them他们,反之亦然-要加油。 研究人员分析数据,考虑统计数据,并根据这些数据撰写文章和专利。 然后他们来到安德烈(Andrei)的技术部门,说:“我们读了一件很酷的文章,进行了一次实验,您可以尝试制作一种可以像这样工作的算法。” 或安德烈(Andrei)来到我们身边说:“我们要检测跌倒,我们需要弄清楚如何收集数据。” 科学部门坐下来思考如何简单而快速地完成它。
-做梦。-(AB)有些人认为-其他人认为。
日期科学家和开发人员
数据科学与产品开发同时进行。 当需要在研究中有回旋余地时,数据传感器专家会在Torch上训练神经网络,而在需要制定快速解决方案时,会在MXnet上训练神经网络。 在确认了有关神经网络适用性的所有假设之后,他们将它们转移到TensorRT以提高工作速度,并将其交给开发团队在生产中实施。
Neurodata Lab已经创建了自己的云服务,其他开发人员可以访问该服务-用于研究或商业项目。
-(A.B.)用Python编写在神经网络之间分配任务的软件内核。 我们需要快速编写它,但是结果还不错。 他与码头工人合作,通过RabbitMQ进行通信,在Postgres中运行,并且gRPC层挂在顶部,这使您可以与外界建立安全的连接,并为其他程序员和研究人员提供访问我们技术的途径。
用Symphony编写的Web。 使用gRPC实现的API。 这是一件很酷的Google事情,它使您可以建立安全的通道并与系统交换密钥-从而仅允许访问某些内部功能。 例如,您只能将密钥提供给可以检测脸部并识别情绪的工具。
我正在研究一个想法-我想建立自己的小型数据中心,推理将在此旋转。 它将基于Jetson Nano。 这是一台价值一万卢布的小型单板计算机。 像Raspberry Pi一样,仅带有图形卡。 使用处理器,RAM和其他所有部件,它的成本比1080Ti便宜6倍,而无需考虑其余的计算机组件,但它的工作速度也要慢6倍。
-它会给什么?-(A.B.)首先,它更便宜,并且运作方式大致相同。 其次,它将不再对环境造成太大伤害。 第三,他们不需要很多电力。 六台Jetson Nano的总功率几乎达到1080 Ti,所消耗的能源减少了六倍,占用的空间也大大减少。
-为什么矿工还没有到达他们?-(A.B.)矿工需要他们的视频卡才能一次执行很多操作。 但是对我们来说,它并不是那么重要。 我们有轻量级任务,需要使用小功率快速完成并返回结果。 当您有六个这样的任务时,将它们分配到六张小卡片中比将所有内容同时放入一张大而有力的卡片中更为合理,在这些地方将这些任务推到肘部。
招聘团队怎么样
春天,产品经理加入团队,现在这家初创公司需要开发人员。 后端提供程序将支持PHP和Symphony中的Web,或者说服您迁移到例如Python或Go。 前端将为新的Web服务创建页面,从而扩展功能并提高现有服务的可用性。 内核开发人员,除了具有较高水平的Python知识外,还了解数据科学以及与硬件,测试人员,与SDK一起工作的C ++开发人员的工作细节。
-您的录用情况如何?-(A.B.)就科学家的约会而言,我正在提出一项不是很困难的但具有指示性的任务,通过该任务可以判断思考和编程的能力。 我自己在四十分钟内完成。 Junior的管理时间为4-6个小时。 之后,我们召集并讨论技术问题。 我建议他为一项新任务集思广益。 我们一起假设,一起测试。 我只是看着一个人在一个陌生的环境中的任务感觉。 他是否了解模型开发的过程是如何进行的,在那里可能会遇到什么以及您不应该害怕的事情。
在这些阶段之后,约有10%的人仍然存在。 通常情况下,大约有50人响应六月,我们将剩下的五人召集到办公室进行最后面试,我们几乎完全准备好与团队进行沟通。
-和开发人员一起吗?-(A.B.)但是对于开发人员来说,一切都会变得更糟。 我们给他们进行了这样的测试:您需要在docker内部喜欢的任何框架上部署小型服务。 该服务应与其他docker通信,其中包括Postgres和RabbitMQ。 有一个任务是读取rebbit中的通道,从那里执行填充数据库的任务,并将所有内容写入数据库。 看起来这个任务非常简单,大约需要一个小时。 但是,当我们说要传输图片以写入数据库时,一切都崩溃了。
事实证明,每个人都以完全不同的方式解决这个问题。 每个人几乎总会有某种新的想法,我以前从未见过或想象过。 但是同时每个人都不会检查某些东西。 在测试中,约有一半的候选人被裁掉。 然后,我们还致电办公室中的开发人员。 我们开始讨论一般主题,以了解下一步,想要什么等等。 不幸的是,在那之后,我们的排气量几乎为0%。
-根据什么标准,您了解一个人没有足够的软技能,或者他将无法在初创公司工作?-(AB)在以下类别的简单对话中:“听,但是想像……”。 他开始思考,您不小心加上了我们的截止日期,并且还有两个星期需要完成两个月的项目。 有人说:“这是不允许的。” 好吧 其他人则说:“这很糟糕,但我们会努力做到最大。 当然,我们不会做任何事情。 也许是一半,但这比四分之一更好。 总的来说,一切都会很酷,因为最糟糕的事情是尚未完成的项目。” 这些人-立即。 与任务有关的案例。
道德标准和道德困境
人脸识别,情感计算-所有这些都是基于数据的研究和技术。 来自以下类别的问题:“数据应属于谁”,“谁以及如何控制其收集” –一个现代的边境地区。
每个人或多或少都同意的折衷方案之一是非个人收藏。 , GDPR . .
. , , , .
. , ?
— (..) , - . . . ? ? , : « , , , ». .
, : « , , , !» , , . . «, , - , , , , ». 50 , 5-6 , . , . - . , .