视频分析:人脸识别,队列检测器,在视频上搜索对象


台湾公司42Ark和美国“智能” CatFi Box喂食器制造商使用闭路电视摄像机识别猫的脸

1941年,德国电气工程师Walter Bruch在测试V-2火箭的测试地点安装了CCTV系统(闭路电视-闭环电视系统)。 这是有史以来在实践中使用视频监视的第一个案例。 操作员必须一直坐在显示器前。 这种情况一直持续到1951年,直到出现了第一个将图像记录在磁带上的VTR(录像带录像机)设备。

记录到媒体并没有使操作员免于参与该过程的需要。 人脸识别,物体定位甚至运动检测-所有这些功能都是由坐在监视器前的人实时执行,或者事后研究视频档案。

前进的轮子继续前进。 视频监控收到的视频分析完全改变了系统的工作过程。 还记得关于猫和深度学习神经网络的故事吗? 是的,这也是视频分析的一部分,但规模很小。 今天,我们将讨论从根本上改变CCTV系统世界的技术。

队列检测和Beta测试

世界上第一台IP摄像机Neteye 200,由Axis在1996年创建

视频监控诞生于一个封闭的安全系统,旨在解决安全问题。 模拟视频监视的局限性不允许以任何其他方式使用设备。 视频监控与数字系统的集成为通过分析图像序列自动接收各种数据提供了可能性。

重要性很难高估:在通常情况下,连续观察12​​分钟后,操作员会错过多达45%的事件。 连续监控22分钟后,多达95%的潜在干扰事件将丢失(根据IMS Research,2002年)。

复杂的视频分析算法已经出现:统计访问者,统计转换,现金交易统计等等。 观察员在这个系统中消失了-我们让计算机有能力“观察”并得出结论。

智能视频监控的最简单示例是运动检测。 摄像机本身是否有内置探测器并不重要,例如,如果您在计算机上安装Ivideon Server软件,则将使用运动探测器。 一台检测器可以一次取代几位视频监控操作员。 早在2000年代,第一个能够识别帧中物体和事件的视频分析系统就开始出现。

Ivideon当前正在开发多个视频分析模块-自从我们发布OpenAPI以来,通过与合作伙伴集成,事情发展得更快。 一些项目仍处于封闭测试中,但已经准备就绪。 首先,这是与收银机集成以控制现金交易(到目前为止基于iiko和Shtrikh-M)。 其次,已经开发了队列检测器。

我们有一个Ivideon柜台 ,它确定了房间中的顾客数量。 分析使我们能够从专用设备转向云计算。 现在,我们不需要特定的摄像机-任何分辨率为1080p +的监控摄像机都适用。 现在,我们不仅要计算人数,还要确定队列。 因此,他们准备好在人们去站的任何商店,购物中心或办公室排成队列,为队列检测测试提供免费的摄像头。 给我们发送电子邮件以参与该项目。

此外,Ivideon还使用面部识别技术。

谁认识到

Facebook正在以识别西尔维斯特·史泰龙的情感表情为例对DeepFace技术进行测试

苹果,Facebook,谷歌,英特尔,微软和其他技术巨头正在研究这一领域的解决方案。 美国22个机场安装了具有乘客自动面部识别功能的视频监视系统。 在澳大利亚,他们正在开发生物面部识别和指纹识别系统,这是旨在使护照和海关控制自动化的计划的一部分。



中国最大的互联网公司百度在面部识别技术上成功进行了取消门票的实验,该技术的准确度为99.77%,拍摄和识别时间为0.6秒。 在公园入口处,摆放着平板电脑和专用框架进行拍摄。 当游客第一次来公园时,系统会为他拍照,以便将来在照片中使用面部识别功能。 将新照片与数据库中的照片进行比较-这样,系统可以确定一个人是否有权访问。



在中国,技术通常是非常好的。 2015年,隶属于阿里巴巴集团(Alibaba Holding)的在线支付平台运营商支付宝(Alipay)推出了基于Face ++的支付验证系统,Face ++是由中国初创公司Megvii创建的云人脸识别平台。 该系统称为“微笑付款”(Smile to Pay)-它允许支付宝用户通过自拍来支付在线购买的费用(支付宝通过微笑确定所有者)。 中国的UBER已开始使用基于Face ++的驾驶员识别系统来打击欺诈,身份盗窃并提高乘客安全性。

但是,更有趣的是,不要看外国解决方案,而要看俄罗斯提供的服务。 这些技术离最终用户更近(如果他来自我们国家),您可以了解它们,将来可以结合在一起在自己的产品中使用。 周围有很多人脸识别公司。 让我们回顾一些尚待解决的问题。



Vokord公司成立于1999年,使用FaceControl 3D处理来自立体摄像机的同步图像,在框架中构建人脸的3D模型,并自动在现有数据库中查找通过模型获得的模型。 2016年,Vokord 开始使用自己的基于卷积神经网络的数学人脸识别算法,因此它们的算法现在可与任何视频监控摄像机配合使用。 该公司声称,他们可以识别跟随该信息流的人的面部(尺寸为128x128像素)。 2016年底,Vocord DeepVo1算法在全球识别测试中显示出最佳结果,正确识别了 75.127%的个人。



VisionLabs成立于2012年,在俄罗斯和东欧赢得了最大的技术公司竞赛GoTech ,并进入了欧洲计划“ Challenge UP! ”旨在加快基于物联网概念的解决方案和服务在市场上的推出,已吸引了数百万美元的投资,并且已经将其产品引入商业领域。 最近,Otkritie银行推出了VisionLabs人脸识别系统,以优化客户服务和排队等待时间。 好吧,值得阅读一个精彩的故事,CROC专家如何使用VisionLabs 捉住一只猫

在识别和错误率方面显示出最佳结果之一的VisionLabs,还可以与神经网络协同工作,以揭示每张脸的特定特征,例如眼睛形状,鼻子形状,耳廓浮雕等。 他们的Luna系统使您可以在档案库中的照片中找到面部的所有这些特征。 公司的另一项决定是,Face Is识别顾客在商店中的面孔,在CRM系统中查找其个人资料,从中了解购买者的购买历史和兴趣,然后将有关他最喜欢的商品折扣的个人优惠通知发送到手机。

招聘流程的自动化,Skillaz创业公司和VisionLabs计划在2017年底引入计算机识别系统,该系统将评估求职者的行为。 分析数据后,系统将得出有关人员的专业素质和职位适合性的结论。 公司没有透露“租车”系统的全部特征。 众所周知,候选人的社交能力将根据他对在线面试系统提出的一组特定问题的答案进行评估。 神经网络将在监视摄像机的图片中寻找候选人的行为与一个或另一个能力的严重程度之间的关系。

网格是一个人的莱特曼博士和福尔摩斯博士,将考虑候选人的面部表情,他的手势以及相貌。 值得注意的是,在现代心理学中,基于对外部特征和表达的分析来确定人格类型,其精神素质的方法被认为是伪科学的经典例子。 如何解决新产品中的这一矛盾仍然不清楚。


NTechLab演示幻灯片压抑Salman Radaev

NTechLab首先使用一种可根据照片确定狗的品种的应用程序。 后来他们编写了FaceN算法,并在2015年秋天参加了国际竞赛The MegaFace Benchmark 。 NTechLab赢得了四项提名中的两项,击败了Google团队(一年之内,Vokord将在同一比赛中获胜,而NTechLab将升至第四名)。 成功使他们能够快速实施FindFace服务,从VKontakte上的照片中寻找人。 但这不是应用该技术的唯一方法。 在由阿尔法银行(Alfa Bank)与FindFace组织的“阿尔法未来人”节上,访客可以通过将自拍照发送到聊天机器人来在数百人中找到他们的照片。

此外,NTechLab 展示了一种能够使用摄像机图像实时识别性别,年龄和情绪的系统。 该系统能够实时评估受众的反应,因此您可以确定访客在广告消息的演示或广播过程中所经历的情绪。 所有NTechLab项目均基于自学习神经网络。

Ivideon的视频分析方法


人脸识别是视频分析领域最困难的任务之一。 一方面,一切似乎都很清楚,并且早已被使用。 另一方面,人群中的识别解决方案仍然非常昂贵,并且不能提供绝对的准确性。
2012年,Ivideon开始使用视频分析算法。 那年,我们发布了适用于iOS和Android的应用程序,进入了国外市场,在美国,荷兰,德国,韩国,俄罗斯,乌克兰,哈萨克斯坦推出了带有服务器的分散CDN网络,并且成为了在世界范围内同样运作良好的唯一国际视频监控服务。 总的来说,利用二十一点和识别功能进行分析似乎很简单又快捷……我们还很年轻,草似乎更绿了,空气又甜又。

[ 当时,我们正在考虑经典算法。 首先,您需要检测并定位图像中的面部:使用Haar级联 ,搜索具有类似于皮肤的纹理的区域等。 假设我们需要找到第一个遇到的人并仅在视频流中陪伴它。 在这里,您可以使用Lucas-Canada算法 我们通过算法找到人脸,然后确定其中的特征点。 我们使用卢卡斯-加拿大算法陪伴这些点; 他们消失后,我们认为脸已经从视线中消失了。 接收到面部特征后,我们可以将其与数据库中嵌入的特征进行比较。

为了平滑对象(面部)的轨迹以及预测其在下一帧中的位置,我们使用卡尔曼滤波器 这里应该注意,卡尔曼滤波器是为线性运动模型设计的。 对于非线性,使用粒子滤波算法(作为粒子滤波+ 均值漂移算法的变体)。

您还可以使用背景减法算法:该提供了用于减去背景的算法的实现示例+有关实现用于减去ViBe的背景的轻量级算法的文章 此外,不要忘记在OpenCV计算机视觉库中实现的最常见的Viola-Jones方法之一。 ]

简单的人脸识别是好的,但还不够。 即使有关节相交或障碍物暂时“消失”的情况,也必须确保稳定跟踪框架中的多个对象。 计算穿过某个区域的任意数量的对象,并考虑相交的方向。 要知道框架中的一个/多个对象何时出现和消失,请将鼠标移到桌子上的脏杯子上,然后在视频档案中找到出现的那一刻以及谁留下的那一刻。 在跟踪过程中,对象可以发生很大的变化(根据变换)。 但是从一帧到另一帧,这些变化将使得可以识别物体。

此外,我们希望向所有人(要求最苛刻的用户)提供通用的云解决方案。 该解决方案必须灵活且可扩展,因为我们自己无法知道用户想要监视什么以及用户想要考虑什么。 很有可能有人会建议自动确定获胜者,然后根据艾维生进行蟑螂广播。

仅仅五年之后,我们就开始测试视频分析的各个组成部分-我们将在新文章中详细讨论这些项目。

PS因此,我们正在寻找队列检测器测试的志愿者。 以及SHTRIH-M系统的用户,用于测试新的现金管理系统。 写在邮件或评论中。

Source: https://habr.com/ru/post/zh-CN401765/


All Articles