
在过去的几年中,跟踪视频会议中讲话的参与者的话题越来越流行。 这些技术使实现实时处理音频/视频信息的复杂算法成为可能,这促使Polycom在大约10年前推出了世界上第一个具有智能自动扬声器跟踪功能的大规模解决方案。 几年来,他们设法一直是这种解决方案的唯一所有者,但是思科并没有花太多时间等待,而是将他们的智能两室系统版本推向市场,该系统与Polycom解决方案具有相当的竞争力。 多年来,视频会议的这一部分一直受到几种
专有产品的功能的限制,但是本文致力于提供第一种
通用解决方案,用于通过语音引导摄像机,并与视频会议的硬件和软件基础结构兼容。
在继续描述解决方案并演示可能性之前,我想指出一个重要事件:
我很荣幸向Habra社区介绍致力于视频会议解决方案(VKS)的新中心 。 现在,在(布雷和UFO的)共同努力下, 视讯会议在哈布雷市有了自己的家园,我邀请迄今为止涉及这一广泛且相关主题的所有人订阅新的集线器 。将相机对准扬声器的两种情况
目前,VKS解决方案集成商为实现演讲者任务选择了两种不同的方式:
- 自动-智能
- 半自动-可编程
第一种选择只是Cisco,Polycom和其他制造商的解决方案,我们将在下面进行介绍。 在这里,我们正在处理将摄像机对准视频会议中讲话的参与者的完全自动化。 独特的处理音频/视频信号的算法使摄像机可以自行选择所需的位置。
第二种选择是基于各种外部控制器的自动化系统,我们将不对其进行详细介绍,因为 本文重点介绍扬声器的自动跟踪。
没有第二种方案的支持者可以实施相机指导,这是有原因的。 经验丰富的集成商了解Polycom和Cisco的智能解决方案需要全职自动化的理想操作条件。 但是这种情况并非总是可能的,因此以下针对摄像机指向任务的解决方案有时会成为系统的保证:
1.在相机的内存中(有时在控制控制器中),所有必需的预设(旋转设备的位置和光学变焦比)都预先手动输入。 通常,这是会议室的总体平面图,并且是肖像会议模式下每个会议参与者的视图。
2.接下来,将所需预设呼叫的发起者安装在指定的位置-这些是麦克风控制台或单选按钮,通常是任何可以向控制控制器提供其理解信号的设备。
3.对控制控制器进行编程,以便每个启动器都有自己的预设。 房间的总体计划-所有启动器都已关闭。
结果,当使用例如会议系统和控制控制器时,扬声器在开始讲话之前激活其个人麦克风控制台。 控制系统立即完成摄像机的保存位置。
此方案可完美运行-系统无需执行语音三角测量和视频分析。 按下按钮-预设生效,没有延迟或误报。
控制和自动化系统用于大型,复杂的房间,有时安装的不是一个,而是几个摄像机。 好吧,对于中小型会议室,自动系统(如果您有预算)非常适合。
让我们从开国元勋开始。
宝利通EagleEye总监

这一决定在视频会议领域引起了轰动。 Polycom EagleEye Director是第一个智能相机瞄准解决方案。 该解决方案包括一个EagleEye Director基本单元和两个摄像头。 该第一种实现方式的一个特点是,一个摄像头仅分配给演讲者的大视野,第二个摄像头分配给会议室的总体规划。 同时,一般平面摄像机通常可以与底座分开放置在会议室的其他位置-它不直接参与自动导航过程。
该系统的工作原理如下:
- 房间总体计划的摄像头处于活动状态-每个人都保持沉默
- 扬声器开始说-麦克风阵列拾取声音,摄像头采用包括语音三角测量的专利技术向声音移动。 仍在活动的主相机
- 主摄像头才刚刚开始搜索声源,进行视频分析。 系统使用鼻-嘴连接确定扬声器,并用扬声器构图并显示来自主摄像机的视频流
- 扬声器正在改变。 麦克风阵列了解到正在从另一个地方听到声音。 同样,总计划也包括在内。
- 再从第二点开始
- 如果新扬声器与前一个扬声器在同一帧中,则系统会将定位更改为“热”,而不会将活动流程更改为总体规划。
我认为,不利的一面是只有一台主摄像头。 当更换扬声器时,这会导致明显的延迟。 而且每次进行指导时,系统都会包括整个房间的总体计划-进行生动活泼的对话,这种闪烁会开始令人烦恼。
宝利通EagleEye总监II

这是Polycom解决方案的第二个版本,该版本是最近发布的。 操作原理已经发生了变化,变得更像是思科的解决方案。 现在,两个PTZ摄像机都是主要摄像机,可用于从一个扬声器到另一个扬声器的无缝通道切换。 对于会议室的总体计划,现在负责单独的摄像头,并将其集成到EagleEye Director II基座的基座中。 由于某种原因,此广角摄像机的视频流会显示在屏幕角落的另一个窗口中,占主流的1/9。 定位的原理是相同的-语音三角测量和视频流分析。 而且瓶颈是一样的:如果系统看不到说话的口,则不会带入摄像头。 但是这种情况可能经常发生-说话者转身离开,说话者侧身转动,说话者-口腹止痛,说话者用手或文件挡住了嘴。
两个宣传视频均已正确拍摄-2人轮流发言,并且按照言语治疗师的任命张开了嘴。 但是,即使在这样精致的条件下,也存在很大的延迟。 但是,另一方面,取景是无可挑剔的-一个舒适的肖像计划。
思科网真SpeakerTrack 60

我将使用官方手册中的文字来描述此解决方案。
SpeakerTrack 60采用独特的两摄像机方法,可以在参与者之间快速直接切换。 一台摄像机可以快速找到活动演示者的特写镜头,另一台摄像机可以搜索并显示下一个演示者。 如果当前帧中已经存在下一个演示者,则MultiSpeaker功能可防止不必要的切换。不幸的是,我没有机会亲自测试SpeakerTrack 60。 因此,有必要根据“来自现场”的观点并根据以下演示视频的分析结果得出结论。 悬停在新扬声器上时,我计算出将近8秒的最大延迟。 根据视频判断,平均延迟为2-3秒。
华为智能跟踪摄像机VPT300

我偶然发现了华为的这种解决方案。 该系统的成本约为9000美元。 仅适用于华为终端。 开发人员添加了“技巧”-如果房间中没有其他人,则两个扬声器的视频在一个屏幕上的布局。 根据特性和声明的功能-这是自动引导系统的一个非常有趣的版本。 但是,不幸的是,我没有找到任何演示材料。 唯一涉及此主题的视频是该解决方案的视频录像,没有音乐的原始声音。 因此,不可能评估系统的质量。 因此,我将不考虑该选项。
我看到华为在Habré上有活跃的博客-也许同事可以发布有关该产品的任何有用信息。
SmartCam A12VT是一个整体,包括两个用于跟踪扬声器的PTZ摄像头,两个用于分析房间总体规划的内置摄像头以及一个内置在机壳底部的麦克风阵列-如您所见,没有像对手那样笨重而脆弱的结构。
在开始描述新产品之前,我将汇总思科和Polycom解决方案的特性和功能,以便您可以将
SmartCam A12VT与现有产品进行比较。
宝利通EagleEye总监- 不带终端的系统零售成本- $ 13K
- EagleEye Director + RealPresence Group 500解决方案的最低成本为1.9 万美元
- 平均切换延迟3秒
- 语音指导+视频分析
- 对说话者面部的要求很高-无法掩盖嘴巴
- 与第三方设备不兼容
思科网真SpeakerTrack 60- 不带终端的系统零售成本- $ 15.9K
- 网真SpeakerTrack 60 + SX80编解码器最低成本-3万美元
- 平均切换延迟3秒
- 语音指导+视频分析
- 说话者面部的要求-未检查,未找到信息
- 与第三方设备不兼容
SmartCam A12语音跟踪作为
SmartCam A12语音跟踪解决方案的两个主要优势,我发现:
- 连接的通用性 -通过HDMI,该系统与VKS的硬件和软件终端系统集成在一起
- 低成本 -具有类似功能的A12VT在价格上比上述建议的价格便宜几倍。
为了演示该系统的运行,我们录制了一个视频评论。 任务不是广告,而是功能。 因此,该视频摆脱了Polikomovsky促销视频的困扰。 作为演讲的地点,我们没有选择代表,而是我们的合作伙伴IPMatika的实验室会议室。
我的目标不是隐藏系统的缺陷,而是要暴露功能的瓶颈,使系统出错。
我认为该系统已成功测试。 我对此充满信心地宣布,因为在撰写本文时,
SmartCam A12语音跟踪解决方案已经为我们的客户访问了数十个实际会议室。 仅在违反建议的操作规则的情况下,观察到违反自动化操作的情况。 特别是-距最近参与者的最小距离。 如果您离相机很近,不到一米-麦克风阵列将无法识别您,并且可以跟踪镜头。

除了距离之外,还有另一个要求-相机的高度。

如果摄像机设置得太低,语音定位可能会出现问题。 不幸的是,电视下的选项无效。
但是将系统安装在显示装置上是设备工作的理想方式。 包括一个用于相机的架子,仅支持壁挂支架。
SmartCam A12语音跟踪如何工作
主要的PTZ镜头具有同等的作用-它们的任务是交替跟踪扬声器并显示总体计划。 使用从集成到系统基座中的两个摄像机接收的视频流来分析房间中的整体图像并确定到物体的距离。 使用此功能,可以在更换扬声器时将镜头的反应时间缩短至1-2秒。 即使参与者交流简短的句子,相机也可以使参与者以舒适的节奏交替播放。
该系统的视频演示充分反映了
SmartCam A12VT的功能。 但是,对于那些没有观看视频的人,我将用语言来描述自动化的原理:
- 房间里空无一人:其中一个镜头显示了总体规划,第二个镜头准备就绪-等待人们
- 人们进入房间并坐下:一个免费的镜头找到两个极端参与者并在他们身上构图,裁剪房间的空白部分
- 当人们移动时,镜头轮流跟踪房间中的每个人,使他们保持在框的中央
- 演讲者开始说:调整到总体计划的活动镜头处于活动状态。 第二个针对扬声器,然后进入广播模式
- 扬声器正在改变:已调整为第一个扬声器的活动镜头处于活动状态,而第二个透镜则抛出总体规划并调整为新扬声器
- 在将图像从第一个扬声器切换到第二个扬声器时,免费镜头会立即根据房间的总体情况进行调整
- 如果一切都保持沉默,那么免费的镜头将立即显示现成的总体计划。
- 如果说话者再次改变-将会有免费的镜头寻找他
结论
我认为,该解决方案于去年在ISE和ISR上提出,可以使高科技更接近-如果不是亲民的话,那么肯定是亲企业的。 显然,花40万卢布,很少有人会买这样的“玩具”房子,但是对于企业来说,对于公司的视频会议来说,这是一种非常实惠且方便的解决方案,可以自动完成相机的自动导航任务。
鉴于
SmartCam A12语音跟踪的多功能性,该系统可以从头开始用作解决方案,也可以用作现有VKS基础架构功能的扩展。 通过HDMI连接是向用户迈出的一大步,与上述制造商的专有系统不同。
我要感谢协助测试的合作伙伴。
Yealink VC880终端,会议室和Yakushin Yura的IPMatika。
Smart-AV Company-拥有对解决方案的首次独家审核以及提供
SmartCam A12语音跟踪系统进行测试的权利。
在上一篇文章
在线 会议室 设计师 -选择最佳的VKS解决方案中 ,作为
vc4u.ru网站和
VKS Designer的推广
,我们宣布使用
HABR码字 对 目录价格进行
10%的折扣,直到2019年夏末。
折扣适用于以下各节中的产品:
对于
SmartCam A12语音跟踪,我提供了比现有10%额外的5%折扣-
到2019年夏末为止,总共有15%的折扣
。等待您的意见和答案!
谢谢您的关注。
问候
基里尔·乌西科夫(
Usikoff )
指导负责人
闭路电视和视频会议系统
1@stss.ru
stss.ruvc4u.ru