

最近,我描述了这一点,这要感谢明天的机器人将使人们更加思考(有关
神经网络的硬件加速的文章)。 今天,我们将看到为什么机器人很快就会变得更好看。 在某些情况下,比一个人要好得多。
我们将讨论拍摄视频的深度相机,深度相机在每个像素中存储的不是颜色,而是此时到物体的距离。 这样的相机已经存在了20多年,但是近年来它们的发展速度已经增长了很多倍,我们已经可以谈论革命了。 和多向量。 在以下几个方面正在迅速发展:
谁在乎它的外观,以及如何比较不同的方法以及它们当前和将来的应用,请多多关照!
这样啊 我们将分析深度室的主要发展方向或实际上测量深度的不同原理。 凭借自己的优缺点。
方法1:结构化光相机
让我们从测量深度的最简单,最古老和相对便宜的方法之一开始-结构化光。 数码相机一出现,即立即出现了这种方法。 40年前,随着数字投影仪的出现,大大简化了产品。
基本思想非常简单。 我们将其放置在投影仪旁边,该投影仪将创建例如水平(然后是垂直)条纹,而在摄影机旁边将放置带有条纹的图片,如下图所示:
来源: Autodesk:结构光3D扫描由于相机和投影仪彼此偏移,因此条带也会与到被摄物体的距离成比例地位移。 通过测量此位移,我们可以计算到物体的距离:
资料来源: http : //www.vision-systems.com/实际上,使用最便宜的投影仪(价格从3,000卢布起)和智能手机,您可以在黑暗的房间中测量静态场景的深度:


来源: Autodesk:结构光3D扫描显然,这样做必须解决一整套任务-这是投影仪校准,手机摄像头校准,带钢位移识别等,但是,即使对于学习编程的高中生来说,所有这些任务也相当有能力。
当2010年,Microsoft以150美元的价格发布
MS Kinect深度
传感器时,这种测量深度的原理就成为最广为人知的价格,当时这是革命性的便宜。
资料来源: 使用多种Kinect传感器的部分遮挡物体重建尽管事实上除了使用红外投影仪和红外摄像机实际测量深度外,Kinect还可以拍摄常规的RGB视频,具有四个降噪麦克风,并且可以根据人的身高进行调整,自动向上或向下倾斜,并立即集成到内部数据处理,立即向控制台发出准备好的深度图:
来源: 使用Kinect实现自然用户界面按钮总共售出了约3500万台设备,使Kinect成为历史上第一台质量深度相机。 而且,如果您认为肯定有深度相机,但通常它们最多只能卖出数百台,而且价格至少要贵一个数量级-这项革命为该领域提供了巨大的投资。
成功的重要原因是,当微软发布Xbox 360时,已经有一些游戏积极地使用Kinect作为传感器。 起飞迅速:

此外,Kinect甚至成为了历史上销售最快的小工具,进入了吉尼斯世界纪录。 没错,苹果很快就将微软从这个地方赶了出来,但是。 对于除了主要设备之外还可以工作的新型实验传感器,使其成为历史上销售最快的电子设备,这简直是一项巨大的成就:

在演讲中,我想问听众,这数百万客户来自何处。 这些人都是谁?
通常,没有人会猜测,但是有时候,尤其是如果观众年龄较大且经验丰富,他们会给出正确的答案:销售是由美国父母推动的,他们高兴地看到他们的孩子可以在游戏机上玩耍,而不会坐在沙发上拿着厚厚的赃物,在电视前跳来跳去。 这是一个突破! 数以百万计的父母急忙为孩子订购设备。
通常,当涉及手势识别时,人们通常会天真的认为仅来自2D摄像机的数据就足够了。 毕竟,他们看到了很多漂亮的演示! 现实要严峻得多。 来自来自相机的2D视频流的手势的识别精度和来自相机深度的手势的识别精度相差一个数量级。 从深度相机或更确切地说,从与深度相机结合的RGB相机(后者很重要),您可以以更低的成本(即使房间很暗)更准确地识别手势,这为第一台大规模深度相机带来了成功。
关于哈布雷(Habé)上的Kinect,他们写
了很多书 ,所以非常简短。
红外投影仪会在空间中提供伪随机的点集,其位移确定给定像素的深度:
资料来源: 深度感应平面结构:办公家具配置的检测相机的分辨率声明为640x480,但实际上在320x240左右的某个地方具有相当强的过滤效果,实际示例中的图片看起来像这样(很恐怖):
资料来源: 使用多种Kinect传感器的部分遮挡物体重建由于相机和投影仪之间的距离足够远,因此物体上的“阴影”清晰可见。 可以看出,通过投影仪的多个点的移动来预测深度。 另外,直接邻居有(硬)过滤,但是深度图仍然很嘈杂,尤其是在边界处。 这会在生成的对象的表面上引起相当明显的噪声,必须对其进行额外且不平缓的平滑处理:
来源: 用于Microsoft Kinect SDK的J4K Java库不过,只有150美元(
今天已经是69美元了 ,尽管当然
可以接近200美元了),您
才能 “看到”深度!
确实有很多串行产品。
顺便说一句,在今年2月,宣布了新的
Azure Kinect :
资料来源: 微软宣布推出Azure Kinect,现在可以预订该产品将于6月27日开始交付给美国和中国的开发商。 从字面上看。 在这些功能中,除了具有明显更好的RGB分辨率和更好的深度摄像头质量(在ToF摄像头
演示中 ,他们
清楚地承诺在15 FPS分辨率下为
1024x1024和在30 FPS分辨率下为512x512以及更高的质量)还宣布了对多个设备协作的支持,从而减少了曝光太阳,在4米的距离处误差小于1厘米,在小于1米的距离处误差为1-2毫米,这听起来非常有趣,所以我们等待,我们等待:
来源: Azure Kinect DK简介下一个
大规模产品是在结构化的灯光下实现深度摄像头,它不是游戏机,而是……(鼓声)正确
-iPhone X !
它的Face ID技术是典型的深度摄像头,带有典型的红外点投影仪和红外摄像头(顺便说一下,现在您了解了为什么它们位于刘海的边缘,并且彼此之间的距离尽可能远-这是一个
立体声底座 ):

深度图的分辨率甚至小于Kinect的分辨率-约为150x200。 显然,如果您说:“我们的分辨率约为150x200像素或0.03兆像素,”人们会简短地说:“糟透了!” 如果您说
“点投影仪:30,000多个不可见点投射到您的脸上” ,人们就会说:“哇,3万个不可见点,太酷了!”。 一些金发女郎会问雀斑是否会从隐形点出现。 话题将传给大众! 因此,第二种选择是广告领域的远见卓识。 分辨率低的原因有三个:第一,微型化的需求;第二,能源消耗;第三,价格。
尽管如此,这是另一种结构化深度相机,已经被复制了数百万册,并且已经被其他智能手机制造商重复使用,
例如(惊喜!)华为 (去年在智能手机销售中绕过了苹果)。 只有华为的相机在右侧,而投影仪在左侧,当然还有“刘海”的边缘:
资料来源: 华为Mate 20 Pro更新允许用户添加第二张脸以进行脸部解锁同时声明了30万个点,即
比苹果多10倍 ,并且前置摄像头更好,
字体更大 。 关于30万,是否有些夸张-很难说,但华为展示了
使用前置摄像头对物体进行非常出色的
3D扫描 。 独立测试
更加令人恐惧 ,但这显然是话题的开始,而微型节能深度相机的技术的起步和今年年底发布的相机在性能上已经明显好于其他。
同时,可以理解为什么在电话中使用了面部识别技术。 首先,现在您无法通过显示脸部照片(或平板电脑中的视频)来欺骗探测器。 其次,当光线变化时,人脸变化很大,但形状却没有变化,这使我们能够更准确地识别人以及RGB摄像机的数据:
资料来源: 同一个人的TI照片显然,红外传感器具有固有的问题。 首先,我们相对较弱的投影机在阳光下会发光一两次,因此这些相机无法在街上工作。 即使在阴影下,如果建筑物的白墙被阳光照亮,Face ID也会有很大的问题。 即使当阳光被云层覆盖时,Kinect中的噪声水平也会翻转:
来源:此图和下两幅图片 -
材料Basler AG另一个大问题是反思和反思。 由于还会反射红外光,因此要拍摄昂贵的不锈钢水壶,使用Kinect涂漆的桌子或玻璃罩将是一个问题:

最后,两台相机拍摄一个物体可能会相互干扰。 有趣的是,在结构化光线的情况下,您可以使投影机闪烁并了解我们的要点在哪里,而在何处不是,但这是一个单独且相当复杂的故事:

现在您知道了如何破解FaceID ...
但是,对于移动设备,结构化照明似乎是当今最合理的折衷方案:
资料来源: 智能手机公司争相与Apple 3D相机性能和成本相提并论对于结构光,常规传感器的便宜性使得在大多数情况下使用它是合理的。 使许多初创公司根据以下公式进行操作的事实:便宜的传感器+复杂的软件=相当令人满意的结果。
例如,我们的前研究生
马克西姆·费尤科夫 (
Maxim Fedyukov)自2004年以来一直从事3D重建,创建了
特塞尔(Texel) ,其主要产品是带有4个Kinect相机和软件的平台,该平台可在30秒内将人变成潜在的纪念碑。 好吧,还是台式小雕像。 这是谁有足够的钱。 或者,您可以向您的朋友发送3D模型的便宜又快乐的朋友的照片给您的朋友(出于某种原因,由于某种原因,最受欢迎的案例)。 现在,他们将平台和软件从英国发送到国外到澳大利亚:
资料来源: 30秒内建立人的3D模型作为一名芭蕾舞演员,我无法站立得很漂亮,所以我若有所思地看着鲨鱼游过的鳍:
资料来源:作者的资料通常,一种新型传感器催生了新的艺术项目。 在冬天,我看到了用Kinect拍摄的相当有趣的VR电影。 以下是同样由Kinect制作的舞蹈的有趣可视化效果(似乎使用了4个摄像头),与前面的示例不同,它们没有与噪音打架,而是添加了有趣的细节:
来源: 用Kinect传感器捕获并通过3D软件可视化的舞蹈表演在该地区可以观察到哪些趋势:
- 如您所知,现代相机的数字传感器对红外辐射很敏感,因此您必须使用特殊的阻挡滤镜,以免红外噪声破坏图像(甚至出现艺术拍摄的方向都在红外范围内 ,包括从传感器上取下滤镜时)。 这意味着要在微型化,提高分辨率和便宜的传感器上投入大量资金,这些传感器可以用作红外线(带有特殊滤光片 )。
- 同样,当来自RGB传感器的数据和按深度的嘈杂数据使您可以一起获得非常好的深度视频时,用于处理深度图的算法现在正在迅速改进,包括所谓的交叉过滤方法。 同时,使用神经网络方法,可以大大提高获得良好结果的速度。
- 所有顶级公司都在这一领域开展工作,尤其是智能手机制造商。
结果:
- 我们可以预期,在未来5年内,拍摄结构光深度相机的分辨率和准确性将会大大提高。
- 移动传感器的能源消耗将(尽管较慢)降低,这将简化智能手机,平板电脑和其他移动设备中下一代传感器的使用。
无论如何,我们现在所看到的是技术的萌芽。 刚刚发布了首批批量生产的产品,该产品已开始调试生产和使用新的异常数据类型-深度视频。
方法2:飞行时间相机
下一种获取深度的方法更有趣。 它基于往返光延迟(ToF-
飞行时间 )的测量。 如您所知,现代处理器的速度很高,光速很小。 在处理器以3 GHz的一个时钟周期内,灯光设法仅飞行10厘米。 或每米10个小节。 很多时间,如果有人从事低级优化。 因此,我们安装了脉冲光源和专用摄像机:
来源: Basler飞行时间(ToF)相机实际上,我们需要测量光返回每个点的延迟:

来源: Basler飞行时间(ToF)相机或者,如果我们有几个具有不同电荷累积时间的传感器,那么,了解每个传感器相对于光源的时间偏移以及散焦闪光灯的亮度,我们可以计算出偏移量,从而计算出到物体的距离,并增加传感器的数量,我们可以提高精度:

来源: Larry Li飞行时间相机-简介结果就是采用LED或较少见的激光(
VCSEL )红外照明的摄像机的方案:
来源: allaboutcircuits.com上对ToF的很好的工作描述同时,以较低的分辨率获得图片(毕竟,我们需要在它们旁边放置几个具有不同轮询时间的传感器),但可能具有较高的FPS。 问题主要出在物体的边界上(这是所有深度相机的典型特征)。 但是没有结构化光的典型“阴影”:
来源: Basler AG视频特别是,这种类型的相机(ToF)一次在
Google Tango项目中积极测试了
Google ,
该视频很好地体现了
这一点 。 含义很简单-结合陀螺仪,加速度计,RGB摄像头和深度摄像头的数据,在智能手机前构建一个三维场景:
资料来源: 谷歌的探戈项目现已定型用于智能手机该项目本身并没有进行(我认为这比它的时间提前了一些),但是它为在AR(增强现实)中引起了一波兴趣创造了重要的先决条件,因此开发了可以与之兼容的传感器。 现在,他所有的成就都注入了Google的
ARCore中 。
总的来说,ToF相机的市场容量每3年增长30%左右,这是一个指数级的增长,而且很少有市场能这么快地增长:
资料来源: 飞行时间相机的潜力和市场渗透率当今市场的一个重要驱动因素是工业机器人的快速(且呈指数级)发展,为此,ToF相机是理想的解决方案。 例如,如果您的机器人打包了箱子,然后使用普通的2D相机,则确定要开始卡纸板是一项极其艰巨的任务。 对于ToF相机,“查看”并处理它很简单。 而且非常快。 结果,我们看到了
工业ToF相机的
蓬勃发展 :




当然,这也会导致使用深度相机的自制产品的出现。 例如,来自德国
PMD Technologies的带夜视摄像头的安全摄像机和ToF深度摄像机,其
20多年来一直在开发3D摄像机:
资料来源: 3D飞行时间深度感应为新型Lighthouse智能家庭相机带来魔力还记得哈利·波特躲藏的隐形斗篷吗?
来源:《 哈利·波特的隐形斗篷》获得了起源故事,并且可能很快就会出现在现实生活中恐怕德国相机会检测到一次或两次。 而且很难将带有图片的屏幕放在这种相机的前面(这对您来说并不是一个分散注意力的保护措施):
资料来源: 电影《不可能的任务:幻影协议》的片段似乎对于新型CCTV摄像机,霍格沃茨的非幼稚魔术将需要使用ToF深度摄像机来欺骗他们,该摄像机可以在完全黑暗的情况下拍摄此类视频:

假装为墙壁,屏幕和其他方式来保护自己免受组合的ToF + RGB摄像头将检测到无关物体这一事实的困扰,从技术上来讲从根本上来说更加困难。
深度相机的另一个大规模和平应用是手势识别。 在不久的将来,您可以期望电视,控制台和机器人吸尘器不仅可以将语音命令感知为智能扬声器,而且可以将粗心的“清理它”! 挥手致意。 然后,完全不需要智能电视的遥控器(又称懒惰),科幻小说将栩栩如生。 结果,
2002年的奇妙之处在 2013 年 成为实验性的东西 ,最后
在2019年进行了
序列化 (尽管人们不知道里面有一个深度相机,
它有什么区别,这魔术如何起作用? ):

资料来源: 文章 , 实验和产品当然,整个应用程序范围更广:


来源: Terabee深度传感器的视频 (顺便说一下,他们在地板上奔跑了2和3个视频 的 鼠标是什么?看到它们吗?只是在开玩笑,它是空气中的灰尘-传感器小巧,光源靠近传感器需要付费)顺便说一句-在著名的Amazon Go“无收银员商店”中,天花板下也有许多摄像头:
资料来源: 在亚马逊的监控型无结帐便利店内而且,正如
TechCrunch所写:
“它们通过单独的深度感应相机 (使用飞行时间技术 ,或者据我从Kumar的了解)得到增强,它们像其余部分一样融合到背景中,全都是哑光黑色。” 也就是说,神秘的黑色磨砂ToF相机提供了确定酸奶取自哪个架子的奇迹(一个很好的问题,它们在照片中):

不幸的是,直接信息通常很难找到。 但是有一个间接的。 例如,有一家公司
Softkinetic ,自2007年以来一直在开发ToF相机。 8年后,它们被
Sony收购 (顺便说一句,它们准备以
Sony Depthsensing品牌征服新市场)。 因此,Softkinetic的
顶级员工之一现在仅在Amazon Go上工作。 真是巧合! 在几年之内,当这项技术被提出并申请了主要专利时,细节很可能会被揭露。
好吧,中国人照常点燃。 例如,
Pico Zense在CES 2019上展示了一系列令人印象深刻的ToF相机,包括用于户外用途:

他们承诺到处都是革命。 由于自动装载,货车将更密集地装载,自动取款机将更安全,由于每个摄像机都装有深度摄像头,机器人的导航将变得更加容易和准确,人(以及最重要的是儿童!)在流中的计数将提高一个数量级,新的健身模拟器将出现没有指导者控制练习正确性的能力,等等。 自然,新一代的廉价中国相机已经为所有这些宏伟做好了准备。 采取并建立!
有趣的是,最新的华为P30 Pro序列号在主摄像头旁边有一个ToF传感器,即 饱受苦难的华为能够更好地使苹果公司制造正面结构化的光传感器,而且似乎谷歌(Project Tango,
已关闭 )更成功地在主要的ToF相机旁边安装了一个相机:
资料来源: 2019年3月底Ars Technica华为新技术评论当然,没有公开使用的详细信息,但是除了加速对焦(这对于使用不同镜头的三个主要相机很重要)之外,该传感器还可以用于提高模糊照片背景的质量(模拟小
景深 )。
同样显而易见的是,在主摄像头旁边将使用下一代主传感器旁边的深度传感器,这将使AR的精度从目前的“酷,但经常是马车”提高到大规模工作的水平。 而且,显然,鉴于中国取得的成功,最大的问题是Google将在
ARCore中支持多少革命性的中国硬件。 专利战会大大减慢技术市场。 在接下来的两年中,我们将看到这个戏剧性故事的发展。
小计
大约25年前,当第一台自动门出现时,我亲眼看着叔叔在这样的门前周期性地加速活动。 开门成功还是没有时间? 她又大又重,杯! 我最近在中国一家自动工厂参观了一位颇受尊敬的教授时也观察到了同样的事情。 他们落后于小组,以了解如果您站在机器人旁边,和平地搬运零件并在途中演奏出安静宜人的旋律,会发生什么。 我也悔改了,无法抗拒……你知道,它停止了! 也许顺利。 也许是个死人。 深度传感器正常工作!
资料来源: 华为技术新园区内部该酒店还用作清洁机器人,看起来像这样:

同时,他们比工厂里的机器人更受欺负。 当然,在
Bosstown Dynamics的每种意义上都没有
不人道的艰难。 但是我亲自观察了他们如何上路,机器人试图绕过一个人,那个人移动了,挡住了道路……有点像猫和老鼠。 一般来说,似乎无人驾驶车辆出现在道路上时,它们会比平常第一次被更频繁地砍掉……哦,人们……嗯……但是,我们分心了。
总结要点:
- 由于另一种工作原理,我们可以将ToF摄像机中的光源放置在尽可能靠近传感器的位置(即使在同一镜头下)。 此外,许多工业型号的传感器周围都装有LED。 结果,深度图上的“阴影”从根本上减少了,甚至消失了。 即 简化复杂几何对象的工作,这对于工业机器人很重要。
- 通常,由于脉冲照明仍然是红外线-保留了上一节中介绍的红外热像仪的所有缺点:暴露在阳光下,两个热像仪并排工作时的困难等。 但是,工业机器人通常在室内工作,并且正在开发具有激光照明的相机。
- 遗憾的是,ToF传感器很难赶上RGB摄像头传感器整体改进的尾声,因此它们的开发速度较慢,但令人惊讶的是,充满信心的是,有关ToF摄像头推出的消息非常多 ,而且没有任何消息 (仅宣布将传感器集成到智能手机中)三星,Google Pixel和索尼Xperia ...)。
- 新的索尼公司承诺8个电话摄像头(!!!)中的2个摄像头将是ToF深度摄像头(!),即 深度摄像头将位于手机的两侧:

来源: 六合一摄像头索尼手机透露了摄像头规格
- 结果, 即使在来年 , 我们也会在这一领域发现很多有趣的东西! 明年,多达20%的新手机将配备深度相机(Structured Light + ToF)。 鉴于2017年只有苹果出色地孤立在市场上,并获得了“ 3万分”,而现在他们的总分不低于30万,这个话题显然进展顺利:

资料来源: 2019年智能手机3D感测市场增长有限; 苹果将成为2020年增长的主要推动力
您是否仍对正在进行的革命表示怀疑?
这是第一部分! 一般比较将在第二。
在下一个系列中,请等待:
- 方法三,经典:立体声深度;
- 方法4,新奇:从全光的深度;
- 方法5,快速增长:激光雷达,包括固态激光雷达;
- 深度处理视频时出现一些问题;
- 最后,简要比较了所有5种方法和一般结论。
迦太基必须被打破。整个视频到本世纪末将是三维的!敬请期待! (如果有足够的时间,我将在年底之前介绍新的相机,包括对新鲜Kinect的测试。)
第二部分致谢我衷心感谢:
- 莫斯科国立大学VMK计算机图形学实验室 MV罗蒙诺索夫(MV Lomonosov)为俄罗斯整体计算机图形学的发展做出了贡献,尤其是与深度相机合作,
- Microsoft,Apple,Huawei和Amazon用于基于相机的深度产品,
- Texel用于开发带有深度摄像头的俄罗斯高科技产品,
- Konstantin Kozhemyakov亲自做了很多工作,使本文变得更好,更直观,
- 最后,非常感谢Roman Kazantsev,Eugene Lyapustin,Egor Sklyarov,Maxim Fedyukov,Nikolai Oplachko和Ivan Molodetsky所作的许多明智的评论和更正,使本文更加完善!