计算机视觉研究人员已经发现了可供我们使用的视觉信号的隐藏世界,那里有难以察觉的动作发出了所说的内容,以及拐角处模糊的图像

计算机视觉专家
安东尼奥·托拉尔巴 (
Antonio Torralba)于2012年在西班牙海岸休息,他注意到旅馆房间墙壁上的随机阴影似乎什么也没铸成。 最后,托拉勒巴意识到墙上变色的斑点不是阴影,而是外面露台的暗淡,倒置的图像。 窗口就像
针孔一样工作-这是最简单的照相机,其中光线穿过一个小孔,在另一侧形成倒像。 在阳光照射的墙壁上,几乎看不到该图像。 但是托拉尔巴(Torralba)意识到,我们的世界充满了我们的眼睛无法感知的视觉信息。
他说:“这些图像对我们来说是隐藏的,但它们始终围绕着我们。”
所获得的经验使他和他的同事
比尔·弗里曼 (
Bill Freeman )也是麻省理工学院的教授,意识到这个世界充满了“随机照相机”,他们称之为:窗户,角落,家用植物和其他创造周围环境隐藏图像的普通物体。 这些图像的生动度比其他任何图像低1000倍,通常肉眼看不见。 “我们提出了隔离这些图像并使它们可见的方法,” Freeman解释说。
他们了解了隐藏在所有人面前的视觉信息。 在
第一篇作品中,他们展示了当使用普通iPhone拍摄时,房间壁上的光线发生了变化,从接收到的视频中,您可以在窗口外重新创建场景。 去年秋天,他们和他们的同事
报告说 ,通过用相机拍摄拐角附近的土地,您可以找到一个在拐角处移动的人。 今年夏天,他们
证明了他们可以在视频中录制家庭植物,然后根据植物的叶子投射的阴影重新创建整个房间的三维图像。 或者,他们可以将叶子变成“
可视麦克风 ”,从而增加振动并识别语音。
1)酒店房间外面的露台,安东尼奥·托拉尔巴(Antonio Torralba)注意到窗户就像针孔一样。 2)墙上露台的图像模糊; 3)可以用硬纸板覆盖窗户的大部分来锐化,以减小孔的大小。 4)如果将其上下颠倒,则可以从外面看到场景。“我们的玛丽有一头公羊,”录音中的那个人说,这是根据科学家在2014年通过一个隔音窗拍摄的一袋空筹码的动作重新制作的(这些是托马斯·爱迪生在1877年用留声机录制的第一个单词)。
2012年,托拉尔巴(Torralba)和弗里曼(Freeman)在随机照相机上进行了研究,并由另一组科学家进行了另一项
重要的研究由麻省理工学院(
Ramesh Raskar)领导的麻省理工学院。 尤其是在2016年,由于其成果,美国国防部高级研究计划局(DARPA)启动了一项2700万美元的REVEAL计划(通过开发有源光场实现革命性的可视性革命性改进-使用有源光场的可见性的革命性改进)。 该计划为全国新兴实验室提供资金。 从那时起,不断涌现的新思想和数学技巧使非视线成像变得越来越强大和实用。
除了在军事和侦察目的中的明显用途外,研究人员还在研究技术在机器人,机器人视觉,医学摄影,天文学,太空探索和救援任务中的应用。
托拉尔巴(Torralba)说,他和弗里曼(Freeman)在工作之初就对这项技术的实际应用不了解。 他们只是弄清楚了图像形成的基本原理以及什么是相机,从而更全面地研究了光的行为及其与自然物体和表面的相互作用。 他们开始看到没人能想到的东西。 根据Torralb进行的心理学研究表明,“人们在解释阴影方面非常贫穷。 可能的原因之一是,我们看到的许多东西都不是阴影。 最后,我的目光投向了理解它们的尝试。
随机相机
承载着我们视野之外的世界图像的光线不断落在墙壁和其他表面上,之后它们被反射并落入我们的眼睛。 但是为什么这些视觉残留物如此微弱? 只是太多的光线沿太多的方向传播,图像变得模糊。
为了形成图像,必须严格限制入射在表面上的光线并仅看到它们的特定集合。 这就是针孔相机所做的。 Torralba和Freeman在2012年的最初想法是,在我们的环境中,有许多物体和各种属性自然地限制了光线并形成了计算机可以识别的微弱图像。
针孔孔径越小,图像将越清晰,因为被研究物体的每个点将仅以直角发射一个光束,该光束将能够穿过该孔。 Torralba Hotel的窗户太大,无法显示清晰的图像,他和Freeman意识到通常有用的随机针孔摄像头非常少见。 然而,他们意识到由任何阻挡光的小物体组成的防针孔(“针尖式”相机)会大量形成图像。
比尔·弗里曼
安东尼奥·托拉尔巴想象一下,您正在通过百叶窗中的缝隙移除房间的内墙。 您不会看到太多。 突然,一只手出现在您的视野中。 用手和不用手的情况下,墙壁上光强度的比较可提供有关场景的有用信息。 在第一帧中入射在墙上的一组光束在下一帧中被手暂时遮挡。 如弗里曼所说,从第一帧的数据中减去第二帧的数据,“您可以计算出手被阻挡的程度”-代表房间一部分图像的一组光线。 他说:“如果您研究什么会阻挡光线,哪些会让光线通过,那么您可以扩大找到针孔相机的地方范围。”
Freeman及其同事研究了可以感知强度微小变化的随机照相机,并开发了确定和增强微小颜色变化的算法,例如,血液急促或起伏时人脸的颜色变化以及微小的运动,这就是为什么您可以拿一袋筹码记录一次对话。 现在,他们可以轻松注意到百分之一像素的运动,在正常情况下,它们只会被噪声淹没。 他们的方法在数学上以正弦波配置转换图像。 在产生的空间中,噪声不会控制信号,因为正弦波代表许多像素上的平均值,因此噪声分布在它们上。 因此,研究人员可以确定正弦曲线从视频一帧到另一帧的偏移,放大这些偏移,然后将数据转换回去。
现在,他们已经开始结合所有这些技巧来提取隐藏的视觉信息。
凯蒂·鲍曼 (
Katie Bowman,去年由弗里曼(Freeman)领导的学生,现在是哈佛-史密森天体物理学中心的科学家)于去年10月描述的一项研究表明,建筑拐角就像照相机一样工作,对拐角处的物体产生了粗糙的印象。
以拐角附近的地面上的半影(1),可以获得有关拐角附近的对象的信息(2)。 当不可见的物体开始移动时,它们的光影相对于墙壁以不同的角度移动。 强度和颜色的细微变化通常无法用肉眼分辨(3),但可以使用算法加以增强。 具有与半影不同角度的光线的原始视频会在拐角处显示一个移动的人(4)和两个(5)的身影。像点相机的针孔一样,刻面和角落会阻碍阳光的通过。 在白天,Bowman和同事使用普通的相机和同一部iPhone,在建筑物的角落拍摄了部分阴影-该区域的阴影被来自角落附近隐藏区域的一部分光线照亮。 例如,如果一名身穿红色衬衫的男子穿过那里,则该衬衫将向半影发出少量红色光,该光将在人行走时沿半影移动,这是普通眼睛看不见的,但在后处理后会被发现。
在6月发表的一篇革命性论文中,弗里曼及其同事根据墙壁旁边的落叶植物投射的阴影,重新创建了房间的“光场”,即房间光线的强度和方向的图片。 叶子充当了点相机,每个镜头都阻挡了自己的光线。 将每张纸的阴影与其余阴影进行比较会产生此缺失的光线集,从而有可能获得部分隐藏场景的图像。 有了视差,研究人员便能够将所有这些图像放在一起。
与该算法相比,该方法所提供的图像要清晰得多,因为该算法已预先获得了有关世界的知识。 知道了植物的形状,假设自然图像应该是平滑的,并考虑了其他几个假设,研究人员就含噪声的信号得出了某些结论,这有助于使最终图像更清晰。 Torralba说,与光场合作的技术“需要周围世界的知识来进行重建,但是它也可以为您提供很多信息。”
散射光
同时,Freeman,Torralba和他们的门生在MIT校园的另一个位置显示隐藏的图像,TED的计算机视觉专家Ramesh Raskar打算“改变世界”,并选择一种称为“主动成像”的方法。 它使用昂贵的专业激光相机系统创建高分辨率图像,以显示拐角处的一切。
拉梅什·拉斯卡(Ramesh Raskar)2012年,作为实施五年前拜访他的想法的一部分,Raskar和他的团队首先创造了一项技术,该技术需要将激光脉冲释放到墙上。 一小部分散射光将能够绕开障碍物。 在每个脉冲之后的很短时间内,他们使用“闪光灯照相机”以每秒数十亿帧的速度记录单个光子,以检测从墙壁反弹的光子。 通过测量光子返回所花费的时间,研究人员可以找出它们飞走了多远,并详细地创建了隐藏在障碍物后面的物体的三维几何形状,光子在上面散射。 困难之一是为了形成三维图像,必须用激光对墙壁进行光栅扫描。 假设有人躲在角落里。 “然后,从头上的某个点,肩膀上的某个点以及膝盖上的某个点反射的光可以同时到达相机,” Raskar说。 但是,如果您将激光稍微照射到另一个地方,那么来自这三个点的光将不再同时到达相机。” 必须组合所有信号并解决“逆问题”以重新创建隐藏的三维几何形状。
用于解决反问题的原始Raskar算法需要太多的计算资源,并且该设备本身要花费一百万美元。 但是为了简化数学并降低成本,已经进行了认真的工作。 3月,《自然》杂志发表了一部
作品 ,为有效,经济地构建物体的三维图像树立了新的标准-在作品中重新绘制了拐角处的兔子形象。 斯坦福大学的
马修·奥图尔 (
Matthew O'Toole) ,
大卫·林德尔 (
David Lindel)和
戈登·韦特斯坦 (
Gordon Wetstein)的作者已经开发出了一种新的强大算法来解决反问题,并使用了相对便宜的
SPAD相机 -帧频低于闪光灯相机的半导体器件。 Raskar以前是该作品的两位作者的策展人,他称之为“非常精巧”和“我的最爱之一”。


以前的算法正在详细研究:研究人员通常试图检测返回的光子,这些光子没有从激光发亮的墙壁上的点反射出来,因此照相机可以避免收集散射的激光。 但是,通过将激光和相机指向几乎相同的点,研究人员能够从一个“
光锥 ”映射出射和入射光子。 光从表面散射,形成一个扩展的光子球体,形成一个圆锥体,并在时空中传播。 奥托(他从斯坦福大学转职到卡内基梅隆大学后就职)将光锥的物理学-由爱因斯坦的老师德意志·明可夫斯基(German Minkowski)在20世纪初开发出来-转换为简洁的表达方式,将光子的飞行时间与散射表面的位置联系起来。 他称翻译为“光锥的变形”。
机器人机动部队已经在使用LIDAR系统来构建直接图像,并且可以想象有一天他们将让SPAD环顾四周。 “在不久的将来,这种传感器也将以便携式格式提供,”
安德烈亚斯·韦尔滕 (
Andreas Welten)预测,他是2012年
拉斯卡(Raskar)最初工作的第一作者,他现在领导该团队在威斯康星大学从事有源图像的构建。 韦尔滕说,现在的挑战是“处理更复杂的场景”和逼真的场景,而不是仅仅精心创建带有白色物体和黑色背景的场景。 我们需要技术来控制设备并按下按钮。”
东西在哪里
Freeman小组的研究人员开始将被动方法与主动方法结合起来。 在研究人员克里斯托斯·特拉姆普利迪斯(Christos Trampulidis)的指导下进行的这项工作表明,当使用激光主动构建图像时,可以使用围绕角度倾斜的已知形状的点形相机来重建隐藏场景,而无需使用有关光子飞行时间的信息。 Trampulidis说:“这应该在常规
CCD矩阵的帮助下为我们解决。”
视线之外的成像有一天将帮助救援队和自动机器人。 韦尔滕与美国国家航空航天局的喷气推进实验室合作,致力于建立月球洞穴内物体的远距离图像的项目。 但是Raskar和公司使用他们的方法来阅读已关闭的书的前几页,并在迷雾中观察。
除了音频重建之外,Freeman的运动增强算法还可以帮助创建医疗设备和安全系统以及小型天文运动探测器。 纽约大学和Flatiron研究所的天文学家和数据科学家David Hogg说,这种算法是“一个非常好的主意”。 “我想-我们只需要在天文学中使用它即可。”
关于最近发现的隐私问题,弗里曼转向他的经验。 他说:“在我的整个职业生涯中,我都非常非常在乎这个问题。” 弗里曼(Freeman)是一个有眼镜的人,一生都是摄影爱好者,他一生都从事摄影。他说,在职业生涯的开始,他不想从事任何具有某种军事或间谍潜力的工作。 但是随着时间的流逝,他开始认为“技术是可以以不同方式使用的工具。 如果您试图避免一切可能至少会在军事上使用的东西,那么您将不会想到任何有用的东西。” 他说,即使是在军事方面,“使用事物的可能性也非常广泛。 您可以帮助某人生存。 而且,原则上,知道在哪里有用是有用的。”
但是,他最不满意的是技术能力,而仅仅是发现了一个看不见的现象。 他说:“在我看来,世界上充满了仍有待发现的一切。”