增加它! 现代分辨率提高


我已经停止发抖,想知道电话何时响起,听筒里听到一个坚硬,自信的声音:“您担心这样的船长(这样的船长),您能回答几个问题吗?” 为什么不与自己的警察交谈...

问题总是一样的。 “我们有一个与嫌疑犯的视频,请帮助恢复脸部表情”……“帮助增加DVR的数量”……“这里没有人的手,请帮助增加表情”……依此类推。

为了弄清楚这是什么,下面是一个真实的示例,该示例发送了一个高度压缩的视频,其中他们要求恢复模糊的面部(其大小大约等于8个像素):


好的,西方的平信徒写道,只有Stepa的俄罗斯叔叔才会打扰。
例如,这是英格兰警察<***** @ *****。Fsnet.co.uk>的来信:
我已经私下使用了您的过滤器一段时间,以挽救我关于家庭度假的糟糕视频,但我想将商业过滤器用于我的工作。 我目前是一支小型警察中的警务人员,我们收到了大量的闭路电视视频,有时这是非常差的质量,我可以看到您的过滤器将如何发挥真正的作用。 您能告诉我费用以及我是否可以使用它们。

谢谢啦

笔译
我已经出于个人目的使用了您的过滤器,以保存家庭度假中的不良视频。 但是我想在我的工作中使用商业过滤器。 我目前是一个小单位的警察。 我们从闭路电视摄像机获得了大量的视频,有时质量很差,您的滤镜确实会有所帮助。 您能告诉我他们的费用吗,我可以使用它们吗?

谢谢啦
或者这是澳大利亚的一名警察写道:
你好
我在澳大利亚的维多利亚警察局的视频和音频取证部门工作。 我们有时会从手持式或车载摄像机接收视频。 这些通常会捕获快速移动事件的隔行扫描素材。 特别地,通常具有最大“承诺”的镜头是车辆牌照的镜头。 我们经常发现目标车辆将在被捕获的第一个场和最后一个场之间移动很大。 结果,我们尝试从这两个视场重建整个帧,其中第二个视场被平移,有时会旋转,并且有时大小也会有所不同(因为车辆正在驶向或驶向相机)。最好是达到亚像素精度,并且难以重构包含车牌的框架。
从我对您进行的隔行扫描的视频来看,可能是您的滤镜可以完成我们所需要的一些(如果不是全部的话)。 老实说,由于我们的预算很小,因此我们不太可能负担得起商业许可证。 我们不出售产品,当然,我们在警察案件中将其用作证据。 无论如何,我想我还是会写一封电子邮件并询问。 许可证需要多少钱? 是否可以在素材上测试产品,看是否合适? 它能满足我们的需求吗? 最后,该算法是否已发布? 对于法院来说,使用未知算法是危险的做法。 如果证据表明一个人将要被监禁20年,那么知道为什么是个好习惯!

您可以提供的任何信息将不胜感激。

问候,
个案工作者
视听单元
维多利亚警察法证服务部

笔译
你好
我在法医视频和音频部门的澳大利亚维多利亚警察局工作。 我们不时接收来自手持摄像机和DVR的视频。 通常,这些视频是对快速移动的对象进行隔行拍摄。 特别地,最重要的材料是车辆牌照。 我们经常发现所讨论的车辆在第一个和最后一个捕获场之间强烈移动。 结果,我们试图从两个区域恢复整个帧,第二个区域被移动,有时旋转以及有时大小不同(当汽车往返于照相机时)。 合并这两个场,最好以半像素的精度,并且很难恢复包含牌照的整个帧。

我了解了如何将去隔行扫描应用于帧,也许您的滤镜可以完成某些工作,即使不是我们需要的全部。 老实说,由于我们的预算很小,我们可能无法负担商业许可证。 我们不出售产品,当然,我们在警察案件中将其用作证据。 无论如何,我认为我会写一封信并且仍然问。 许可证的费用是多少? 是否可以在材料上测试产品以找出是否合适? 他会做我们需要的一部分吗? 最后,该算法是否已发布?..在法庭上使用未知算法是一种危险的做法。 如果证据导致某人入狱20年,了解原因是很有用的。

我们将感谢您可以提供给我们的任何信息。

问候
研究者
音视频事业部
维多利亚警察法务部
请注意,这封信非常体贴,一个人担心该算法会发布,并对错误恢复负责。

有时,他们只是在通信过程中才承认他们来自警察。 例如,意大利的carabinieri想要帮助:
博士 瓦托林
感谢您的回答。
对于警察部队来说,答案也是值得的(Carabinieri调查
科学为PARMA ITALY)?
他们将您的算法与哪个软件相关联。
我们会很多。

笔译
博士 巴托林
感谢您的答复。
这适合警察吗(意大利PARMA的Carabinieri调查单位)?
他们对您的算法使用什么软件感兴趣?
我们将不胜感激。
当然,还有许多普通百姓的诉求...

增加它! 什么,您为按下右按钮感到抱歉?


显然,这整个呼叫流不是从头开始出现的。

“责备”主要是电影和电视节目。

例如,在3秒钟内,压缩视频的帧增加了50倍,并且从眼镜的反射中他们可以看到证据:


现代电影和系列片中有很多这样的时刻。 例如,在此视频中,我们绝对从一集电视节目中收集了此类情节,而无需花费两分钟的时间来观看:


而且,当您在每部电影中看到这一点时,最后的刺猬就会清楚地知道,您所需要的只是拥有一个能干的计算机天才,结合现代算法,而这仅是迅速“停止!” 和“增强它!” 。 瞧! 奇迹将会发生!

但是,编剧们并没有停止在这个本已很老套的招待会上,他们无拘无束的想象力还在进一步发展。 这是一个非常可怕的例子。 勇敢的侦探反映在受害者的瞳孔中,收到了犯罪者的照片。 确实,眼镜中的反射已经存在。 这很平常。 让我们继续前进! 就像哈伯望远镜一样,楼梯间的闭路电视摄像机的分辨率竟然是随机的:


在“先知”(00:38:07)中:

顺便说一下,在“阿凡达”(1:41:04–1:41:05)中,锐化算法与其他电影相比有些不同:它先在某些地方削上尖晶石,然后在瞬间分离出其余图像,t .e。 首先是嘴的左半边,然后是右边:


通常,在成千上万观看的非常受欢迎的电影中,一键放大图像即可。 所有的人(在电影中)都这样做! 那么,为什么您如此聪明的专家却不能这样做?


“我知道这很容易!” 而且我绝对被告知您正在这样做! 您是否懒于按此按钮?

//噢,亲爱的...编剧们凭空的想象力...

-我了解您很忙,但这是您对国家解决重要犯罪的帮助!

//我们了解。

-也许是关于钱? 您需要支付多少?

//好吧,如何简单地说明不是我们不需要钱...然后,再然后,...

上面的引号与真实对话框的任何重合都是完全随机的,但是,特别是编写此文本是为了使一个人首先仔细阅读它,然后才回叫。
结论:由于一键式放大CCTV摄像机图像的场景已成为现代电影的印记,因此许多人真诚地相信,放大廉价摄像机或廉价录像机的帧片段非常简单。 最主要的是如何问(好吧,或命令,这是多么幸运)。

腿从哪里长出来


显然,整个呼叫流并非从头开始。 我们实际上已经从事视频改进工作约20年,包括各种类型的视频恢复(顺便说一下,其中有几种类型),我们的示例将在本节中介绍。

科学文章中分辨率的“智能”提高通常称为“超分辨率”(简称SR)。 根据超级分辨率的要求,Google学术搜索可找到290万篇文章,即 这个话题实际上已经很好地挖掘出来了,许多人都在处理它。 如果您点击该链接 ,那么会有很多结果,一个比另一个更美丽。 但是,值得深入研究,图片照常变得不那么具有田园色彩。 SR主题有两个方向:

  • 视频超分辨率 (40万篇文章)-使用先前(有时是后续)帧的实际还原,
  • 图像超分辨率 (220万篇文章)-仅使用一帧即可“智能”地提高分辨率。 由于在一张图片中获取关于该地方实际上什么都不存在的信息,因此算法以一种或另一种方式完成了图片(或者相对而言,“思考”)图片-可能在那里。 这样做的主要标准是结果应看起来尽可能自然,或尽可能接近原始结果。 很明显,这样的方法不适合还原“真正的”图像,尽管会放大图像以使其看起来更好,例如在打印时(当您有一张独特的照片,但是没有更高分辨率的版本时) )这样的方法很有可能。

如您所见,40万与2.2相比-也就是说,实际恢复工作的人数减少了5倍。 幸运的是,“做大一点,只做美丽”这一主题在业界(包括智能手机和数字肥皂盒中臭名昭著的数字缩放)中都有大量需求。 此外,如果您进行更深入的研究,很快就会发现,有关视频超分辨率的大量文章也增加了视频分辨率,而无需恢复,因为恢复很困难。 结果,我们可以说,那些“做得很漂亮”的人比那些真正想要恢复的人大约多十倍。 顺便说一句,生活中很普遍。

我们更加深入。 通常,该算法的结果非常好,但是它需要例如向前20帧和向后20帧,并且在使用最先进的GPU时,一帧的处理速度约为15分钟 。 即 1分钟的视频需要450个小时(将近19天)。 糟糕!同意,这根本不像即时的“放大!” 看电影。 通常,每帧可以使用几天的算法。 对于物品而言,获得更好的结果通常比工作时间更重要,因为加速是一项单独的艰巨任务,而且更容易部分吃掉一只大大象。 这就是生活和电影之间的区别...

对以合理速度在视频上运行算法的要求导致了“ 快速视频超分辨率”的另一个发展方向-18万篇文章,其中包括“慢”文章与“快”文章的比较。 有关这种方法的文章的实际数量被夸大了。 请注意,在“快速”方法中,投机的百分比即 没有真正的恢复,更高。 因此,诚实恢复的百分比较低。

您看到的图片越来越清晰了。 但是,这当然远非如此。

还有哪些其他因素会显着影响获得良好结果?

首先,噪音影响很大。 以下是在嘈杂的视频中双重恢复分辨率的示例:


资料来源:作者的资料

该碎片的主要问题甚至不是通常的噪音,而是衬衫上的彩色波纹 ,很难处理。 有人可能会说,今天大声喧are已不是问题。 事实并非如此。 在黑暗中查看汽车DVR和CCTV摄像机的数据(仅在需求更大时)。

但是,就噪声视频而言,波纹也可能发生在相对“干净”的地方,例如下面的城市(以下示例基于我们的工作 ):


资料来源:作者的资料

其次,为了获得最佳恢复,需要对帧之间的运动进行接近理想的预测。 为什么很难做到这一点是一个单独的大话题,但这可以解释为什么全景相机运动的场景通常可以很好地恢复,而运动相对混乱的场景却很难恢复,但是在某些情况下,使用它们可以得到很好的效果:

资料来源:作者的资料

最后,这是文本恢复的示例:


资料来源:作者的资料

在这里,背景移动非常平稳,并且该算法具有“漫游”功能:



特别是,如果我们比较右手边的很小的铭文,包括使用经典双三次插值法进行的放大,则区别非常明显:


可以看出,对于三次三次插值法来说,几乎是不可能读完年份的,对于Lanczos4来说 ,它受到半专业地改变视频分辨率以获得清晰度的人们的喜爱,当然边缘更加清晰,但是仍然无法读懂年份。 我们没有评论商业用的黄玉,但我们清楚地阅读了铭文,您会发现这很可能是1809年。
结论:

  • 世界上成千上万的研究人员都在致力于提高分辨率,有关该主题的文章已经发表了数百万篇。 因此,每个智能手机都有一个“数字变焦”,通常在客观上要比增加传统程序的算法要好,并且每个FullHD TV都可以显示SD视频,即使没有分辨率变化的特征。
  • 从视频中恢复真实图像远少于“超分辨率”所涉及的图像的10%,而且,大多数恢复算法都非常慢(每帧最多几天的计算)。
  • 在大多数情况下,恢复旨在确保保留或多或少保留视频中的高频,因此不适用于具有明显压缩伪像的视频。 而且,由于在CCTV摄像机的设置中,压缩率通常是基于节省更多时间的愿望来选择的(即,视频被更强烈地压缩并且高频被“杀死”),因此几乎无法恢复这种视频。

SR在行业中是什么样的


公平地讲,我们注意到,如今所有(或至少购买的)分辨率分辨率算法都适用于所有电视制造商(您需要即时从SD图像制作HD图像),所有智能手机制造商(广告中称为“数字变焦”)等。 .d。 我们将讨论Google的结果(不仅限于此)。 首先,因为Google非常好,没有太多的麻烦,行销会在其网志上描述结果-这非常好。 其次,因为智能手机制造商(例如,一家非常著名的韩国公司)在使用诸如Photoshop之类的技术进行广告宣传时不会回避(这是有区别的-人们还是会吞下它)-这是令人不愉快的。 总的来说,让我们谈论那些诚实地描述其技术的人。

在2016年,Google发布了Pixel 2智能手机中使用的RAISR算法(快速准确的图像超分辨率)的有趣结果,在最成功的照片上,结果看起来非常好:


资料来源: Google AI网志

该算法是ML分类后使用的一组过滤器,并与双三次插值(传统鞭打男孩)进行了比较,结果令人满意:


顺序:原始,三次三次插值,RAISR

但这是单帧插值,在“不成功”的示例中,例如下面的叶子,图片变得非常不愉快地失真-放大后,图片变得明显的“合成”。 它恰好显示了现代智能手机的数字变焦不受欢迎的效果:


实际上,奇迹并没有发生,谷歌诚实地立即发布了一个反例,即 立即概述了其方法的适用性限制,并使人们免于过高的期望(对于传统营销而言这是典型的)。

但是,不到两年后,Google Pixel 3中使用的作品得以延续,并大大提高了其拍摄质量,这已经是一种诚实的多帧超级分辨率,即 多帧分辨率恢复算法:


资料来源: Google AI网志

上面的图片显示了Pixel 2和Pixel 3的结果的比较,结果看起来非常好-图片确实变得更加清晰,可以清楚地看到这不是“思考”,而是真正的还原细节。 此外,一位细心的专业读者将对左侧的两个垂直双管提出疑问。 分辨率明显提高了,而混叠步骤(实际分辨率的标志)看起来异常接近。 那是什么

简而言之,我们将分析该算法。 同事们改变了拜耳模式的插值方法:


事实是,实际图像中的2/3信息实际上是信息插值。 即 您的图片已经被模糊和“模糊”,但是在真实的噪声水平下并不是那么重要。 顺便说一句,使用更复杂的插值算法的能力使照片的RAW转换程序成为最受欢迎的程序(当放大图像时,通常每个眼睛都可以看到内置在每个相机中的简单算法与专用程序的复杂算法之间的区别)。

Google的同事使用这样的事实,即绝大多数智能手机照片都是用手拍的,即 相机会轻微抖动:


资料来源: Google AI博客 (多帧图像在像素级别对齐以显示亚像素偏移)

结果,如果您拍摄了几帧并评估了偏移(并且能够在任何支持H.264的智能手机中使用铁杆来构建四分之一像素精度的运动估计图),我们就会得到一个偏移图。与上面的动画一样,可以清楚地看到,在真实的噪声水平下,构建具有亚像素精度的位移图是一项非常艰巨的任务,但是在过去20年中,在该领域出现了非常好的算法。当然,有时候,他们很难过。例如,在上面的示例中,楼梯扶手顶部的一帧上闪烁着一些东西。而且这仍然是一个静态场景,没有移动的物体有时不只是移动,而是旋转,改变形状,快速移动,留下较大的开口区域(处理后的环不应该可见)。下面的例子清楚地显示了如果关闭此类情况的特殊处理(左侧禁用,右侧启用,单击鼠标右键,则可以清楚地看到处理框):


来源:Google AI博客(建议单击并以高分辨率查看)

烈火,涟漪,水上阳光刺眼等是硬实例。通常,即使在确定换档的“简单”问题中,也存在许多非平凡的时刻,这些时刻显着使算法的寿命复杂化。但是,现在与此无关。

有趣的是,即使相机完全静止不动(例如,安装在三脚架上),也可以通过光学稳定模块的控制(OIS-光学图像稳定)使传感器移动。结果,我们获得了所需的子像素偏移。在Pixel 3中,实现了对OIS的支持,您可以将手机按到玻璃上,并感兴趣地观看OIS如何开始沿椭圆移动图片(大致类似于此链接)也就是说,即使在这种安装在三脚架上的情况下,他也很难做到,超分辨率将能够解决并提高质量。但是,从智能手机拍摄的最大份额是手持拍摄。

因此,我们还有其他信息可以制作更高分辨率的照片:


如上所述,SR的直接后果是噪声水平显着降低,在某些情况下,这是非常明显的:


来源:Google AI博客

请注意,恢复还意味着通过每个组件的位数进行恢复。正式解决提高分辨率的问题,同一引擎在特定条件下不仅可以抑制噪音,而且可以将帧变成HDR。显然,如今很少使用HDR,但这是一个不错的选择。

以下示例显示了在具有类似传感器质量的SR后在Pixel 2和Pixel 3上拍摄时获得的图像的比较。噪声的差异和清晰度的差异清晰可见:


对于那些喜欢看细节的人来说,有一张专辑可以使Google的Super Resolution(市场名称为Super Res Zoom)在智能手机上的图像缩放比例范围内得到最大的赞誉(FoV更改):他们如何谦虚地书写-他们向智能手机的拍摄质量迈进了一步到专业相机的质量。公平地说,我们注意到专业相机也不会停滞不前。另一件事是,随着销售量的减少,相同的技术将为用户带来更高的成本。但是,SR已经出现在专业相机中。UPD:例如(最后一个链接是一个比较):










:

  • Super Resolution , , .
  • SR: Image Super Resolution — ( ), .
  • 恢复算法的主要优点是降低噪音,改进细节,“更真实”的HDR,在大屏幕电视上清晰可见的更高画质。
  • 由于照片处理算法(或更确切地说是一个视频帧)的复杂性的基本提高(操作数量增加了大约3个数量级),所有这些宏伟成为可能。

Yandex结果


由于他们仍然会在评论中提出问题,因此我想谈一谈Yandex,Yandex于去年发布了该版本的Super Resolution:


来源:https //yandex.ru/blog/company/oldfilms

这是有关卡通的一些示例:


资料来源: https : //yandex.ru/blog/company/soyuzmultfilm

那是什么 Yandex 在2016年重复了Google技术

在Yandex(市场名称DeepHD) 技术描述页面上 ,仅链接到Image Super Resolution。 这意味着显然存在一些反例,其中算法破坏了图片,并且比诚实恢复算法更常见。 但是约有80%的文章专门针对该主题,该算法更易于实现。

枢纽上也描述了这种技术(有趣的是,本文的作者是我们实验室的毕业生),但是,正如您从评论中可以看到的那样,作者没有回答我的任何问题,而他们回答了其他问题。 这些不是反派的作者,而是公司的政策(在其他职位上,如果您仔细观察,通常也无法回答专家的问题)。 对于技术公司,博客不愿更深入地讨论实现或技术细节。 尤其是这样可以给技术/产品带来更好的印象。 否则竞争者可以更快地削减同一件事。 同样,市场营销负责这些职位,这是他们的直接工作-无论产品本身的质量如何,都会给公司的产品留下良好的印象。 因此,人们常常不信任来自营销的信息。

总的来说,值得怀疑的是“我们如何做好一切”系列中的公司图片,原因如下:

  • 处理算法的作者很清楚,实际上没有算法在某些情况下不会产生伪像。 并且,实际上,开发人员的关键任务之一是减少此类情况的百分比(或此类情况下工件的可见度),同时保持其他情况下的质量。 通常这不会成功:

    • 或者这些工件是如此强大且难以修复,以至于整个方法都被拒绝了。 实际上,在大多数文章中都是这样(惊奇!惊奇!)。 在某些情况下(有基础的)划分图片,而在其他情况下“根本不起作用”。
    • 或者(对于实际的技术公司来说,这是很常见的情况),您必须平均牺牲一些质量,以便在最坏的情况下可以容忍工件。

因此,当不良案例未发布(公司的分类)或有限地发布且具有默认值(文章的分类)时,这是最常见的情况,在技术/算法的性质上误导人们。

  • 关于处理算法的另一个常见误解是使用算法的参数(包括内部参数)。 碰巧的是,算法具有参数和用户-这也是规范-就像最多具有一个“启用”按钮一样。 即使有设置,大众用户也不会使用它们。 因此,当购买技术时,他们“停了一百次”,然后又问:“这肯定是一台完整的机器吗?” 并要求很多例子。

    • 因此,一个共同的故事是用某些参数获得的结果的公布。 幸运的是,开发人员非常了解它们,即使当它们有五十个(真实情况!)时,他也会很快地将它们拾起,从而使图片变得神奇。 正是这些图片经常去做广告。
    • 而且,开发商甚至可能反对它。 市场营销人员看到了发送的新示例,并说:“它们上看不到任何东西,在上一个演示中,您有普通示例!” 然后他们可以尝试向他们解释人们真正看到的是新的例子,在上一次演示中,显示了可以通过对项目开始进行初步研究而获得的潜在结果。 这不会打扰任何人。 人们会在“可以看到的地方”看到图片。 在某些情况下,甚至大公司也使用photoshop。 先生们,请随便吃! )

  • 此外, 在视频方面-它为机器打开了巨大的开放空间……良好的营销! 通常情况下,因为帧是经过布局的,所以压缩视频的质量始终在波动,并且取决于参数的质量。 同样,可以正确应用几种技术,处理时间可能会有所不同。 不仅如此,范围也很大。

    • Yandex广告指出, DeepHD技术是实时的,因此今天您可以使用它观看电视频道 。 上面已经解释过,操作速度是超分辨率的致命弱点。 当然,神经网络的优点是,在长时间的研究中,它们可以在某些情况下非常快速地工作,但是我仍然会(非常怀有专业兴趣)看一下算法实时工作的分辨率和质量。 通常,会对该算法进行一些修改,并以高分辨率实时显示,必须禁用许多 “芯片”(对质量至关重要)。 太多了
    • 黑白示例中 ,仔细观察即可发现局部亮度正在变化。 由于正确的SR不会改变亮度,因此似乎可以使用其他算法,也许不是一种算法(结果表明这不是单帧处理,或者看起来不仅如此)。 如果您看较大的一块(至少100帧),则图像将清晰。 但是,测量视频质量是一个单独的非常重要的话题。

结论:

  • 您需要了解,营销人员之所以经常使用它们的技巧,是因为它有效(以及如何!)。 绝大多数人不阅读habr,不希望深入了解该主题,甚至不寻求专家意见,他们只是有足够的广告(有时是golimoy广告)。 经常导致各种失真。 我希望每个人都不要被广告宣传,尤其是在讲故事达到最佳状态并且真的想相信奇迹的时候!
  • 当然,Yandex也可以处理该主题并制作自己的SR(更准确地说,是自己的SR系列),这非常好。

前景展望


让我们回到开始的地方。 对于那些想增加压缩视频的人该怎么办? 这一切都不好吗?

如上所述,该区域中图像的微小变化,实际上是在噪声水平上,对于“诚实”恢复算法至关重要。 也就是说,图像中的高频及其在帧之间的变化至关重要。

在这种情况下,执行视频压缩的主要原因是消除帧间噪声。 在下面的示例中,运动补偿之前,补偿之后(弱压缩)之后和有形压缩之后的嘈杂视频的帧间差异-感觉到差异(对比度提高了大约6倍,因此可以看到细节):

资料来源:关于压缩算法的作者讲座

可以清楚地看到,从编解码器的角度来看,理想的区域是完全补偿了运动且不需要花费更多比特的区域。 好吧,可以花一点点钱,对某些问题进行最少的纠正。 并且可能有很多这样的领域。 因此,考虑到子像素偏移,Super Resolution失去了它的“主要面包”-有关其他帧中此位置的信息。

如果您查看这些文章,那么即使对于相对简单的JPEG, jpeg恢复也包含26,000个结果,对于jpeg恢复 ,则包含-52 000个结果,以及损坏文件的恢复等。 对于视频,情况要比mpeg恢复更糟-22000 ,即 当然,这项工作正在进行中,但是有关“超分辨率”的工作规模是无法比拟的。 与还原视频分辨率相比,工作量要少大约一个数量级,而比图像超分辨率要少两个数量级。 两个订单很多。 我们还对弹丸做了一种处理(因为我们已经进行了很长时间的压缩和处理),所以有一些需要配合的东西,特别是如果质量不稳定或使用了M-JPEG之类的东西(最近-视频监控中的常见图片)。 但是这些都是特殊情况。

上面链接中文章的结果还显示,结果有时非常漂亮,但是是在非常特殊的情况下获得的。 即 明天,在每部智能手机中,此功能将不会出现。 这是坏消息。 肯定会出现-后天并且在具有良好GPU的计算机上。

原因:

  • 存储设备(用于注册服务商的SD卡,用于CCTV摄像机的磁盘等)正逐渐变得越来越便宜,并且用于保存视频的平均比特率正在增加。
  • 此外,在压缩过程中,它们逐渐转换为下一代标准(例如,在HEVC上),这意味着在相同比特率的情况下,质量有了显着提高。 最后两点表示视频质量将逐渐提高,并且从某个时候开始,成熟的视频超分辨率算法将开始工作。
  • 最后,算法正在改进。 在过去的4年中,基于机器学习的算法取得的成就尤其出色。 在这方面,我们很有可能会遇到以下情况:



即 该算法将明确使用从编解码器接收到的运动信息,然后将此数据馈送到经过训练以恢复特定编解码器特有的伪像的神经网络。 这种方案目前看来是可以实现的。

但是无论如何,您都需要清楚地了解到,当前的恢复率通常是分辨率的2倍。 较不常见的是,在某些情况下,当原始材料未压缩或几乎未压缩时,我们可以讨论3-4次。 如您所见,当夜间消噪记录的1.5像素变成了高质量的汽车编号时,这甚至还没有达到电影放大率的100-1000倍。 实际上,应该为电影和电视节目分配较大比例的“科幻小说”类型。

当然,在流行趋势的框架内,人们将尝试做一些通用的事情,“主要是减少更多层次”。 在此,请注意不要对有关此主题的广告材料产生“欢呼声”反应。 对于神经网络来说,是展示奇迹和各种推测的最方便的框架。 最主要的是正确选择训练样本和最终示例。 瞧! 见奇迹! 顺便说一句,在增加投资者方面非常方便。 也就是说,极其重要的一点是,必须由独立于大量不同示例的人来确认技术的效率,而这种情况很少得到证实。 对于公司而言,即使在该技术无法使用时给出一个或两个示例,今天也等同于一项民事壮举。

好吧,这样一来,生活就不会像蜜月一样,我要提醒您,所谓的转码技术在当今很流行,实际上您必须处理最初被一种算法缩小然后又被另一种算法缩小的视频,而使用其他运动矢量时,高矢量又被销毁了频率等 一个人可以很好地看到一切的事实并不意味着处理此类视频的算法实际上会产生奇迹。 尽管通常在未来10年中,“超分辨率”将快速发展,但将无法恢复严重压缩的视频。

结论:

  • 请记住,您在电影中看到的内容以及在现实生活中的感受是非常不同的。 而且不仅限于恢复高度压缩的视频!
  • 通常,现代算法将分辨率提高2倍,而频率提高的幅度较小,即提高了一点。 没有50次,从电影中熟悉的,很快就必须等待。
  • 超分辨率领域正在蓬勃发展,您可以期望在未来几年中视频恢复的积极发展,包括压缩后的恢复。
  • 但是,我们首先看到的是关于该主题的各种猜测,当证明的结果将大大夸大算法的实际功能时。 小心点!
去年年底,我们举办了“视频处理中的神经网络-神话与现实”讲座。 也许我们可以把她放在这里。

敬请期待!

致谢


我衷心感谢:

  • 莫斯科国立大学VMK计算机图形学实验室 MV Lomonosov不仅具有计算能力
  • 我们来自视频小组的同事们,感谢他们创建了上述算法,特别是本文的作者Karen Simonyan,上面显示了结果,现在他在Google DeepMind工作,
  • Konstantin Kozhemyakov亲自做了很多工作,使本文变得更好,更直观,
  • Google提供出色的博客和对所创建技术的相对正确描述,而Yandex提供广泛的竞争优势-Google实际上是在禁止Google服务的国家中唯一成功的例子,
  • Habrovchan denisshabrJamboJetiMADik作为技巧,并链接到多幅SR专业相机,
  • 最后,非常感谢Vyacheslav Napadovsky,Evgeny Kuptsov,Stanislav Grokholsky,Ivan Molodetsky,Alexei Soloviev,Evgeny Lyapustin,Yegor Sklyarov,Denis Kondranin,Alexandra Anzina,Roman Kazantsev和Gleb Ishelev的宝贵意见更好!

Source: https://habr.com/ru/post/zh-CN439766/


All Articles