街头魔术编解码器比较。 揭秘



今年是周年纪念日-自Compression.ru网站启动16周年以来,作者和他的同事在这里组织了视频编解码器和图像编码器的比较。 在这段时间里, 从23页到550+页的报告中进行了数十次比较 ,最后一次比较中的图表数量超过7000个,并且此期间的各种迷人案例最终超过了所有合理的限制。 由于下一轮日期(32年)将很快到来,因此有必要讲述一些迷人的东西以纪念周年纪念。

如果我们谈论编解码器,那么最受公众尊重的大多数比较图和图表都是市场部门的产品,这已经不是什么秘密了。 在最好的情况下,工程师会熟练地制作图形,而营销只允许出版。 在最坏的情况下,工程师根本不参与他们的准备工作。 为什么要在这些忙碌的人上浪费时间!

同时,压缩主题非常流行。 在硅谷系列中,主角的初创公司开发了一种巧妙的算法,该算法在第一季的最后一集中显示了令人难以置信的3D视频压缩,因此,现在全球数以百万计的初创公司(和投资者)都知道,主要是使Weissman系数变大必须找到天才,剩下的就是废话。 奇迹会! 这自然提高了人们对奇迹的期望,当然(当然!)这些奇迹被公司欣喜地证明了! 包括使用最新成就的街头魔术。

免责声明:以下公司名称与真实姓名的任何巧合绝对是随机的。

坐吧! 我们保证,到故事结束时,您将能够亲自展示这些技巧,并且可以揭示其中的许多技巧。 走吧


1级,适合初学者的技巧


让我们从最简单的开始,因为奇怪的是,这些方法都是在现代的(不是串行的,而是真实的)硅谷推出的。

因此,最受尊敬的公众开始展示超强压缩技术!



当然,许多人已经在页面上看到了与基于JS的不起眼的猫类似的动态比较。 如果比较压缩,则合理的是,质量应尽可能相等(理想情况下完全相同),例如,将其压缩2倍更好。

快说不做!

该公司声称压缩率提高了30%(所有匹配项都是随机的!)。 和图片看起来完全一样! 即使是经过专业培训的外观也不会发现差异。 有希望更详细地看。 我们进入页面代码,看到第一张和第二张图片的滑块从一个文件中获取数据! 我们可以通过多种方式同时获得优势:首先,最好的结果得到了理想的证明;其次,工程师并没有分散工作的注意力,最后,网站页面上的此位置的加载速度是以前的两倍。 利润可观!!!

这种情况,不相信,是真实的。 现在您知道在哪里看了!

在另一个地方-滑块也很棒。 我们看一下滑块代码-加载了不同的文件。 从痛苦的经验中学习,下载它们-它们不仅达到相同大小的字节,而且一点一点地匹配! 总的来说,这是前一种方法的所有优点,但是重点要复杂一些,尽管由于页面加载速度较慢(您必须付出一切……)。 而且,最重要的是,您不需要吸引昂贵的压缩专家。

但是,更高级的营销人员在此级别上走得更远。 滑块的布局-您看起来-图片是不同的,但是质量非常相似。 好吧 更进一步! 展示了出色的开放性-甚至还有指向视频文件的链接。 下载是他们方法的一个很好的优点,甚至不清楚他们是如何做到的。 这有助于我们在这里完全是俄罗斯黑客(已经是西方的品牌)。 我们看一下比特流,看到一幅美妙的图画:


也就是说,即使是许多专家,如果不深入研究和仔细检查,他们也将肯定,人们所取得的卓越成就实际上是当今具有可比质量的领导者的两倍。 您不会相信这种方法已经习惯了,甚至在某些情况下还可以让您获得数千万美元的投资。

我记得6年前与一家俄罗斯初创公司的会议。 他们的导演从门口说:“您必须尽我们最大的努力。 我们有谢韦尔钢铁公司的投资者,如果有的话,运动剃光铁皮的家伙会来找你。在我们的大象之乡处理此类案件时,西方投资者有着不可抗拒的怜悯之情。 的确,并非我们所有的投资者都如此纯粹,他们的魔术师也在我们的巴勒斯坦人中。 并定期。 但是另一回事...

7级共鸣


这个故事不是关于视频编解码器的,而是关于图像压缩的,但是根据“诚实技巧”流派的所有定律,其中有很多内容。

不知何故,一家相当知名的公司M决定需要将Windows Media Photo(WMP)添加到其Windows Media Video(WMV)和Windows Media Audio(WMA)格式。 如您所知,请清洁套件。

在画廊的年轻人! 好吧,别大声喊叫,这不是你一个人的黎明! 有教养的人(看第一行)最多-故意在胡须中咧着嘴笑...

快说不做!

接下来,仔细监控双手:


即 在相同的压缩级别下,WMP比JPEG和JPEG 2000拥有更多的细节(将JPEG和JPEG 2000进行平均均衡并将其设置为24倍), 在以下段落中


即 通常只有6次挤压,当时是24次。哇,它闻起来有3次了! 一般而言,我们肯定会好2倍。 媒体向大众传播了好消息(有人写道,这比JPEG 2000好2倍),即使在哈布雷,他们也重复了这一消息

稍后,此演示文稿中出现了一个图表:


如何解释这样的图表?

垂直通常是质量(某些指标取决于此时的模式),水平通常是一种或另一种方式。 通常,随着尺寸的增加,质量也会提高(尽管实际上会发生任何事情)。 在相同质量的线上(水平的红色),可以估计在相同的比特率范围内,“紫色”编解码器的损失约为“蓝色”大小的2倍。


尽管事实证明他们显然选择了一个有着漂亮男孩和海豚的最佳照片,但与JPEG 2000相比,优势很小。 我们期待与该编码器一起玩。 大约六个月后,规划了压缩实用程序。

到那时,我们就在一年前比较了JPEG 2000的9种实现

是的,是的,是的! 由于并非所有的酸奶都同样有用,因此并非所有的标准实施都同样出色。 该标准仅指定了一个比特流,可以将其放入数据中(顺便说一下,取出!)。通过非常不同的方式,这导致了一个单独的编解码器市场,并且它与众多参数竞争激烈。 通常,一个简单的人不知道这一点,这使得他几乎可以不受干扰地骑在推土机上(“我们的DVR支持最新的H.265 / HEVC,其他人都没有!”)。 而且没有人(没人!)很有可能进行设置。

我们很高兴在上一份报告中为WMP插入了3行。 原来是这样的:

可以看出JPEG 2000实现的行很拥挤,蓝色的粗体字(最好的WMP实现)介于两者之间,即 JPEG 2000 PLAYS。如果将JASPER设为零并垂直显示所有内容,则可以看到参数最差的WMP几乎失去了所有内容,除了最后两个参数(其中一个是KDU,请记住这一点),参数最好的WMP则在某处居中,失去了许多实现:

由于比较结果是公开发布的,因此引起了广泛关注,开发人员甚至在官方博客上回答了这个问题 。 注释是有礼貌的:受到称赞,批评,然后,如果您仔细阅读文本,该人坦率地承认他们在比较中使用了我们比较中最差的JPEG 2000实现方式(六个月前发布),尽管“完全是偶然的”。 当然,我们会相信他们的。 一家受人尊敬的公司。

此外,该技术的名称从WMP更改为HD Photo,但是,网络上仍然存在以下结论

作为蛋糕上的樱桃。 我们的同事走得更远:拍摄了更多照片,并显示HD Photo不仅可以播放JPEG 2000,而且还可以实现良好的JPEG实现( 在14个案例中有7个 )。 并具体失去。 有理由相信他们会拾取图片,但是他们坦率地掩埋了HDPhoto,因为谁需要一种格式可以在一半的时间内播放古老的JPEG-目前尚不清楚:


此技巧的全部秘密:
  • 与主要竞争对手相比,我们采取了最糟糕的实施方式。
  • 我们进行广告宣传(以“我们已经超越所有人”的风格)。
  • 当炒作逐渐淡出背景时,我们发布并希望没有人能验证其中的真实内容。

孩子们! 永远不要这样做,也不要欺骗他人! 您的公司可能会损失数百万美元和专家的信任。

10级,新鲜! 用神经网络!


通常,有很多这样的情况。 即使在俄罗斯,我一年也遇到两次类似的情况(信息流向我们,关于Compression.ru的所有者)。 西方的投资者每月大约繁殖一次。 而现在,中国也与这种娱乐活动息息相关。 计算机的功能,算法的复杂性和功能也在不断增强。 了解这一点变得越来越困难。 结果,暴力的乐趣还在继续!

最近,神经网络已变得非常流行。 绝对神奇地改善了他们接触的所有事物。 但是,不要将它们应用于视频压缩吗?

快说不做!

去年11月, 《华尔街日报》本身的另一个好消息传遍了世界。 基于机器学习创建了一个视频编解码器,使每个人都为之震惊! 这是证明:

总的来说,我个人对所有有关神经网络的新闻都非常怀疑。 并且我建议您(尤其是如果您是投资者)。 神经网络的排列方式可以正确地选择一个训练样本进行测试,从而可以显示任何结果(对于乏味-任何!)。 神经网络是启动营销奇迹流的理想工具。 一个比另一个更精彩!

一般来说,有时间表,有图片。 同意-令人信服。 特别是对于那些怀疑论者,先生们在著名的测试集上带来了更多的图表:


但是,如果以前的带有图片的图表可以为我个人解释(始终可以锐化一个视频,甚至使用深度神经网络也可以),那么这两个图表让我非常警觉。

没有什么困扰你吗?
答案
从他们那里得出的结论是,从采用H.264标准到采用H.265的十年中,没有进行任何特殊的编解码器开发! 这些愚蠢的研究人员脚了10年,制作了速度较慢的编解码器来压缩相同的文件! 差异最大为20%,甚至更少! 8 \

他们甚至将基础放在了底层,例如经典的编解码器处于极限状态,并不是特别发达(在这里,它们进入了舞台,全部为白色)。 而且您知道,如此公然的谎言非常有效! 好吧, 《华尔街日报》 (他们(我想相信)只了解财务,好吧, 《麻省理工科技评论》) -这些先生们指的是硅谷先生们,但是像哈伯这样受人尊敬的资源却毫不批评地接受了新闻-我会做到的! 关于大规模转载新闻我能说些什么...

实际上,幸运的是,编解码器的发展前景截然不同。 首先,在下面基于同一组xiph视频的图表中,我们可以看到H.265比H.264好25–31%。 即 十年的编解码器开发仍然没有白费! 第二,新的AV1与H.264相比几乎提高了两倍,坦白地说,它的优势一步非常明显:


因此,可以看到,如果将AV1图表覆盖到H.264左侧45%的作者图表上,它将覆盖新的编解码器,为... [按审查方式删除]。 简而言之,涵盖得很好。 因此,他们“忘了”与他比较。 真正的对齐看起来像这样(不那么拥挤,同意):

明确起见-编解码器具有标准的预设,可让您在相当大的范围内(通常数十次)更改速度,但同时以相同的质量(通常超过2倍)实现更大的压缩。 在x265( HEVC标准的非常好的开源实现)上,它们被称为:超快,超快,非常快,更快,更快,快,中等,慢,慢,非常慢,安慰剂。 如果我们将介质取为1,则在速度和文件大小相同的情况下,可以为特定文件定位它们,例如,如下图所示。 我们可以说相对中等,您可以将文件放大或缩小40%,将速度变化10倍:
请注意,对于某些视频,标准选项不一定会单调(在这种情况下,质量上来说)。 另外,有时“非标准”选项的大小会大大增加 ,特别是使用上面的示例,与中速相比,速度损失了20%,您可以播放30%的大小-就像切换到下一级标准时一样,但是前者的复杂度较低解码器。 但这已经是一个更复杂的层次了,大约在另一时间。

从上面您可以很容易地看到,先生们已经比较慢了。 最好不要“很快”,因为您可以拥有它! ),他们的编解码器本身的运行速度惊人地没关系。 在大多数情况下,人们在查看图形时不会记住编解码器的速度可能会因参数而有几个顺序的差异。 因此,此技术完全滚动。 尽管在上面的图表(“比特率/质量...”)中,它们的束线位于红色区域(最坏的区域)。 同时,在编解码器的开发中当场踩踏是合理的。 是啊

还有更多微妙的操作,例如,先生们写道:“要删除B帧,我们将H.264 / 5与bframes = 0选项一起使用,将VP9与-auto-alt-ref 0 -lag-in-frames 0和使用HM编码器lowdelay P main.cfg配置文件。” 也就是说,他们无法在公平竞争中击败常规编解码器,而是选择了低延迟,低延迟模式,该模式通常用于实时(例如,视频会议)。 当然,其中的编解码器结果更差。 同时,他们的解码器(对编码器无声)每帧工作2秒,也就是说,您甚至无法谈论任何低延迟。 但是有百分之几的人参加了比赛。

这些并不是先生们创业公司使用的所有技巧,但是情况已经很清楚了。

显然,为了使焦点看起来更可信,还需要额外的修饰来赋予真实感。 例如,这些先生们在https://arxiv.org/abs/1811.06981上发表了一篇文章。 如今,算法的发展是如此之快,以至于等到一篇文章发表在期刊上变得无法忍受,这就是为什么许多坚强的作者首先在arxiv.org上发表结果的原因。 对于街头魔术师来说,此站点很方便,因为您可以在其中放置任何资料-与同行评审的杂志和会议不同,没有人会问不愉快的问题并切断出版物(评审严肃的地方没有任何杀戮)。 但是,公众并不知道这样的事实,例如,在4月1日,习惯在arxiv.org上刊登各种科学文章的仿制品,包括嘲笑它是一个出版物网站,因此对于一般公众而言,出版物似乎是可靠的。

来吧 关于它们的一篇文章被称为“ 机器学习中的第一个视频编解码器大大超越了所有现有的编解码器,包括H.265和VP9。” 另一个笑话是,不仅积极探索了压缩中的机器学习(已经有专门的会议路径 (即,有很多文章 )),而且还积极地在例如AV1中使用了它 (我专门提供了Google请求)。 但是,如果他们诚实地说:“我们使用机器学习发布了第二个编解码器,而在速度和压缩方面却失去了第一个编解码器,那么《华尔街日报》就不会写关于它们的信息……而MIT TechReview也不会写...甚至还有Habr ...显然,由于没有忍受后者,公司略微调整了音调。 同时,现代Internet的一个特点是人们不检查信息,这使许多人可以从众多公司中率先宣布自己。 如您所知,狂妄夺走了城市! 事实检查并不流行。

-谷歌!
-是这样吗?
[上面给出的示例请求))))

还有关于ML / DL的知识。 在遥远的过去,软盘很大而硬盘驱动器很小,“归档者的街头魔力”技术之一就是将压缩文件的一部分保存到带有临时文件的较远目录中,从而显示记录。 从那时起,时代发生了变化。 温彻斯特(Winchesters)成长了,软盘已经完全消失了,将数据隐藏到几百兆格网格系数的深度已经成为一种时尚。 您可以在网格中保存“版权标记”,可以保存复活节彩蛋,也可以设置伪造的压缩记录。 深度神经网络-简而言之,绝对是强大的功能!

总结成功之路:
  • 我们无视这位现代领袖,好像他根本不存在。
  • 我们会仔细地制定所有内容,以使其看起来像我们是第一个使用某些新技术的人(即使领导者做了第一个,也没有人会检查)。
  • 对于5年前和15年前的标准,我们关闭手柄,以使它们的作用比我们更差。
  • — , , .
  • «The Wall Street Journal» …

… ( !)… ! … … ! ! ...

-!


就像我在上面保证的那样,到本文结尾,您可以轻松地在有条件的皮卡布舞台上大放异彩。

现在,最受尊敬的公众,我将向您展示一个技巧,使您可以将任何东西与任何预定结果进行比较。即如果您希望编解码器A优于编解码器B,那么我们将展示它;如果您希望B优于编解码器B,那么我们可以展示它。我们将免费为您完成营销部的任何突发奇想

让我们检查一下这些编解码器如何按下。正如他们所说-不要相信任何人,请自己检查。然后,也许事实是,这些标准没有发展,我们只是被愚弄了,白白地付出了过度劳累所赚的钱。

采取480p24格式的“头像”,并使用x264编解码器对其进行压缩,并设置为“ -preset superfast -x264-params” nal-hrd = cbr” -b:v 1M -minrate 1M -maxrate 1M -bufsize 2M,而xvid codec with设置“ -preset superfast -b:v 1M -minrate 1M -maxrate 1M -bufsize 2M”(H.264和MPEG-4标准的两个非常好的开源实现)。为什么采用这些编解码器和设置,将在后面说明。

我们得到了两个几乎相同大小的文件:
avatar_x264_cbr1M_superfast.mkv-1402 MB
avatar_xvid_cbr1M_superfast.mkv-1401 MB

现在,女士们,先生们!小心地看着你的手!

我们来看,这是新标准和旧标准:


我们看另一个框架:

暂无评论!但是,如果快速移动怎么办?


同意!进步是明确而坚定的!一切都在发展,越来越好!而生命
- 美丽和乐趣!

虽然...



上帝,这是什么?新标准已经完全合并...啊



!人!知道了!公司在欺骗您!编解码器已经开发了很长一段时间,但是它们告诉您一切进展顺利!



你看到了吗他们在10年中所学到的全部就是侵蚀块状!他们只是恶心!它变得比以前更糟!这些年来,您一直被鼻子所吸引!!!!!!! 11


现在,我们将弄清楚如何做到这一点。

实际上,整个帧如下所示:

当编解码器工作时,尤其是在恒定比特率模式下,帧质量会有很大的波动。例如,这是电影的开头-通过经典指标得出的质量PSNR(毫无疑问,谁会更好,谁会更糟,很明显,绿色xvid平均会丢失):单击图片。如果从另一个图表中减去一个图表(在下图中,文件中的另一个位置),则可以看到整个编解码器都较旧标准会丢失,但在某些地方它会消失+5 dB(PSNR很方便,因为它与标准偏差成反对数比例,因此,该规则通常起作用:在中等和低比特率范围内,可见1.5 dB的差异) 。然后您可以看到帧,在另一个方向上的差异为20 dB:单击图片







现在您了解了为什么您的谦虚的仆人总是怀着真诚的感情看待公司营销材料中给出的单个镜头,以证明视频质量更高(尤其是在没有时间表的情况下)……毕竟,他们有时还是这样做!

为了更轻松地选择帧,十多年前,我们在工具MSU VQMT中建立了一种比较模式,其中一次比较了3个文件-原始文件,编解码器1和编解码器2,并立即保存了例如30个成对的帧。另一边 最主要的是使文件更真实!

采取了低比特率的MPEG-4,以使块更加可见。

总计,成功之路:
  • 我们选择一种模式,其中编解码器的质量变化最大(通常是单遍CBR)。
  • 将源分辨率降低2倍(因为您很有可能必须增加碎片,例如,碎片增加了3倍以上)
  • 我们采用一些指标(本季度的PSNRSSIM,时尚的VMAF)。
  • 作为比较,我们将旧标准与阻止功能或从具有选项的竞争对手禁用内部解阻止功能进行比较。
  • 最后,别忘了拿出更真实的文件:3个小时的影片-最多!

还有宾果!您有一些例子说明自己比竞争对手强得多!

好吧,或者在听众不太挑剔的地方,您可以成功地将某人与某人进行比较。人们会很高兴的。

现在,当您与公司材料人员进行比较时,您知道要问什么问题!也许更少,最后,他们会见面...

而不是结论


上面讨论了在编解码器和编码器的比较中“有利于”准备营销材料的相对简单的方法。 自然,在现实生活中,一切都变得更加复杂。 las,如果您深入了解,它不会那么令人兴奋,也不会变得更加复杂(例如,希望阅读本文的人和评论的人 )。

人们通常对简单的答案感兴趣。 在“ Answers@Mail.ru”中,对于“ 什么是最好的视频编解码器?”这一问题,最受欢迎的答案 “ K-Lite Mega Codec Pack”。 对于真正的听众来说,这确实是最短,最易理解和最准确的答案。 你说编解码器,标准...

但是,那里的人越多,至少是精通该领域的平均水平,市场部门或厚颜无耻的初创公司的厚脸皮就不会让投资者大吃一惊。 生活会好一点。

谢谢各位来宾! 大家-技术素养!

致谢
我衷心感谢:
  • 莫斯科国立大学VMK计算机图形学实验室 MV Lomonosov不仅对俄罗斯计算机图形学的发展做出了贡献
  • 我们来自视频小组的同事,包括谢尔盖·兹维兹达科夫(Sergey Zvezdakov),阿纳斯塔西娅·安特西弗娃(Anastasia Antsiferova)和罗曼·卡赞采夫(Roman Kazantsev),上面使用的例子是
  • Konstantin Kozhemyakov亲自做了很多工作,使本文变得更好,更直观,
  • 最后,非常感谢Sergey Lavrushkin,Yegor Sklyarov,Ivan Molodetsky,Evgeny Lyapustin,Dmitry Kulikov,Alexandra Anzina,Vitaly Lyudvichenko,Mikhail Erofeev和Georgy Osipov所做的许多有益的评论和更正,使本文变得更好了!

Source: https://habr.com/ru/post/zh-CN451664/


All Articles