科学家创建的新算法使您可以与真实的人创建近乎完美的“交谈头”



研究人员学会了如何通过视频中将任何单词和句子放入人的嘴中来编辑视频 。 该技术以看起来非常自然和自然的方式处理视频,只有怀疑编辑后才能注意到伪造的视频。

新算法是由来自斯坦福大学,马克斯·普朗克研究所,普林斯顿大学和Adobe的研究人员联合开发的。 编辑仅在于创建视频中的人应朗读的文本。 其余工作由神经网络完成。 由于保留了“扬声器”的面部表情和动作模式,因此很难发现伪造品,该技术可以掩盖干扰痕迹。

为了实现这一点,算法的创建者教他如何分析视频。 神经网络通过关节选择必要的手势,面部表情元素和单词,然后组合各个帧,使修改后的视频看起来完整无缺。 结果实际上是一个计算机模型,该模型执行技术所有者所需的操作。

嘴唇,舌头,所有发音元素的动作都是原始的,神经网络从原始视频中“截断”了它们。 在那之后,视频看起来不太自然,因为它包含大量的剪切和暂停。 因此,该技术可以“平滑”结果选项,使其看起来尽可能自然。

在使用之前,需要对神经网络进行培训-它需要与将要替换语音的一个或多个人“馈送”至少40分钟的视频。 没错,这仅与英语视频有关,因为英语只有44个音素,因此从英语示例中学习神经网络比俄语或日语要容易得多。 但是,随着时间的流逝,该技术可用于与会说其他任何语言的人一起编辑视频。 以下是一个视频,用于演示所描述技术的功能。


当然,这项工作提出了许多问题。 其中之一是信息和媒体安全。 如果任何人都可以说任何话,并且结果看起来很自然,技术是否危险? 该开发的作者声称是的,攻击者可以使用它。 但是,例如,图形编辑器已经存在很长时间了,在他们的帮助下,您还可以伪造任何东西,但是这个世界一直存在,而且我们继续存在。

此外,这组作者说,他们了解不道德的政客也可以使用相同的技术。 如果将其替换为由视频上捕获的较早的语音形成的“讲话头”,则后者将能够避免在摄像机前进行语音讲话的需要。

为了检测伪造品,该创意的作者建议使用专门的水印和一些其他技术,使人们能够识别伪造品。

当然,如果有原始视频,很容易证明视频修改的事实。 除此之外,作者还计划开发通过在原始版本中添加“数字指纹”来保护媒体内容的方法,这种方法易于检测和理解视频是原始的还是伪造的。

该研究的全文可在此处找到

Source: https://habr.com/ru/post/zh-CN455439/


All Articles