微软的新技术允许真实人物的3D副本使用任何语言



似乎在不久的将来,如果两个人说不同的语言,这将不是一个大问题。 当然,对另一种语言的了解是一大好处,但是碰巧您需要讨论一个紧急问题,例如上班,而对话者不会说您的语言。

大约一周前,公司的代表茱莉亚·怀特(Julia White) 在会议上演示了这项新技术 。 它不仅可以形成一个逼真的全息图(在虚拟现实中),而且还可以使该全息图具有某种语言的知识,并且语音-音调,音量,音色和其他参数均取自原始全息图。 因此,对话者在他面前看到了另一个人的虚拟副本,并且该副本说出了所需的语言。

通过混合两种不同的解决方案(混合现实和神经文本语音转换),使这项技术成为可能。 看来,技术将为消除仍然存在的通信障碍提供机会。 互联网使人们可以进行实时交流,现在有机会说相同的语言。


该任务已由公司逐步解决。 第一步是在全面成长的过程中创建逼真的白色全息图。 为了做到这一点。 她参观了微软的专门实验室,她的演讲用英语录制。 为了从记录元素创建一个人的三维模型,记录是大量的。

结果,结果完成了。在完成此阶段之后,Microsoft HoloLens视频点的任何持有人都可以观看她的表演。 好吧,此后,人们开始使用基于神经网络的文本到语音技术复制怀特的声音并将其语音翻译成日语。 结果非常好-语音参数几乎完美传输。 当然,考虑到最终发言是用日语进行的,因此其声音与任何其他语言都有很大不同。


自然,这只是一个示范,花了相当长的时间才能做饭。 但是,与任何技术一样,随着时间的流逝,它变得更加高效且易于使用。 微软公司计划进一步改善和补充其项目。

首先,它将针对性地应用-例如,随着3D眼镜的普及,著名艺术家或政治领导人的表演将变得更加流行。 可以在他们旁边看到他们,他们将以母语为观众说话。

您也可以想象以这种方式组织的讲座。 此外,可以安全地假定将一个人变成与观看者说相同语言的全息图大约需要几个小时,而不是几天。 最主要的是用于记录3D表演和神经网络的设备,该设备能够“翻译”演讲者的语音。

Source: https://habr.com/ru/post/zh-CN460959/


All Articles