12种新的Azure Media Services人工智能

微软的使命是为地球上的每个人和组织提供实现更多目标的机会。 媒体行业是将这一使命变成现实的一个很好的例子。 我们生活在一个时代,在这个时代,越来越多的内容以各种出色的方式和设备被创建和使用。 在IBC 2019上,我们分享了我们目前正在研究的最新创新技术,并讨论了它们如何帮助您改变媒体流程。

细节剪下!

此页面在我们的网站上。

Video Indexer引入了对动画和多语言内容的支持


去年,在IBC,我们将屡获殊荣的Azure媒体服务视频索引器公开发布,而今年的情况甚至更好。 视频索引器会自动从媒体文件中提取信息和元数据,例如口语,面部表情,情感,主题和品牌,而您无需成为机器学习专家即可使用它。

我们的最新产品包括两个非常流行且有区别的功能的初步版本-动画人物识别和多语言语音转录,以及Video Indexer中现有模型的几个新增功能。

识别动画人物



动画内容是最受欢迎的内容类型之一,但是为识别人脸而创建的标准机器视觉模型不能很好地与之配合使用,尤其是当内容中的某些字符没有人类特征时。 在新的预览版本中,Video Indexer与Microsoft的Azure自定义视觉服务集成在一起,创建了一组新模型,这些模型可以自动检测和分组动画角色,并使用集成的自定义机器视觉模型轻松标记和识别它们。

模型被集成到单个传送带中,任何人都可以在无需机器学习领域的任何知识的情况下使用此服务。 可通过不需要代码的Video Indexer门户或通过REST API获得结果,以快速集成到您自己的应用程序中。

我们创建了这些模型来处理动画角色,并与一些为培训和测试提供真实动画内容的消费者一起使用。 演播室技术和后期制作维亚康姆国际媒体网络高级总监安迪·古特里奇(Andy Gutteridge)很好地描述了这项新功能的价值,他是数据提供商之一:“添加强大的基于AI的动画内容检测功能将使我们能够快速有效地从库中查找和分类字符元数据内容。

最重要的是,这将使我们的创意团队有机会立即找到合适的内容,最大程度地减少管理媒体所花费的时间,并使我们专注于创意。”

您可以从文档页面开始探索动画角色的识别。

以多种语言识别和转录内容


一些媒体资源(例如新闻,事件纪事和采访)包含使用不同语言的人们的录音。 现有的大多数将语音翻译成文本的选项都需要对声音识别语言的初步指示,这使得转录多语言视频变得困难。

我们的自动识别各种类型内容的口语的新功能使用机器学习技术来识别媒体资源中的语言。 检测到后,每个语言段都会自动以相应的语言进行转录过程,然后将所有段组合成一个包含几种语言的转录文件。



解密后的结果可作为JSON Video Indexer输出的一部分,并带有字幕的文件形式提供。 输出解密还与Azure搜索集成在一起,它使您可以立即搜索视频中的不同语言段。 此外,使用Video Indexer门户时可以使用多语言转录,因此您可以按时间查看转录本和所识别的语言,或者前往每种语言的视频特定位置,并在视频播放期间以签名的形式查看多语言转录。 您还可以通过门户网站和API将结果文本翻译为54种可用语言中的任何一种。

在文档中阅读有关新的多语言内容识别功能及其在视频索引器中的用法的更多信息

其他更新和改进的模型


我们还在视频索引器中添加了新模型,并对现有模型进行了改进,包括以下所述的模型。

检索与人和地方相关的实体


我们将现有的品牌发现能力扩展到了包括巴黎的艾菲尔铁塔和伦敦的大本钟在内的知名地名和位置。 当它们出现在使用光学字符识别(OCR)的生成的解密或屏幕上时,将添加相应的信息。 使用此新功能,您可以搜索视频中出现的所有人物,地点和品牌,并查看有关它们的信息,包括时间间隔,描述以及指向Bing搜索引擎的链接,以获取更多信息。



编辑器检测模型


这项新功能为JSON详细信息中附加到各个帧的元数据添加了一组“标签”,以表示其编辑类型(例如,宽幅,中幅,特写,非常特写,两幅镜头,多人,户外,室内等)。 当编辑剪辑和预告片的视频,以及出于艺术目的搜索特定的帧样式时,这些帧类型特征很有用。


在视频索引器中了解有关帧类型检测的更多信息

先进的IPTC映射详图


即使未明确指定主题,我们的主题检测模型也会根据发现的转录,光学字符识别(OCR)和名人来识别视频主题。 我们将这些发现的主题与四个分类领域相匹配:维基百科,必应,IPTC和IAB。 此增强功能使我们可以包括第二级IPTC分类。
充分利用这些增强功能就像重新索引当前的Video Indexer库一样容易。

新的实时流功能


在Azure媒体服务的预览版中,我们还提供了两个新的实时流功能。

AI实时转录使现场直播更上一层楼


使用Azure Media Services进行实时流传输,您现在可以获得包含音频和视频内容以及自动生成的文本轨道的输出流。 通过转录基于人工智能的实时音频来创建文本。 在将语音转换为文本之前和之后应用自定义方法以改善结果。 文本轨道打包在IMSC1,TTML或WebVTT中,具体取决于它是DASH,HLS CMAF还是HLS TS。

24/7 OTT通道的实时线性编码


使用我们的API v3,您可以使用OTT(顶置)技术创建频道,管理和进行直播,并使用所有其他Azure Media Services功能,例如点播直播视频(VOD,视频点播),打包和数字版权管理(DRM)。
有关这些功能的预览,请访问Azure Media Services社区页面。



新的软件包生成功能


音轨描述支持


在广播频道上播放的内容通常具有音频轨道,除了正常的音频信号外,还对屏幕上发生的事情进行口头解释。 这使得视觉障碍的观众更容易访问程序,尤其是在内容大部分为视觉的情况下。 新的音频描述功能使您可以将其中一个音频轨道注释为音频描述轨道(AD,音频描述),以便播放器使观众可以访问AD轨道。

插入ID3元数据


广播公司通常使用视频中嵌入的基于时间的元数据来发送有关广告或自定义元数据事件插入播放器播放器的信号。 除了SCTE-35信令模式之外,我们现在还支持ID3v2和应用程序开发人员定义的供客户端应用程序使用的其他用户方案

Microsoft Azure合作伙伴展示了端到端解决方案


Bitmovin推出用于Microsoft Azure的Bitmovin视频编码和Bitmovin视频播放器。 客户现在可以在Azure上使用这些编码和回放解决方案,并利用高级功能,例如三阶段编码,对AV1 / VC编解码器的支持,多语言字幕以及用于QoS,广告和视频跟踪的预集成视频分析。

Evergent在Azure上展示了其用户生命周期管理平台。 作为收入和客户生命周期管理解决方案的领先提供商,Evergent利用Azure AI通过在其生命周期的关键时刻创建目标服务包和产品来帮助高级娱乐提供商提高客户参与度和保留率。

Haivision将展示其基于云的智能多媒体路由服务SRT Hub,该服务可帮助客户使用Azure Data Box Edge从头到尾转换工作流程,并使用Avid,Telestream,Wowza,Cinegy和Make.tv的Hublets转换工作流程。

SES已为其基于卫星的托管媒体服务客户开发了基于Azure的广播类媒体服务套件。 SES将展示用于完全托管的回放服务的解决方案,包括主回放,本地化回放,广告检测和替换以及Azure上的高质量实时24×7多通道实时编码。

SyncWords使Azure便捷的云工具和技术可用于创建签名。 这些优惠将使媒体组织更容易地将字幕(包括外语)自动添加到Azure实时和离线视频处理工作流中。
国际技术服务公司Tata Elxsi已将其OTT SaaS TEPlay平台与Azure媒体服务集成,以从云中提供OTT内容。 Tata Elxsi还将Falcon Eye的QoE解决方案(提供分析和决策指标)迁移到了Microsoft Azure。

Verizon Media将其流媒体平台作为Beta在Azure上提供。 Verizon Media Platform是企业级OTT解决方案,其中包括DRM,广告插入,个性化个性化会话,动态内容替换和视频交付。 集成简化了工作流,全局支持和可伸缩性,并允许您访问Azure中的许多独特功能。

Source: https://habr.com/ru/post/zh-CN469031/


All Articles