Azure媒体服务的新AI驱动创新

在Microsoft,我们的使命是使地球上的每个人和组织都拥有更大的权力。 媒体行业体现了这一使命。 我们生活的时代比以往任何时候都可以通过更多方式和设备来创建和消费更多内容。 在IBC 2019上,我们很高兴分享我们一直在努力的最新创新以及它们如何帮助您转变媒体工作流程。 继续阅读以了解更多信息。


本文在我们的博客中

Video Indexer增加了对动画和多语言内容的支持


去年,我们在IBC上普遍提供了屡获殊荣的Azure媒体服务视频索引器 ,并且今年情况会越来越好。 Video Indexer会自动从媒体文件中提取见解和元数据,例如口语,面部表情,情感,主题和品牌,而无需成为机器学习专家。 我们的最新公告包括针对动画字符识别和多语言语音转录的两种高度要求和差异化功能的预览,以及Video Indexer中现有模型的新增功能。

动画人物识别


动画内容或卡通是最受欢迎的内容类型之一,但是为人脸构建的标准AI视觉模型不能很好地与它们配合使用,尤其是在内容具有不具有人类特征的人物的情况下。 在这种新的预览解决方案中,Video Indexer与Microsoft的Azure Custom Vision服务结合在一起,提供了一组新模型,这些模型可以自动检测和分组动画角色,并允许客户随后通过集成的自定义视觉模型轻松地标记和识别它们。 这些模型被集成到单个管道中,使任何人都可以使用该服务而无需任何先前的机器学习技能。 可通过无代码Video Indexer门户或REST API获得结果,以便轻松集成到您自己的应用程序中。


我们与选定的客户合作构建了这些动画角色模型,这些客户为培训和测试贡献了真实的动画内容。 维亚康姆国际媒体网络工作室和后期制作技术高级总监安迪·古特里奇(Andy Gutteridge)很好地阐明了这一新功能的价值,他是数据的贡献者之一:“添加可靠的基于AI的动画检测将使我们能够从我们的内容库中快速有效地发现和分类字符元数据。 最重要的是,它将使我们的创意团队能够立即找到他们想要的内容,最大程度地减少在媒体管理上花费的时间,并使他们专注于创意。”

要开始使用动画字符识别,请访问我们的文档页面

多语言识别和转录


一些媒体资产(例如新闻,时事和采访)包含使用不同语言的演讲者的音频。 现有的大多数语音到文本功能都要求预先指定音频识别语言,这是转录多语言视频的障碍。 我们针对多种内容功能的新型自动口语识别功能利用机器学习技术来识别媒体资产中使用的不同语言。 一旦检测到,每个语言段都会以所识别的语言进行自动转录过程,并且所有语言段将重新整合在一起,成为一个包含多种语言的转录文件。



生成的转录既可以作为Video Indexer JSON输出的一部分,也可以作为隐藏字幕文件使用。 输出记录也与Azure搜索集成在一起,使您可以立即在视频中搜索不同的语言段。 此外,多语言转录是Video Indexer门户体验的一部分,因此您可以按时间查看转录本和已识别的语言,或跳至视频中每种语言的特定位置,并将多语言转录作为字幕播放视频时。 您还可以通过门户和API将输出来回转换为54种不同的语言。

在我们的文档中阅读有关新的多语言选项以及如何在Video Indexer 使用它的更多信息

其他更新和改进的模型


我们还在Video Indexer中添加了新的和改进的现有模型,包括:

提取人员和位置实体


我们已经扩展了当前的品牌检测功能,以合并知名的名称和位置,例如巴黎的艾菲尔铁塔或伦敦的大笨钟。 当这些字符通过光学字符识别(OCR)出现在生成的笔录或屏幕上时,就会创建特定的洞察力。 借助这项新功能,您可以按视频中出现的所有人,地点和品牌进行查看和搜索,以及它们的时间范围,说明以及指向我们Bing搜索引擎的链接以获取更多信息。



编辑镜头检测模型


这项新功能在洞察JSON中附加到单个镜头的元数据中添加了一组“标签”,以表示其编辑类型(例如宽镜头,中镜头,近摄,极端近摄,两次拍摄,多人,室外和室内等)。 在将视频编辑到剪辑和预告片中以及出于艺术目的搜索特定样式的镜头时,这些镜头类型的特性会派上用场。


浏览并阅读有关Video Indexer中编辑镜头类型检测的更多信息。

IPTC映射的扩展粒度


即使没有明确说明主题,我们的主题推断模型也会根据转录,光学字符识别(OCR)和检测到的名人来确定视频的主题。 我们将这些推断的主题映射到四个不同的分类法:维基百科,必应,IPTC和IAB。 通过此增强功能,我们现在包括了2级IPTC分类法。

这些增强功能的强大优势与重新索引当前的Video Indexer库一样容易。

新的实时流功能


我们还将在Azure媒体服务的预览中引入两个新的实时流功能。

实时转录可通过AI增强您的实时事件


使用Azure媒体服务流直播事件,现在您可以获取输出流,除了视频和音频内容外,该流还包括自动生成的文本轨道。 此文本轨道是使用基于AI的贡献供稿音频的实时转录创建的。 在语音到文本转换之前和之后应用自定义方法,以改善最终用户的体验。 文本轨道被打包到IMSC1,TTML或WebVTT中,具体取决于您是以DASH,HLS CMAF还是HLS TS交付。

实时线性编码,适用于24/7 OTT(OTT)通道


使用我们的v3 API,您可以创建,管理和流式传输OTT服务的直播频道,并利用Azure媒体服务的所有其他功能,例如直播到视频点播(VOD),打包和数字版权管理(DRM)。

若要尝试这些预览功能,请访问Azure媒体服务社区页面。



新包装功能


支持音频描述轨道


广播内容通常具有音频轨道,该音频轨道除了正常的节目音频外,还包含对屏幕操作的口头解释。 这使有视觉障碍的观众更容易访问节目,尤其是在内容具有高度视觉效果的情况下。 新的音频描述功能使客户可以将一个音频轨道注释为音频描述(AD)轨道,而播放器又可以使用它来使观众可以发现AD轨道。

ID3元数据插入


为了发信号通知广告或自定义元数据事件在客户端播放器上的插入,广播公司经常使用嵌入在视频中的定时元数据。 除了SCTE-35信令模式之外, 我们现在还支持ID3v2或其他由应用程序开发人员定义的供客户应用程序使用的自定义模式

Microsoft Azure合作伙伴展示了端到端解决方案


Bitmovin将在Microsoft Azure上首次推出其Bitmovin视频编码和Bitmovin视频播放器。 客户现在可以在Azure上使用这些编码和播放器解决方案,并利用高级功能,例如三遍编码,AV1 / VVC编解码器支持,多语言隐藏式字幕以及针对QoS,广告和视频跟踪的预集成视频分析。

Evergent正在Azure上展示其用户生命周期管理平台。 作为收入和客户生命周期管理解决方案的领先提供商,Evergent利用Azure AI通过在客户生命周期的关键点生成目标软件包和产品来使高级娱乐服务提供商提高客户获取和保留率。

Haivision将展示其智能媒体路由云服务SRT Hub,该服务可帮助客户从使用Azure Data Box Edge提取开始转换端到端工作流,以及使用Avid,Telestream,Wowza和Cinegy和Make.tv的Hublets转换媒体工作流。 。

SES已在Azure上为其卫星连接和托管媒体服务客户开发了一套广播级媒体服务。 SES将展示用于完全托管的播出服务的解决方案,包括主播,本地播出以及广告检测和替换以及Azure上的24x7高质量多通道实时编码。

SyncWords正在Azure上提供其字幕自动化技术和基于用户友好的基于云的工具。 这些产品将使媒体组织更容易在其Azure上的实时和脱机视频处理工作流中添加自动隐藏字幕和外语字幕功能。

全球设计和技术服务公司Tata Elxsi已将其OTT平台SaaS TEPlay与Azure Media Services集成在一起,以从云中交付OTT内容。 Tata Elxsi还将FalconEye(其体验质量(QoE)监视解决方案,专注于可操作的指标和分析)引入了Microsoft Azure。

Verizon Media正在Azure的Beta版中提供其流媒体平台。 Verizon Media Platform是企业级托管的OTT解决方案,包括DRM,广告插入,一对一的个性化会话,动态内容替换和视频交付。 集成带来简化的工作流,全球支持和扩展,以及对Azure上可用的一系列独特功能的访问。

Source: https://habr.com/ru/post/zh-CN469035/


All Articles