12 nuevas inteligencia artificial de Azure Media Services

La misión de Microsoft es dar a cada persona y organización en el planeta la oportunidad de lograr más. La industria de los medios es un gran ejemplo de traducir esta misión en realidad. Vivimos en una era en la que cada vez se crea y consume más contenido, todo de una manera excelente y en más dispositivos. En IBC 2019, compartimos las últimas innovaciones en las que estamos trabajando actualmente y hablamos sobre cómo pueden ayudar a transformar su proceso de medios.

Detalles debajo del corte!

Esta página está en nuestro sitio.

Video Indexer presenta soporte para animaciones y contenido multilingüe


El año pasado en IBC, hicimos público nuestro galardonado Indexador de videos de Azure Media Services , y este año mejoró aún más. Video Indexer extrae automáticamente información y metadatos de archivos multimedia, como palabras habladas, rostros, emociones, temas y marcas, y no necesita ser un experto en aprendizaje automático para usarlo.

Nuestras últimas ofertas incluyen versiones preliminares de dos funciones muy populares y diferenciadas: reconocimiento de personajes animados y transcripción de discursos multilingües, así como varias adiciones a los modelos existentes disponibles en la actualidad en el Video Indexer.

Reconocimiento de personajes animados.



Contenido animado, los dibujos animados son uno de los tipos de contenido más populares, pero los modelos estándar de visión artificial creados para reconocer rostros humanos no funcionan muy bien con él, especialmente si hay personajes en el contenido sin características humanas. En la nueva versión de vista previa, Video Indexer está integrado con el servicio Azure Custom Vision de Microsoft, creando un nuevo conjunto de modelos que detectan y agrupan automáticamente los personajes animados y hacen que sea fácil etiquetarlos y reconocerlos utilizando modelos integrados integrados de visión artificial.

Los modelos se integran en un solo transportador, lo que permite a cualquiera usar este servicio sin ningún conocimiento en el campo del aprendizaje automático. Los resultados están disponibles a través del portal Video Indexer, que no requiere código, o mediante la API REST para una rápida integración en sus propias aplicaciones.

Creamos estos modelos para trabajar con personajes animados junto con algunos consumidores que proporcionaron contenido animado real para capacitación y pruebas. Andy Gutteridge, director sénior de tecnología de estudio y posproducción Viacom International Media Networks, quien fue uno de los proveedores de datos, describió bien el valor de la nueva funcionalidad: “Agregar una función robusta de detección de contenido animado basado en inteligencia artificial nos permitirá encontrar y catalogar metadatos de personajes de nuestra biblioteca de manera rápida y eficiente. contenido

Lo que es más importante, brindará a nuestros equipos creativos la oportunidad de encontrar instantáneamente el contenido correcto, minimizar el tiempo dedicado a administrar los medios y permitirnos centrarnos en la creatividad ".

Puede comenzar a explorar el reconocimiento de personajes animados desde la página de documentación .

Identificación y transcripción de contenidos en varios idiomas.


Algunos recursos de los medios, como noticias, crónicas de eventos y entrevistas, contienen grabaciones de personas que hablan diferentes idiomas. La mayoría de las opciones existentes para traducir el discurso en texto requieren una indicación preliminar del lenguaje de reconocimiento de sonido, lo que dificulta la transcripción de videos multilingües.

Nuestra nueva función para identificar automáticamente un idioma hablado para varios tipos de contenido utiliza la tecnología de aprendizaje automático para identificar los idiomas que se encuentran en los recursos multimedia. Después de la detección, cada segmento de idioma se somete automáticamente al proceso de transcripción en el idioma correspondiente, y luego todos los segmentos se combinan en un solo archivo de transcripción que consta de varios idiomas.



El descifrado resultante está disponible como parte de la salida de JSON Video Indexer y en forma de archivos con subtítulos. El descifrado de salida también está integrado con Azure Search, que le permite buscar inmediatamente segmentos de idioma diferentes en videos. Además, la transcripción multilingüe está disponible cuando se trabaja con el portal Video Indexer, por lo que puede ver la transcripción y el idioma identificado por tiempo o ir a lugares específicos del video para cada idioma y ver la transcripción multilingüe en forma de firmas durante la reproducción del video. También puede traducir el texto resultante a cualquiera de los 54 idiomas disponibles a través del portal y la API.

Lea más sobre la nueva función de reconocimiento de contenido en varios idiomas y su uso en Video Indexer en la documentación .

Modelos adicionales actualizados y mejorados


También estamos agregando nuevos modelos al Video Indexer y mejorando los existentes, incluidos los que se describen a continuación.

Recuperando entidades asociadas con personas y lugares


Hemos ampliado nuestras capacidades de descubrimiento de marca existentes para incluir nombres y ubicaciones conocidas, como la Torre Eiffel en París y el Big Ben en Londres. Cuando aparecen en el descifrado generado o en la pantalla usando el reconocimiento óptico de caracteres (OCR), se agrega la información correspondiente. Con esta nueva función, puede buscar en todas las personas, lugares y marcas que aparecen en el video y ver información sobre ellos, incluidos los intervalos de tiempo, las descripciones y los enlaces al motor de búsqueda de Bing para obtener más información.



Modelo de detección del editor


Esta nueva característica agrega un conjunto de "etiquetas" a los metadatos adjuntos a cuadros individuales en los detalles de JSON para representar su tipo editorial (por ejemplo, cuadro ancho, cuadro medio, primer plano, primer plano, dos tomas, varias personas, al aire libre, en interiores, etc.). Estas características de tipo de cuadro son útiles cuando se editan videos para clips y trailers, así como cuando se busca un estilo de cuadro específico con fines artísticos.


Obtenga más información sobre la detección del tipo de cuadro en el indexador de video.

Detallado avanzado de mapeo IPTC


Nuestro modelo de detección de temas identifica un tema de video basado en la transcripción, el reconocimiento óptico de caracteres (OCR) y las celebridades descubiertas, incluso si el tema no se menciona explícitamente. Hacemos coincidir estos temas descubiertos con cuatro áreas de clasificación: Wikipedia, Bing, IPTC e IAB. Esta mejora nos permite incluir una clasificación IPTC de segundo nivel.
Aprovechar estas mejoras es tan fácil como reindexar su biblioteca actual de Video Indexer.

Nueva funcionalidad de transmisión en vivo


En la versión de vista previa de Azure Media Services, también ofrecemos dos nuevas características para la transmisión en vivo.

La transcripción en tiempo real de AI lleva las transmisiones en vivo al siguiente nivel


Con Azure Media Services para la transmisión en vivo, ahora puede obtener una transmisión de salida que incluye una pista de texto generada automáticamente además del contenido de audio y video. El texto se crea transcribiendo audio en tiempo real basado en inteligencia artificial. Los métodos personalizados se aplican antes y después de convertir la voz en texto para mejorar los resultados. La pista de texto está empaquetada en IMSC1, TTML o WebVTT, dependiendo de si viene en DASH, HLS CMAF o HLS TS.

Codificación lineal en tiempo real para canales OTT 24/7


Con nuestra API v3, puede crear canales con tecnología OTT (over-the-top), administrar y administrar transmisiones en vivo en ellos, y usar todas las demás características de Azure Media Services, como video en vivo a pedido (VOD, video a pedido), empaque y gestión de derechos digitales (DRM).
Para obtener una vista previa de estas características, visite la página de la comunidad de Azure Media Services .



Nuevas características de generación de paquetes


Soporte de descripción de pista de sonido


El contenido transmitido en los canales de transmisión a menudo tiene una pista de audio con explicaciones verbales de lo que está sucediendo en la pantalla además de la señal de audio normal. Esto hace que los programas sean más accesibles para los espectadores con discapacidad visual, especialmente si el contenido es principalmente visual. La nueva función de descripción de audio le permite anotar una de las pistas de audio como una pista de descripción de audio (AD, descripción de audio), para que los jugadores puedan hacer que la pista de AD sea accesible para los espectadores.

Insertar metadatos ID3


Las compañías de radiodifusión a menudo usan metadatos basados ​​en tiempo incrustados en el video para transmitir una señal sobre la inserción de anuncios o eventos de metadatos generados por el usuario en el reproductor del cliente. Además de los modos de señalización SCTE-35, ahora también admitimos ID3v2 y otros esquemas de usuario definidos por el desarrollador de la aplicación para uso de la aplicación cliente.

Los socios de Microsoft Azure muestran soluciones integrales


Bitmovin presenta Bitmovin Video Encoding y Bitmovin Video Player para Microsoft Azure. Los clientes ahora pueden usar estas soluciones de codificación y reproducción en Azure y usar funciones avanzadas como codificación en tres etapas, soporte para códecs AV1 / VC, subtítulos multilingües y análisis de video preintegrados para QoS, publicidad y seguimiento de video.

Evergent presenta su plataforma de gestión del ciclo de vida del usuario en Azure. Como proveedor líder de ingresos y soluciones de gestión del ciclo de vida del cliente, Evergent aprovecha la IA de Azure para ayudar a los proveedores de entretenimiento premium a mejorar el compromiso y la retención del cliente mediante la creación de paquetes y ofertas de servicios específicos en momentos críticos de su ciclo de vida.

Haivision exhibirá su servicio inteligente de enrutamiento multimedia basado en la nube, SRT Hub, que ayuda a los clientes a transformar los flujos de trabajo de principio a fin utilizando Azure Data Box Edge y transformar los flujos de trabajo utilizando Hublets de Avid, Telestream, Wowza, Cinegy y Make.tv.

SES ha desarrollado el conjunto de servicios de medios Broadcast Class basado en Azure para sus clientes de servicios de medios basados ​​en satélite y administrados. SES presentará soluciones para servicios de reproducción totalmente administrados, que incluyen reproducción maestra, reproducción localizada, detección y reemplazo de anuncios, y codificación multicanal en tiempo real 24x7 de alta calidad en Azure.

SyncWords pone a disposición en Azure prácticas herramientas y tecnología en la nube para crear firmas. Estas ofertas facilitarán que las organizaciones de medios agreguen automáticamente subtítulos, incluso en un idioma extranjero, a los flujos de trabajo de procesamiento de video en tiempo real y sin conexión en Azure.
Tata Elxsi , una compañía internacional de servicios tecnológicos, ha integrado su plataforma OTT SaaS TEPlay con Azure Media Services para entregar contenido OTT desde la nube. Tata Elxsi también migró la solución QoE de Falcon Eye, proporcionando análisis y métricas de decisión, a Microsoft Azure.

Verizon Media hace que su plataforma de transmisión esté disponible en Azure como una versión beta. Verizon Media Platform es una solución OTT de nivel empresarial que incluye DRM, inserción de anuncios, sesiones personalizadas personalizadas, reemplazo dinámico de contenido y entrega de video. La integración simplifica los flujos de trabajo, el soporte global y la escalabilidad, y le brinda acceso a una serie de características únicas disponibles en Azure.

Source: https://habr.com/ru/post/469031/


All Articles