Les nouvelles innovations d'Azure Media Services basées sur l'IA

Chez Microsoft, notre mission est de permettre à chaque personne et organisation de la planète d'en faire plus. L'industrie des médias illustre cette mission. Nous vivons à une époque où plus de contenu est créé et consommé de plus de façons et sur plus d'appareils que jamais. À l'IBC 2019, nous avons été ravis de partager les dernières innovations sur lesquelles nous travaillons et comment elles peuvent aider à transformer vos flux de travail multimédia. Lisez la suite pour en savoir plus.


Cet article dans notre blog .

Video Indexer prend en charge l'animation et le contenu multilingue


L'an dernier, nous avons rendu notre indexeur vidéo Azure Media Services primé disponible à l'IBC, et cette année, il s'améliore encore. Video Indexer extrait automatiquement des informations et des métadonnées telles que des mots prononcés, des visages, des émotions, des sujets et des marques à partir de fichiers multimédias, sans que vous ayez besoin d'être un expert en apprentissage automatique. Nos dernières annonces incluent des aperçus pour deux capacités hautement demandées et différenciées pour la reconnaissance de caractères animés et la transcription multilingue de la parole, ainsi que plusieurs ajouts aux modèles existants disponibles aujourd'hui dans Video Indexer.

Reconnaissance de caractères animée


Le contenu animé ou les dessins animés sont l'un des types de contenu les plus populaires, mais les modèles de vision AI standard conçus pour les visages humains ne fonctionnent pas bien avec eux, surtout si le contenu a des personnages sans caractéristiques humaines. Dans cette nouvelle solution d'aperçu, Video Indexer s'associe au service Azure Custom Vision de Microsoft pour fournir un nouvel ensemble de modèles qui détectent et regroupent automatiquement les personnages animés et permettent aux clients de les étiqueter et de les reconnaître facilement via des modèles de vision personnalisés intégrés. Ces modèles sont intégrés dans un seul pipeline, ce qui permet à quiconque d'utiliser le service sans aucune compétence d'apprentissage automatique préalable. Les résultats sont disponibles via le portail Video Indexer sans code ou l'API REST pour une intégration facile dans vos propres applications.


Nous avons construit ces modèles de personnages animés en collaboration avec des clients sélectionnés qui ont contribué à un vrai contenu animé pour la formation et les tests. La valeur de la nouvelle fonctionnalité est bien expliquée par Andy Gutteridge, directeur principal, Studio et technologie de post-production chez Viacom International Media Networks, qui était l'un des contributeurs de données: "L'ajout d'une détection animée basée sur l'IA fiable nous permettra de découvrez et cataloguez rapidement et efficacement les métadonnées de caractères de notre bibliothèque de contenu. Plus important encore, cela donnera à nos équipes créatives le pouvoir de trouver le contenu qu'elles souhaitent instantanément, minimisera le temps consacré à la gestion des médias et leur permettra de se concentrer sur la création. »

Pour commencer avec la reconnaissance de caractères animés, veuillez visiter notre page de documentation .

Identification et transcription multilingues


Certains éléments médiatiques tels que les actualités, l'actualité et les interviews contiennent du son avec des haut-parleurs dans différentes langues. La plupart des capacités de synthèse vocale existantes nécessitent que la langue de reconnaissance audio soit spécifiée à l'avance, ce qui constitue un obstacle à la transcription de vidéos multilingues. Notre nouvelle fonction d'identification automatique de la langue parlée pour plusieurs contenus utilise la technologie d'apprentissage automatique pour identifier les différentes langues utilisées dans un élément multimédia. Une fois détecté, chaque segment de langue subit un processus de transcription automatique dans la langue identifiée, et tous les segments sont intégrés de nouveau ensemble dans un fichier de transcription composé de plusieurs langues.



La transcription résultante est disponible à la fois dans le cadre de la sortie JSON de Video Indexer et sous forme de fichiers de sous-titres. La transcription de sortie est également intégrée à Azure Search, vous permettant de rechercher immédiatement dans les vidéos les différents segments linguistiques. En outre, la transcription multilingue est disponible dans le cadre de l'expérience du portail Video Indexer afin que vous puissiez afficher la transcription et la langue identifiée par le temps, ou sauter aux endroits spécifiques de la vidéo pour chaque langue et voir la transcription multilingue comme légendes pendant la lecture d'une vidéo. Vous pouvez également traduire la sortie dans les deux sens en 54 langues différentes via le portail et l'API.

En savoir plus sur la nouvelle option multilingue et comment l'utiliser dans Video Indexer dans notre documentation .

Modèles supplémentaires mis à jour et améliorés


Nous ajoutons également de nouveaux modèles et améliorons les modèles existants dans Video Indexer, notamment:

Extraction d'entités de personnes et de lieux


Nous avons étendu nos capacités actuelles de détection de marques pour intégrer également des noms et des lieux bien connus, tels que la Tour Eiffel à Paris ou Big Ben à Londres. Lorsque ceux-ci apparaissent dans la transcription générée ou à l'écran via la reconnaissance optique de caractères (OCR), un aperçu spécifique est créé. Grâce à cette nouvelle fonctionnalité, vous pouvez consulter et rechercher par toutes les personnes, les lieux et les marques qui sont apparus dans la vidéo, ainsi que leurs délais, leur description et un lien vers notre moteur de recherche Bing pour plus d'informations.



Modèle de détection de tir éditorial


Cette nouvelle fonctionnalité ajoute un ensemble de «balises» dans les métadonnées attachées à un plan individuel dans le JSON Insights pour représenter son type éditorial (comme plan large, plan moyen, gros plan, gros plan extrême, deux plans, plusieurs personnes, extérieur intérieur, etc.). Ces caractéristiques de type de prise de vue sont utiles lors de l'édition de vidéos dans des clips et des bandes-annonces ainsi que lors de la recherche d'un style spécifique de prises de vue à des fins artistiques.


Explorez et lisez plus sur la détection du type de prise de vue éditoriale dans Video Indexer.

Granularité étendue de la cartographie IPTC


Notre modèle d'inférence de sujet détermine le sujet des vidéos en fonction de la transcription, de la reconnaissance optique de caractères (OCR) et des célébrités détectées même si le sujet n'est pas explicitement indiqué. Nous mappons ces sujets inférés à quatre taxonomies différentes: Wikipedia, Bing, IPTC et IAB. Avec cette amélioration, nous incluons maintenant la taxonomie IPTC de niveau 2.

Bénéficier de ces améliorations est aussi simple que de réindexer votre bibliothèque Video Indexer actuelle.

Nouvelle fonctionnalité de streaming en direct


Nous introduisons également deux nouvelles fonctionnalités de diffusion en direct en aperçu dans Azure Media Services.

La transcription en direct suralimente vos événements en direct avec l'IA


À l'aide d'Azure Media Services pour diffuser un événement en direct, vous pouvez désormais obtenir un flux de sortie qui comprend une piste de texte générée automatiquement en plus du contenu vidéo et audio. Cette piste de texte est créée à l'aide d'une transcription en direct basée sur l'IA de l'audio du flux de contribution. Des méthodes personnalisées sont appliquées avant et après la conversion de la parole en texte afin d'améliorer l'expérience de l'utilisateur final. La piste de texte est compressée dans IMSC1, TTML ou WebVTT, selon que vous livrez en DASH, HLS CMAF ou HLS TS.

Encodage linéaire en direct pour les canaux over-the-top (OTT) 24/7


À l'aide de nos API v3, vous pouvez créer, gérer et diffuser des canaux en direct pour les services OTT et profiter de toutes les autres fonctionnalités d'Azure Media Services comme la vidéo en direct à la demande (VOD), le packaging et la gestion des droits numériques (DRM).

Pour essayer ces fonctionnalités d'aperçu, veuillez visiter la page Communauté Azure Media Services .



Nouvelles fonctionnalités d'emballage


Prise en charge des pistes de description audio


Le contenu diffusé a souvent une piste audio qui contient des explications verbales de l'action à l'écran en plus du programme audio normal. Cela rend la programmation plus accessible pour les téléspectateurs malvoyants, surtout si le contenu est très visuel. La nouvelle fonctionnalité de description audio permet à un client d'annoter l'une des pistes audio comme étant la piste de description audio (AD), qui à son tour peut être utilisée par les joueurs pour rendre la piste AD détectable par les téléspectateurs.

Insertion de métadonnées ID3


Afin de signaler l'insertion de publicités ou d'événements de métadonnées personnalisés sur un lecteur client, les diffuseurs utilisent souvent des métadonnées chronométrées intégrées dans la vidéo. En plus des modes de signalisation SCTE-35, nous prenons désormais en charge ID3v2 ou d'autres schémas personnalisés définis par un développeur d'application pour une utilisation par l'application cliente.

Les partenaires Microsoft Azure présentent des solutions de bout en bout


Bitmovin lance son encodage vidéo Bitmovin et son lecteur vidéo Bitmovin sur Microsoft Azure. Les clients peuvent désormais utiliser ces solutions d'encodage et de lecture sur Azure et tirer parti de fonctionnalités avancées telles que l'encodage en 3 passes, la prise en charge des codecs AV1 / VVC, les sous-titres codés multilingues et l'analyse vidéo pré-intégrée pour la QoS, la publicité et le suivi vidéo.

Evergent présente sa plateforme de gestion du cycle de vie des utilisateurs sur Azure. En tant que fournisseur leader de solutions de gestion des revenus et du cycle de vie des clients, Evergent exploite Azure AI pour permettre aux fournisseurs de services de divertissement premium d'améliorer l'acquisition et la fidélisation des clients en générant des packages et des offres ciblés à des moments critiques du cycle de vie du client.

Haivision présentera son service cloud de routage multimédia intelligent, SRT Hub, qui aide les clients à transformer les workflows de bout en bout en commençant par l'ingestion à l'aide d' Azure Data Box Edge et la transformation du workflow multimédia à l'aide des Hublets d'Avid, Telestream, Wowza et Cinegy et Make.tv .

SES a développé une suite de services multimédias de diffusion sur Azure pour ses clients de connectivité par satellite et de services multimédias gérés. SES présentera des solutions pour des services de diffusion entièrement gérés, y compris la diffusion principale, la diffusion et la détection et le remplacement d'annonces localisées et un encodage en direct multicanal de haute qualité 24x7 sur Azure.

SyncWords rend sa technologie d'automatisation des sous- titres et ses outils conviviaux basés sur le cloud disponibles sur Azure. Ces offres permettront aux organisations médiatiques d'ajouter plus facilement des capacités automatisées de sous-titrage et de sous-titrage en langues étrangères à leurs flux de travail de traitement vidéo en temps réel et hors ligne sur Azure.

La société mondiale de services de conception et de technologie Tata Elxsi a intégré TEPlay, sa plateforme OTT SaaS, à Azure Media Services pour fournir du contenu OTT à partir du cloud. Tata Elxsi a également introduit FalconEye, sa solution de surveillance de la qualité d'expérience (QoE) qui se concentre sur des mesures et des analyses exploitables, dans Microsoft Azure.

Verizon Media rend sa plateforme de streaming disponible en version bêta sur Azure. Verizon Media Platform est une solution OTT gérée de niveau entreprise comprenant DRM, insertion d'annonces, sessions personnalisées individuelles, remplacement de contenu dynamique et diffusion vidéo. L'intégration apporte des flux de travail simplifiés, une prise en charge et une échelle mondiales et un accès à une gamme de fonctionnalités uniques disponibles sur Azure.

Source: https://habr.com/ru/post/fr469035/


All Articles