12 nouvelles intelligence artificielle Azure Media Services

La mission de Microsoft est de donner à chaque personne et organisation de la planète la possibilité d'en faire plus. L'industrie des médias est un excellent exemple de la concrétisation de cette mission. Nous vivons à une époque où de plus en plus de contenu est créé et consommé, de manière toujours plus grande et sur plus d'appareils. À l'IBC 2019, nous avons partagé les dernières innovations sur lesquelles nous travaillons actuellement et avons expliqué comment elles peuvent aider à transformer votre processus médiatique.

Détails sous la coupe!

Cette page est sur notre site.

Video Indexer introduit la prise en charge des animations et du contenu multilingue


L'année dernière, à l'IBC, nous avons rendu public notre indexeur vidéo Azure Media Services primé, et cette année, il s'est encore amélioré. L'indexeur vidéo extrait automatiquement les informations et les métadonnées des fichiers multimédias, tels que les mots prononcés, les visages, les émotions, les thèmes et les marques, et vous n'avez pas besoin d'être un expert en apprentissage automatique pour l'utiliser.

Nos dernières offres incluent des versions préliminaires de deux fonctionnalités très populaires et différenciées - la reconnaissance des personnages animés et la transcription de la parole multilingue, ainsi que plusieurs ajouts aux modèles existants disponibles aujourd'hui dans le Video Indexer.

Reconnaissance des personnages animés



Le contenu animé, les dessins animés sont l'un des types de contenu les plus populaires, mais les modèles de vision industrielle standard créés pour reconnaître les visages humains ne fonctionnent pas très bien avec lui, surtout s'il y a des personnages dans le contenu sans caractéristiques humaines. Dans la nouvelle version d'aperçu, Video Indexer est intégré au service Azure Custom Vision de Microsoft, créant un nouvel ensemble de modèles qui détectent et regroupent automatiquement les personnages animés et facilitent leur étiquetage et leur reconnaissance à l'aide de modèles de vision industrielle personnalisés intégrés.

Les modèles sont intégrés dans un seul convoyeur, ce qui permet à quiconque d'utiliser ce service sans aucune connaissance dans le domaine de l'apprentissage automatique. Les résultats sont disponibles via le portail Video Indexer, qui ne nécessite pas de code, ou via l'API REST pour une intégration rapide dans vos propres applications.

Nous avons créé ces modèles pour travailler avec des personnages animés avec certains consommateurs qui ont fourni un vrai contenu animé pour la formation et les tests. La valeur de la nouvelle fonctionnalité a été bien décrite par Andy Gutteridge, directeur principal de la technologie de studio et de la post-production Viacom International Media Networks, qui était l'un des fournisseurs de données: «L'ajout d'une fonction de détection de contenu animé basée sur l'IA nous permettra de trouver et de cataloguer rapidement et efficacement les métadonnées de caractères de notre bibliothèque contenu.

Plus important encore, cela donnera à nos équipes créatives la possibilité de trouver instantanément le bon contenu, de minimiser le temps consacré à la gestion des médias et de nous concentrer sur la créativité. »

Vous pouvez commencer à explorer la reconnaissance des personnages animés à partir de la page de documentation .

Identification et transcription de contenus en plusieurs langues


Certaines ressources médiatiques, telles que les actualités, les chroniques d'événements et les interviews, contiennent des enregistrements de personnes parlant différentes langues. La plupart des options existantes pour traduire la parole en texte nécessitent une indication préliminaire de la langue de reconnaissance sonore, ce qui rend difficile la transcription de vidéos multilingues.

Notre nouvelle fonctionnalité pour identifier automatiquement une langue parlée pour différents types de contenu utilise la technologie d'apprentissage automatique pour identifier les langues trouvées dans les ressources multimédias. Après la détection, chaque segment de langue subit automatiquement le processus de transcription dans la langue correspondante, puis tous les segments sont combinés en un seul fichier de transcription composé de plusieurs langues.



Le déchiffrement résultant est disponible dans le cadre de la sortie de JSON Video Indexer et sous la forme de fichiers avec sous-titres. Le déchiffrement de sortie est également intégré à Azure Search, qui vous permet de rechercher immédiatement différents segments de langue dans les vidéos. De plus, la transcription multilingue est disponible lorsque vous travaillez avec le portail Video Indexer, de sorte que vous pouvez afficher la transcription et la langue identifiée par le temps ou aller à des endroits spécifiques dans la vidéo pour chaque langue et voir la transcription multilingue sous forme de signatures lors de la lecture vidéo. Vous pouvez également traduire le texte résultant dans l'une des 54 langues disponibles via le portail et l'API.

En savoir plus sur la nouvelle fonctionnalité de reconnaissance de contenu multilingue et son utilisation dans l'indexeur vidéo dans la documentation .

Modèles supplémentaires mis à jour et améliorés


Nous ajoutons également de nouveaux modèles à l'indexeur vidéo et améliorons les modèles existants, y compris ceux décrits ci-dessous.

Récupération des entités associées aux personnes et aux lieux


Nous avons élargi nos capacités de découverte de marques existantes pour inclure des noms et des lieux bien connus, tels que la Tour Eiffel à Paris et Big Ben à Londres. Lorsqu'elles apparaissent dans le déchiffrement généré ou sur l'écran à l'aide de la reconnaissance optique de caractères (OCR), les informations correspondantes sont ajoutées. Avec cette nouvelle fonctionnalité, vous pouvez rechercher toutes les personnes, lieux et marques qui apparaissent dans la vidéo et afficher des informations à leur sujet, y compris des intervalles de temps, des descriptions et des liens vers le moteur de recherche Bing pour plus d'informations.



Modèle de détection de l'éditeur


Cette nouvelle fonctionnalité ajoute un ensemble de «balises» aux métadonnées attachées aux images individuelles dans les détails JSON pour représenter leur type éditorial (par exemple, image large, image moyenne, gros plan, très gros plan, deux plans, plusieurs personnes, à l'extérieur, à l'intérieur, etc.). Ces caractéristiques de type d'image sont utiles lors de l'édition de vidéo pour des clips et des bandes-annonces, ainsi que lors de la recherche d'un style d'image spécifique à des fins artistiques.


En savoir plus sur la détection de type d'image dans l'indexeur vidéo.

Détails de mappage IPTC avancés


Notre modèle de détection de thème identifie un sujet vidéo basé sur la transcription, la reconnaissance optique de caractères (OCR) et les célébrités découvertes, même si le thème n'est pas explicitement énoncé. Nous associons ces sujets découverts à quatre domaines de classification: Wikipedia, Bing, IPTC et IAB. Cette amélioration nous permet d'inclure une classification IPTC de deuxième niveau.
Profiter de ces améliorations est aussi simple que de réindexer votre bibliothèque Video Indexer actuelle.

Nouvelle fonctionnalité de diffusion en direct


Dans la version préliminaire d'Azure Media Services, nous proposons également deux nouvelles fonctionnalités pour la diffusion en direct.

La transcription en temps réel de l'IA fait passer les émissions en direct au niveau supérieur


En utilisant Azure Media Services pour la diffusion en direct, vous pouvez désormais obtenir un flux de sortie qui comprend une piste de texte générée automatiquement en plus du contenu audio et vidéo. Le texte est créé en transcrivant l'audio en temps réel basé sur l'intelligence artificielle. Des méthodes personnalisées sont appliquées avant et après la conversion de la parole en texte pour améliorer les résultats. La piste de texte est conditionnée en IMSC1, TTML ou WebVTT, selon qu'elle est disponible en DASH, HLS CMAF ou HLS TS.

Codage linéaire en temps réel pour les canaux OTT 24/7


À l'aide de notre API v3, vous pouvez créer des chaînes à l'aide de la technologie OTT (over-the-top), gérer et effectuer des diffusions en direct sur celles-ci, et utiliser toutes les autres fonctionnalités d'Azure Media Services, telles que la vidéo en direct à la demande (VOD, vidéo à la demande), packaging et gestion des droits numériques (DRM).
Pour un aperçu de ces fonctionnalités, visitez la page de la communauté Azure Media Services .



Nouvelles fonctionnalités de génération de packages


Prise en charge de la description de la piste sonore


Le contenu diffusé sur les chaînes de diffusion a souvent une piste audio avec des explications verbales de ce qui se passe à l'écran en plus du signal audio normal. Cela rend les programmes plus accessibles aux téléspectateurs malvoyants, surtout si le contenu est principalement visuel. La nouvelle fonction de description audio vous permet d'annoter l'une des pistes audio en tant que piste de description audio (AD, description audio), afin que les joueurs puissent rendre la piste AD accessible aux téléspectateurs.

Insérer des métadonnées ID3


Les sociétés de diffusion utilisent souvent des métadonnées temporelles intégrées dans la vidéo pour transmettre un signal sur l'insertion de publicités ou d'événements de métadonnées générés par l'utilisateur sur le lecteur du client. En plus des modes de signalisation SCTE-35, nous prenons désormais en charge ID3v2 et d'autres schémas utilisateur définis par le développeur de l'application pour une utilisation par l'application cliente.

Les partenaires Microsoft Azure présentent des solutions de bout en bout


Bitmovin présente le codage vidéo Bitmovin et le lecteur vidéo Bitmovin pour Microsoft Azure. Les clients peuvent désormais utiliser ces solutions d'encodage et de lecture sur Azure et profiter de fonctionnalités avancées telles que l'encodage en trois étapes, la prise en charge des codecs AV1 / VC, les sous-titres multilingues et l'analyse vidéo pré-intégrée pour la QoS, la publicité et le suivi vidéo.

Evergent présente sa plateforme de gestion du cycle de vie des utilisateurs sur Azure. En tant que fournisseur leader de solutions de gestion des revenus et du cycle de vie des clients, Evergent utilise Azure AI pour aider les fournisseurs de divertissement premium à améliorer l'engagement et la fidélisation des clients en créant des offres de services et des offres ciblées à des moments critiques de leur cycle de vie.

Haivision présentera son service de routage multimédia basé sur le cloud intelligent, SRT Hub, qui aide les clients à transformer les workflows du début à la fin à l'aide d' Azure Data Box Edge et à transformer les workflows à l'aide des Hublets d'Avid, Telestream, Wowza, Cinegy et Make.tv.

SES a développé la suite Azure Media Services Broadcast Class Media pour ses clients de services multimédias par satellite et gérés. SES présentera des solutions pour des services de lecture entièrement gérés, y compris la lecture principale, la lecture localisée, la détection et le remplacement des publicités et un encodage multicanal en temps réel 24 × 7 de haute qualité sur Azure.

SyncWords met à disposition sur Azure des outils cloud et une technologie pratiques pour créer des signatures. Ces offres permettront aux organisations médiatiques d'ajouter plus facilement des sous-titres, y compris dans une langue étrangère, aux flux de travail du traitement vidéo en temps réel et hors ligne sur Azure.
Tata Elxsi , une société internationale de services technologiques, a intégré sa plateforme OTT SaaS TEPlay à Azure Media Services pour fournir du contenu OTT à partir du cloud. Tata Elxsi a également migré la solution QoE de Falcon Eye, fournissant des analyses et des mesures de décision, vers Microsoft Azure.

Verizon Media rend sa plateforme de streaming disponible sur Azure en version bêta. Verizon Media Platform est une solution OTT de niveau entreprise qui comprend DRM, insertion d'annonces, sessions personnalisées personnalisées, remplacement de contenu dynamique et diffusion vidéo. L'intégration simplifie les flux de travail, la prise en charge globale et l'évolutivité, et vous donne accès à un certain nombre de fonctionnalités uniques dans Azure.

Source: https://habr.com/ru/post/fr469031/


All Articles