🧑🏿‍🤝‍🧑🏻 💃🏻 🍨 "Photoshop" pour la parole humaine 🤾🏻 🧒🏿 👩🏻‍🏭

Le 3 novembre 2016, lors de la conférence sur la technologie Adobe MAX, Adobe a présenté un développement scientifique et technique très intéressant, qui pourrait à l'avenir devenir une application logicielle populaire. En bref, l'invention est un programme d'édition sémantique de la parole humaine. Dans ce cas, non seulement la méthode standard de synthèse à partir des phonèmes collectés (synthèse de compilation) est utilisée, mais également des méthodes auxiliaires qui augmentent le réalisme. Il s'agit d'un choix intelligent de trifons et de l'utilisation des caractéristiques spécifiques de l'échantillon de voix.

En conséquence, l'utilisateur écrit du texte arbitraire - et le programme l'exprime avec la voix sur laquelle il a été formé. Vous pouvez rapidement ajouter des mots au discours ou supprimer ceux qui ne sont pas nécessaires.

En pratique, le programme présenté dans le cadre du projet VoCo fonctionne comme suit. Premièrement, la base du phonème est assemblée pour la voix d'une personne particulière dans une langue particulière. Pour des résultats réalistes, le programme a besoin d'un minimum de 20 minutes de parole humaine. Plus c'est mieux. Sur la base des phonèmes collectés (trifons), le programme peut ensuite collecter presque tous les nouveaux mots comme s'il s'agissait de briques.

Fragment de la présentation VoCo à la conférence MAX

Dans un sens, VoCo fonctionne comme le travail d'un pinceau contextuel dans Photoshop. Elle prend également des fragments de différents endroits de l'image - et recueille une nouvelle image à partir de ces fragments. Un morceau de bois d'une photographie d'une forêt, un morceau d'herbe d'une autre image et une fille de la troisième photographie - et nous obtenons un travail photoréaliste complètement nouveau avec une forêt, de l'herbe et une fille au premier plan. Si le travail est effectué de manière professionnelle, l'installation est très difficile à déterminer. Donc, à l'époque soviétique , les gens qui sont soudainement devenus ennemis du peuple ont été effacés de l'histoire . Il y avait une personne sur la photo - et maintenant il y a un vide ou une autre personne.

La technologie VoCo vous permet donc de compléter la parole humaine avec des mots et des phrases arbitraires.

Lors de la conférence MAX, l'un des développeurs, Zeyu Jin, a fait une présentation. Dans un article scientifique publié précédemment , il est répertorié comme employé de l'Université de Princeton, avec son collègue Adam Finkelstein. La technologie a été développée par Adobe Research en collaboration avec l'Université de Princeton.

Telle que conçue par Adobe, la technologie aidera les créateurs de contenu à éditer plus facilement la piste audio: dialogues et texte de voix off pour corriger rapidement une erreur ou apporter des modifications au scénario.

Adobe souligne que dans ce cas, il est plus approprié de parler de «conversion vocale» que de la synthèse vocale classique. Le but de la conversion vocale est de transformer la voix originale de telle sorte que pour l'auditeur elle apparaisse être la voix d'une autre personne suivant le modèle de la voix de cette dernière.

Les fondements techniques de la conversion vocale sont décrits plus en détail dans l' article scientifique ci-dessus .préparé conjointement avec l'Université de Princeton. Ses auteurs montrent que la technique CUTE développée est qualitativement supérieure aux autres méthodes de conversion vocale. Les méthodes de conversion alternatives sont généralement basées sur l'analyse parallèle de phrases identiques de la source et de la cible, suivie du calcul de certains vecteurs de transformation dans n'importe quel espace d'adressage. Après cela, tout fragment arbitraire de la voix d'origine peut être transformé en utilisant les vecteurs obtenus. Mais ces méthodes souffrent d'effets secondaires désagréables - le discours synthétisé de cette manière est sourd, brouillé.

Les chercheurs d'Adobe ont pu surmonter les lacunes d'autres techniques en utilisant la méthode hybride CUTE. Le titre chiffre les quatre composantes principales de cette technique: synthèse de compilation (synthèse concaténative); sélection d'unité; sélection préliminaire des trifons, c'est-à-dire des unités de trois phonèmes (présélection Triphone); Utilisation d'exemples de propriétés (fonctionnalités basées sur des exemples).

La synthèse de compilation se réduit à composer un message à partir d'un dictionnaire préenregistré de phonèmes. C'est la principale méthode de travail avec les synthétiseurs vocaux, qui sont équipés de divers appareils: des avions militaires aux appareils domestiques, dans les services d'aide des opérateurs mobiles, etc.

Comme son nom l'indique, la technique hybride développée combine plusieurs méthodes de synthèse vocale et de conversion vocale.

Les travaux scientifiques présentent les résultats de tests comparatifs avec d'autres méthodes de conversion vocale, dans lesquelles CUTE est nettement supérieur à ses concurrents. En même temps, certaines de ses lacunes sont mentionnées: lui, comme tout le monde, souffre d'un nombre insuffisant de phonèmes dans la base de données lors de la synthèse de nouveaux mots, ce qui génère des résultats phonétiquement corrects, mais peu réalistes. De plus, cela dépend du fonctionnement du moteur de reconnaissance vocale pour une segmentation phonétique correcte.

On ignore encore si Adobe va mettre en œuvre ce développement prometteur sous la forme d'un véritable produit commercial. Mais maintenant, nous pouvons dire qu'un tel programme deviendrait très populaire, à condition que la synthèse de la voix à partir des phonèmes soit réaliste. Par exemple, les podcasteurs pourraient l'utiliser pour générer des podcasts à partir de texte. Il peut également être utilisé pour exprimer des livres audio en utilisant la voix d'une personne arbitraire (par exemple, votre propre fille). Une telle technologie est susceptible de trouver une application à Hollywood pour le doublage en l'absence d'un acteur. Par exemple, si un contrat a été rompu avec lui ou s'il est décédé au milieu du tournage.

"Photoshop" pour la parole humaine

More articles: