WaveNet: discours de type humain synthétisé par ordinateur
DeepMind est une division autonome de Google engagée dans le développement de l'intelligence artificielle. Cette société a développé AlphaGo , un système qui a vaincu Go Lee Sedol, le champion du monde.Mais DeepMind ne concerne pas seulement les jeux. Maintenant, les employés de la société développent un système de synthèse vocale informatisé. Comme dans tous les autres projets DeepMind, une forme faible d'intelligence artificielle est impliquée ici. Selon les experts, elle peut considérablement améliorer la situation avec un discours synthétisé.Utiliser des ordinateurs pour synthétiser la parole n'est pas du tout une idée nouvelle. La solution la plus simple consiste à utiliser des fragments du discours d’une personne réelle traduits en nombre. Nous parlons de sons individuels qui composent des phrases sonores, des mots et des phrases plus complexes. Mais cette méthode ne peut pas être qualifiée d'idéal. Ici, toute personne remarque immédiatement des problèmes de prononciation et d'intonation.Dans d'autres cas, divers modèles mathématiques sont utilisés pour synthétiser des sons à partir desquels des mots et des phrases peuvent être assemblés. Les problèmes sont à peu près les mêmes que dans le cas précédent. Et c'est immédiatement clair ce que dit la machine, pas la personne.
Les deux méthodes sont similaires en ce sens que les plus grandes et les plus complexes sont assemblées à partir de petits fragments. À la suite d'une telle compilation, l'ordinateur prononce des mots et des phrases complexes.La troisième méthode, WaveNet, proposée par DeepMind, combine les mérites des deux précédentes. La méthode utilise la formation de réseaux de neurones à l'aide de fragments de voix humaines réelles. Le système reçoit également des informations sur les règles de linguistique et de phonétique correspondant à chaque cas individuel. Au cours du processus, le système affiche une ligne de texte et vous permet «d'écouter» l'ensemble de sons approprié. Après cela, le système essaie de synthétiser la parole humaine en utilisant un certain nombre de fragments. Cela se fait étape par étape, avec une formation sur l'exemple de chaque fragment spécifique. Le développement est réalisé de telle manière que chaque "matériel passé" précédent a donné au réseau neuronal une idée d'une nouvelle tâche.L'analogue de ce que WaveNet peut faire et d'un système de synthèse vocale conventionnel est de créer une tasse. Un système de synthèse vocale conventionnel sur ordinateur utilise des briques Lego pour créer une tasse. En conséquence, la tasse semble bonne, mais ce n'est pas tout à fait une tasse, mais son imitation. Mais WaveNet utilise de l'argile pour créer une tasse. Le travail se fait manuellement, sans tour de potier, mais la coupe ressemble à une tasse. Donc, avec la parole. WaveNet synthétise la parole humaine, qui est légèrement différente de ce à quoi nous sommes habitués, mais pas de manière très significative.Le résultat est impressionnant. Vous pouvez écouter ce qui s'est passé ici . Cela semble déjà vraiment humain. Bien sûr, il existe des différences, mais elles ne sont plus aussi importantes que dans d'autres cas.
Le seul problème est que cette méthode nécessite beaucoup de temps et de ressources informatiques. Un système capable de générer une parole humaine intelligible doit être très puissant. Le fait est que WaveNet, pour synthétiser la parole humaine, traite 16 000 échantillons audio par seconde. Et même dans ce cas, le résultat est de qualité moyenne. Cependant, dans les tests pour la définition de "l'homme ou la machine", le résultat était d'environ 50%. Autrement dit, la moitié des volontaires qui ont écouté l'échantillon audio créé par la machine pensaient que cela avait été dit par une personne.Les chercheurs de DeepMind ont déjà téléchargé plus de 44 heures de discours dans le système. Les mots, les sons et les phrases chargés dans le système appartiennent à 109 participants à l'expérience qui parlent anglais. Il s'est avéré que WaveNet peut simuler le discours de presque chacun des participants à l'expérience. Le système reproduit même les défauts d'aspiration et d'élocution du «locuteur» d'origine.Malgré le fait que le système parle déjà assez bien, il est encore loin de la vraie perfection. Un autre problème est que la forme faible de l'IA n'est pas encore capable de comprendre la langue. IBM a obtenu un succès maximal dans ce domaine avec son système cognitif IBM Watson. Mais ici, jusqu'à présent, nous parlons de reconnaître des commandes verbales et écrites pas trop compliquées, ainsi que des réponses à des questions simples. Les systèmes cognitifs ne sont pas encore capables de maintenir une conversation. Néanmoins, les technologies se développent et les experts affirment que dans 5 à 10 ans, la situation peut changer radicalement.Un certain nombre de scientifiques soutiennent que maintenant la forme faible de l'IA n'a toujours pas les composants spécifiques de l'esprit. Et cela ne dépend pas de la taille du réseau lui-même. "Le langage est construit sur d'autres possibilités, probablement plus profondes et présentes chez les bébés avant même qu'ils ne commencent à maîtriser le langage: perception visuelle du monde, travail avec notre appareil moteur, compréhension de la physique du monde et des intentions des autres créatures", explique Tenenbaum.
DeepMind et une équipe de chercheurs de l'Université d'Oxford travaillent actuellement sur un autre projet. Il s'agit de la création d'un "bouton rouge" conditionnel pour une forme forte d'IA, qui, vraisemblablement, peut échapper au contrôle d'une personne après qu'une personne a créé un esprit artificiel.Source: https://habr.com/ru/post/fr397327/
All Articles