Intelligence artificielle Google lance Tacotron 2, un système de synthèse vocale au son très...

Pour approfondir le sujet

Sur le même thème :

Lanfrica, le TAL appliqué aux langues africaines – Entretien avec Bonaventure Dossou et Chris Emezue

Faire tomber la barrière des langues grâce aux données et à l'IA et renforcer l'accès à l'information dans les langues aux ressources limitées, deux...

Transcription : comment Bertin IT accompagne Crédit Agricole CIB pour renforcer la conformité de ses salles de marché

Des solutions de traitement automatique du langage sont actuellement utilisées dans de nombreux secteurs dont le trading. C'est notamment le cas de MediaSpeech® de...

Intelligence artificielle et technologies des langues : l’ordinateur passe la barrière de la langue

Ce 12 janvier 2021, le GdR TAL organise une journée consacrée aux récentes avancées des technologies des langues pour des applications au cœur de...

Données vocales : Le Voice Lab et Datafunding lancent une campagne de data funding

Les technologies vocales ont connu un grand boom ces dernières années avec des solutions innovantes, des projets de recherche avec de nombreuses applications mais...

Google lance Tacotron 2, un système de synthèse vocale au son très naturel basé sur une IA

Vocaliser un texte écrit a été un objectif de recherche durant des décennies, notamment chez Google. Deux des chercheurs de Google Research (Google Brain et Machine Perception), Jonathan Shen et Ruoming Pang, ont annoncé la création de Tacotron 2, un système de synthèse vocale au son très naturel.

Il y a eu de grands progrès dans la recherche sur la synthèse vocale au cours des dernières années et de nombreux améliorations ont été apportées pour pouvoir créer un système performant. C’est en se basant sur des travaux de recherche antérieurs, dont Tacotron et WaveNet, que l’équipe de recherche a développé Tacotron 2. Dans son approche, elle n’a pas utilisé de caractéristiques linguistiques et acoustiques complexes en tant qu’input. Au lieu de cela, elle a travaillé pour que le système parvienne à générer un discours similaire à celui d’un humain à partir de texte en utilisant des réseaux de neurones entrainés uniquement avec des exemples de discours et les transcriptions écrites correspondantes.

Les chercheurs ont publié un autre article expliquant de façon plus détaillée leurs travaux “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions” sur arXiv.org. Dans le communiqué, ils schématisent le fonctionnement de leur système et indiquent s’être basés sur un modèle séquence-à-séquence optimisé pour la synthèse vocale afin d’effectuer la correspondance entre les lettres d’une séquence et une séquence de caractéristiques qui encodent le son.

Ces caractéristiques sont représentées sous forme de spectrogramme avec un échantillonnage toutes les 12,5 millisecondes, afin de capter non seulement la prononciation des mots mais également les subtilités du langage humain telles que le volume sonore, la vitesse et l’intonation. Enfin, ces caractéristiques sont converties en une forme d’onde de 24 kHz utilisant une architecture de type WaveNet.

Google Research

Les chercheurs ont mis à disposition du public, sur GitHub, des échantillons audio créés à partir de Tacotron 2, pour que l’on puisse découvrir les résultats qu’offre ce nouveau système assez pointu. Afin d’évaluer les performances de Tacotron 2, ils ont demandé à des auditeurs humains de noter le naturel de la voix générée. Le score obtenu s’est avéré comparable à celui d’enregistrements professionnels.

Même si les résultats sont encourageants, les chercheurs reconnaissent qu’ils restent toujours confrontés à des problèmes complexes. Le système doit en effet encore être amélioré pour pouvoir prononcer des mots difficiles comme decorum ou merlot. Parallèlement, il semble qu’il génère d’étranges bruits dans certains cas. Ils souhaitent également pouvoir le développer pour qu’il soit capable de générer un audio en temps réel et pouvoir le contrôler pour qu’il semble triste ou joyeux.

Pour plus d’informations sur la synthèse vocale, n’hésitez pas à consulter notre dossier sur le sujet: Si l’histoire de la synthèse vocale m’était contée.

 
Pierre-yves Gerlat

Partager l'article

Reconnaissance faciale : La Cour suprême de l’État de New York statue en faveur d’Amnesty International et du projet STOP

Les systèmes de reconnaissance faciale questionnent sur les enjeux de protection des données et les risques d’atteintes aux libertés individuelles, de nombreuses ONG à...

Des chercheurs de l’Université de Stanford et de NVIDIA publient l’étude « EG3D : GAN 3D efficaces et sensibles à la géométrie »

Transformer les images 2D en scènes 3D est le sujet de nombreuses recherches, Nvidia Research a récemment présenté Instant NeRf, un modèle d'IA capable...

La plateforme miniature de chirurgie assistée par robot MIRA devrait rejoindre l’ISS en 2024

En collaboration avec Virtual Incision, une société de robotique, des ingénieurs de l'Université du Nebraska ont développé MIRA, un petit robot chirurgien télécommandé qui...

France 2030 : le gouvernement dévoile les 66 premiers lauréats de l’appel à manifestations « Compétences et métiers d’avenir »

Le plan France 2030 vise à soutenir l’émergence de talents et accélérer l’adaptation des formations aux besoins de compétences des nouvelles filières et des...
Recevoir une notification en cas d'actualité importante    OK Non merci