Dossiers Si l'histoire de la synthèse vocale m'était contée

Pour approfondir le sujet

Sur le même thème :

Le Voice Lab lève 4,7 millions d’euros pour développer une marketplace de solutions vocales

Le Voice Lab, une association française dédiée à la voix, a annoncé avoir obtenu une aide de 4,7 millions d'euros auprès de la Bpifrance, ...

Chine : l’intelligence artificielle utilisée pour concevoir des bases de données linguistiques

Dans le cadre d'un vaste programme de protection des ressources linguistiques nationales, la Chine a lancé la seconde phase de son projet. Le pays...

Google lance Tacotron 2, un système de synthèse vocale au son très naturel basé sur une IA

Vocaliser un texte écrit a été un objectif de recherche durant des décennies, notamment chez Google. Deux des chercheurs de Google Research (Google Brain...

Données vocales : Le Voice Lab et Datafunding lancent une campagne de data funding

Les technologies vocales ont connu un grand boom ces dernières années avec des solutions innovantes, des projets de recherche avec de nombreuses applications mais...

Si l’histoire de la synthèse vocale m’était contée

La synthèse vocale est une discipline dont l’objectif est de produire de façon artificielle (mécanique ou électronique) des effets sonores imitant la voix humaine. Elle permet de convertir des textes écrits en une forme vocalisée. Les anglo-saxons parlent alors de Text to Speech ou TTS.

Outre la lecture de textes à destination de personnes malvoyantes ou non voyantes, la synthèse vocale entre notamment en application dans le cadre d’interfaces hommes machines sonores. Elle est dans ce cas utilisée conjointement avec une technologie de reconnaissance vocale, dont le but est de retranscrire un message sonore sous une forme intelligible pour l’ordinateur (qui consiste donc à réaliser l’opération inverse du point de vue conceptuel, bien que le processus soit totalement différent).

La synthèse vocale fait désormais partie de notre quotidien. Elle est présente dans nos smartphones, nos GPS ou encore dans nos salons avec les enceintes connectées. Elle est également plébiscitée pour la simplification des interactions qu’elle permet. Les voix d’Alexa ou de Google Home sont aujourd’hui très proches de réelles voix humaines. Mais obtenir un résultat aussi naturel et agréable à l’oreille a nécessité des dizaines d’années de recherche.

Du siècle des Lumières aux années 30

Doter la machine de la parole a toujours intéressé les savants. L’effervescence créative du siècle des Lumières a été marquée par la création d’automates. La volonté de les faire parler est apparue en parallèle. L’idée de la synthèse vocale commence à se développer. Des machines à parler mécaniques sont notamment construites, comme la Speaking machine de Wolfgang von Kempelen, en 1791.

Depuis sa création, plusieurs chercheurs ont repris le travail de Wolfgang von Kempelen en y intégrant les nouvelles technologies développées à leur époque. En 1939, une université allemande reproduisait par exemple la Speaking machine comme nous pouvons le voir dans la photo ci-dessous.

synthèse vocale, lumières, machine
Réplique de la Speaking Machine de Kempelen construite en 2007 par le Département de Phonetics, Saarland University, Saarbrücken, Germany / Wikipédia

Cette machine mécanique peut être considérée comme un instrument à vent. Elle est constituée de différentes parties sensées remplacer les fonctions de différents organes de l’anatomie humaine entrant en action dans l’émission de sons : poumons, thorax, narines, glotte et bouche.

Serge DURIN, facteur d’instruments à vent, teste la machine parlante reconstruite d’après le traité écrit par le baron WOLFGANG VON KEMPELEN.

 

Synthèse vocale électronique : le Voder et le Vocoder

Durant tout le début du 20e siècle, plusieurs chercheurs travaillent sur la synthèse vocale. Parmi eux, les laboratoires Bell, qui vont marquer l’histoire de l’informatique et de la synthèse vocale.

De 1936 à 1939, les laboratoires Bell développent, sous la direction de l’ingénieur acoustique et électronique Homer Dudley, le premier synthétiseur vocal électronique. La synthèse vocale de cette machine se fait via une interface rappelant celle d’une machine à écrire. Les commandes étaient constituées d’un clavier ainsi que de pédales permettant de moduler les effets sonores.

Le Voder est une version simplifiée du célèbre Vocoder développé par Homer Dudley de 1926 à 1939. Le Vocoder, dont le nom est la contraction de “Voice Encoder” a été conçu suite à la volonté des laboratoires Bell de réduire le coût des appels téléphoniques transcontinentaux. Pour cela, il effectuait une opération d’encodage du côté de la personne parlant et décodait le signal du côté de la personne qui l’écoutait. Cela permettait de faire transiter un minimum d’informations et donc d’économiser de la bande passante.

L’astuce consistait à découper le signal sonore en une multitude de plages de fréquences grâce à des filtres passe-bande. Ainsi il était possible d’analyser l’amplitude du signal de chacune de ces plages de fréquences. Ces caractéristiques étaient ensuite appliquées à une fréquence fondamentale transformée en y appliquant les modulations provenant des différentes bandes. (Pour en savoir plus, voir la présentation rédigée par Thomas Carney dans le cadre du Graduate Program in Audio and Acoustics, de l’université de Sidney).

Fonctionnement du vocoder
Illustration provenant de la vidéo “The secret history of Vocoder”

Le Vocoder a été utilisé à partir de 1943 par l’armée américaine dans le cadre du système SIGSALY. Il a succédé au système A-3 dont les fonctionnalités de cryptage commençaient à être jugées insuffisantes pour les transmissions audio durant la Seconde guerre mondiale. Les sonorités synthétiques et métalliques du Vocoder sont désormais de notoriété publique. Elles ont en effet été réutilisées dès la fin des années 1960 dans de nombreux films (notamment pour faire parler des robots) et en musique à des fins artistiques. Il s’agit encore aujourd’hui d’un effet très utilisé dans de grands hits musicaux d’artistes comme Daft Punk par exemple.

Nous vous invitons à visionner cette vidéo anglophone publiée par The New Yorker, intitulé The Secret History of the Vocoder (L’Histoire secrète du Vocoder). Elle illustre la diversité des usages de cet appareil.

Et pourquoi pas ne pas poursuivre avec un petit mix musical de Daft Punk dont “Around the World” qui, à grand renfort de Vocoder, est devenu un tube planétaire ?

Bien sûr, de nos jours, on utilise des logiciels de synthèse vocale, mais nous en parlerons prochainement..

Fin de la première partie.

 


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
Stephane Nachez

Partager l'article

Rendez-vous du 17 au 19 novembre 2021 pour la 4ème édition du Soph.I.A. Summit

Cette année, le Soph.I.A. Summit se tiendra du 17 au 19 novembre 2021. Organisé par Université Côte d’Azur, la Communauté d’Agglomération de Sophia Antipolis et...

France Num publie le 1er Baromètre sur la transformation numérique des TPE/PME réalisé par le CREDOC

France Num, initiative pilotée par la Direction Générale des entreprises (DGE) a remis à Alain Griset, ministre délégué chargé des petites et moyennes entreprises,...

Retour sur l’adoption de la première stratégie de l’OTAN en matière d’Intelligence Artificielle

Les 30 pays de l'OTAN ont pour objectif de garantir la liberté et la sécurité aux membres de leur alliance. Créé en 1949, l'OTAN...

Changement climatique : Mila permet de vivre l’expérience de catastrophes naturelles pour sensibiliser l’opinion

Ces dernières années, les catastrophes naturelles semblent s'amplifier et se succéder à un rythme exponentiel. Que ce soient les incendies dévastateurs comme en Californie,...