Si l'histoire de la synthèse vocale m'était contée

La synthèse vocale est une discipline dont l’objectif est de produire de façon artificielle (mécanique ou électronique) des effets sonores imitant la voix humaine. Elle permet de convertir des textes écrits en une forme vocalisée. Les anglo-saxons parlent alors de Text to Speech ou TTS.

Outre la lecture de textes à destination de personnes malvoyantes ou non voyantes, la synthèse vocale entre notamment en application dans le cadre d’interfaces hommes machines sonores. Elle est dans ce cas utilisée conjointement avec une technologie de reconnaissance vocale, dont le but est de retranscrire un message sonore sous une forme intelligible pour l’ordinateur (qui consiste donc à réaliser l’opération inverse du point de vue conceptuel, bien que le processus soit totalement différent).

La synthèse vocale fait désormais partie de notre quotidien. Elle est présente dans nos smartphones, nos GPS ou encore dans nos salons avec les enceintes connectées. Elle est également plébiscitée pour la simplification des interactions qu’elle permet. Les voix d’Alexa ou de Google Home sont aujourd’hui très proches de réelles voix humaines. Mais obtenir un résultat aussi naturel et agréable à l’oreille a nécessité des dizaines d’années de recherche.

Du siècle des Lumières aux années 30

Doter la machine de la parole a toujours intéressé les savants. L’effervescence créative du siècle des Lumières a été marquée par la création d’automates. La volonté de les faire parler est apparue en parallèle. L’idée de la synthèse vocale commence à se développer. Des machines à parler mécaniques sont notamment construites, comme la Speaking machine de Wolfgang von Kempelen, en 1791.

Depuis sa création, plusieurs chercheurs ont repris le travail de Wolfgang von Kempelen en y intégrant les nouvelles technologies développées à leur époque. En 1939, une université allemande reproduisait par exemple la Speaking machine comme nous pouvons le voir dans la photo ci-dessous.

synthèse vocale, lumières, machine — Réplique de la Speaking Machine de Kempelen construite en 2007 par le Département de Phonetics, Saarland University, Saarbrücken, Germany / Wikipédia

Cette machine mécanique peut être considérée comme un instrument à vent. Elle est constituée de différentes parties sensées remplacer les fonctions de différents organes de l’anatomie humaine entrant en action dans l’émission de sons : poumons, thorax, narines, glotte et bouche.

Serge DURIN, facteur d’instruments à vent, teste la machine parlante reconstruite d’après le traité écrit par le baron WOLFGANG VON KEMPELEN.

Synthèse vocale électronique : le Voder et le Vocoder

Durant tout le début du 20e siècle, plusieurs chercheurs travaillent sur la synthèse vocale. Parmi eux, les laboratoires Bell, qui vont marquer l’histoire de l’informatique et de la synthèse vocale.

De 1936 à 1939, les laboratoires Bell développent, sous la direction de l’ingénieur acoustique et électronique Homer Dudley, le premier synthétiseur vocal électronique. La synthèse vocale de cette machine se fait via une interface rappelant celle d’une machine à écrire. Les commandes étaient constituées d’un clavier ainsi que de pédales permettant de moduler les effets sonores.

Le Voder est une version simplifiée du célèbre Vocoder développé par Homer Dudley de 1926 à 1939. Le Vocoder, dont le nom est la contraction de “Voice Encoder” a été conçu suite à la volonté des laboratoires Bell de réduire le coût des appels téléphoniques transcontinentaux. Pour cela, il effectuait une opération d’encodage du côté de la personne parlant et décodait le signal du côté de la personne qui l’écoutait. Cela permettait de faire transiter un minimum d’informations et donc d’économiser de la bande passante.

L’astuce consistait à découper le signal sonore en une multitude de plages de fréquences grâce à des filtres passe-bande. Ainsi il était possible d’analyser l’amplitude du signal de chacune de ces plages de fréquences. Ces caractéristiques étaient ensuite appliquées à une fréquence fondamentale transformée en y appliquant les modulations provenant des différentes bandes. (Pour en savoir plus, voir la présentation rédigée par Thomas Carney dans le cadre du Graduate Program in Audio and Acoustics, de l’université de Sidney).

Fonctionnement du vocoder — Illustration provenant de la vidéo “The secret history of Vocoder”

Le Vocoder a été utilisé à partir de 1943 par l’armée américaine dans le cadre du système SIGSALY. Il a succédé au système A-3 dont les fonctionnalités de cryptage commençaient à être jugées insuffisantes pour les transmissions audio durant la Seconde guerre mondiale. Les sonorités synthétiques et métalliques du Vocoder sont désormais de notoriété publique. Elles ont en effet été réutilisées dès la fin des années 1960 dans de nombreux films (notamment pour faire parler des robots) et en musique à des fins artistiques. Il s’agit encore aujourd’hui d’un effet très utilisé dans de grands hits musicaux d’artistes comme Daft Punk par exemple.

Nous vous invitons à visionner cette vidéo anglophone publiée par The New Yorker, intitulé The Secret History of the Vocoder (L’Histoire secrète du Vocoder). Elle illustre la diversité des usages de cet appareil.

Et pourquoi pas ne pas poursuivre avec un petit mix musical de Daft Punk dont “Around the World” qui, à grand renfort de Vocoder, est devenu un tube planétaire ?

Bien sûr, de nos jours, on utilise des logiciels de synthèse vocale, mais nous en parlerons prochainement..

Fin de la première partie.