Prochain numéro du magazine ActuIA le 15 octobre
Dossiers Si l'histoire de la synthèse vocale m'était contée

Pour approfondir le sujet

Apprendre à construire son intelligence artificielle, un concept attractif sur les sites de financement participatif

Plusieurs MOOC proposent des cours en ligne, gratuits ou non, concernant l'intelligence artificielle ou l'étude de certaines de ses branches. Coursera, l'un des leaders...

La caméra dédiée au Deep Learning, AWS DeepLens, d’Amazon est disponible

Amazon a présenté au Amazon re:invent de novembre 2017 une caméra destinée à l'intelligence artificielle, et plus précisément à l'apprentissage profond. Mais celle-ci n'était...

LinkedIn rend TonY open source pour exécuter des jobs TensorFlow

LinkedIn a annoncé récemment avoir rendu open source TonY, son projet permettant aux chercheurs et développeurs d’exécuter facilement des jobs TensorFlow sur Hadoop, Map/Reduce...

“L’intelligence artificielle en Java et Scala sur AWS” – session de découverte des différents services

Préparé par Julien Simon, Principal Evangelist ML/AI, EMEA chez ‎Amazon Web Services, ce second webinar d'Amazon se centre sur l'intelligence artificielle en Java et...

Si l’histoire de la synthèse vocale m’était contée

La synthèse vocale est une discipline dont l’objectif est de produire de façon artificielle (mécanique ou électronique) des effets sonores imitant la voix humaine. Elle permet de convertir des textes écrits en une forme vocalisée. Les anglo-saxons parlent alors de Text to Speech ou TTS.

Outre la lecture de textes à destination de personnes malvoyantes ou non voyantes, la synthèse vocale entre notamment en application dans le cadre d’interfaces hommes machines sonores. Elle est dans ce cas utilisée conjointement avec une technologie de reconnaissance vocale, dont le but est de retranscrire un message sonore sous une forme intelligible pour l’ordinateur (qui consiste donc à réaliser l’opération inverse du point de vue conceptuel, bien que le processus soit totalement différent).

La synthèse vocale fait désormais partie de notre quotidien. Elle est présente dans nos smartphones, nos GPS ou encore dans nos salons avec les enceintes connectées. Elle est également plébiscitée pour la simplification des interactions qu’elle permet. Les voix d’Alexa ou de Google Home sont aujourd’hui très proches de réelles voix humaines. Mais obtenir un résultat aussi naturel et agréable à l’oreille a nécessité des dizaines d’années de recherche.

Du siècle des Lumières aux années 30

Doter la machine de la parole a toujours intéressé les savants. L’effervescence créative du siècle des Lumières a été marquée par la création d’automates. La volonté de les faire parler est apparue en parallèle. L’idée de la synthèse vocale commence à se développer. Des machines à parler mécaniques sont notamment construites, comme la Speaking machine de Wolfgang von Kempelen, en 1791.

Depuis sa création, plusieurs chercheurs ont repris le travail de Wolfgang von Kempelen en y intégrant les nouvelles technologies développées à leur époque. En 1939, une université allemande reproduisait par exemple la Speaking machine comme nous pouvons le voir dans la photo ci-dessous.

synthèse vocale, lumières, machine
Réplique de la Speaking Machine de Kempelen construite en 2007 par le Département de Phonetics, Saarland University, Saarbrücken, Germany / Wikipédia

Cette machine mécanique peut être considérée comme un instrument à vent. Elle est constituée de différentes parties sensées remplacer les fonctions de différents organes de l’anatomie humaine entrant en action dans l’émission de sons : poumons, thorax, narines, glotte et bouche.

Serge DURIN, facteur d’instruments à vent, teste la machine parlante reconstruite d’après le traité écrit par le baron WOLFGANG VON KEMPELEN.

 

Synthèse vocale électronique : le Voder et le Vocoder

Durant tout le début du 20e siècle, plusieurs chercheurs travaillent sur la synthèse vocale. Parmi eux, les laboratoires Bell, qui vont marquer l’histoire de l’informatique et de la synthèse vocale.

De 1936 à 1939, les laboratoires Bell développent, sous la direction de l’ingénieur acoustique et électronique Homer Dudley, le premier synthétiseur vocal électronique. La synthèse vocale de cette machine se fait via une interface rappelant celle d’une machine à écrire. Les commandes étaient constituées d’un clavier ainsi que de pédales permettant de moduler les effets sonores.

Le Voder est une version simplifiée du célèbre Vocoder développé par Homer Dudley de 1926 à 1939. Le Vocoder, dont le nom est la contraction de “Voice Encoder” a été conçu suite à la volonté des laboratoires Bell de réduire le coût des appels téléphoniques transcontinentaux. Pour cela, il effectuait une opération d’encodage du côté de la personne parlant et décodait le signal du côté de la personne qui l’écoutait. Cela permettait de faire transiter un minimum d’informations et donc d’économiser de la bande passante.

L’astuce consistait à découper le signal sonore en une multitude de plages de fréquences grâce à des filtres passe-bande. Ainsi il était possible d’analyser l’amplitude du signal de chacune de ces plages de fréquences. Ces caractéristiques étaient ensuite appliquées à une fréquence fondamentale transformée en y appliquant les modulations provenant des différentes bandes. (Pour en savoir plus, voir la présentation rédigée par Thomas Carney dans le cadre du Graduate Program in Audio and Acoustics, de l’université de Sidney).

Fonctionnement du vocoder
Illustration provenant de la vidéo “The secret history of Vocoder”

Le Vocoder a été utilisé à partir de 1943 par l’armée américaine dans le cadre du système SIGSALY. Il a succédé au système A-3 dont les fonctionnalités de cryptage commençaient à être jugées insuffisantes pour les transmissions audio durant la Seconde guerre mondiale. Les sonorités synthétiques et métalliques du Vocoder sont désormais de notoriété publique. Elles ont en effet été réutilisées dès la fin des années 1960 dans de nombreux films (notamment pour faire parler des robots) et en musique à des fins artistiques. Il s’agit encore aujourd’hui d’un effet très utilisé dans de grands hits musicaux d’artistes comme Daft Punk par exemple.

Nous vous invitons à visionner cette vidéo anglophone publiée par The New Yorker, intitulé The Secret History of the Vocoder (L’Histoire secrète du Vocoder). Elle illustre la diversité des usages de cet appareil.

Et pourquoi pas ne pas poursuivre avec un petit mix musical de Daft Punk dont “Around the World” qui, à grand renfort de Vocoder, est devenu un tube planétaire ?

Bien sûr, de nos jours, on utilise des logiciels de synthèse vocale, mais nous en parlerons prochainement..

Fin de la première partie.

 

Stephane Nachez

Partager l'article

8 startups et PME françaises lauréates de l’appel à projets EUREKA – Challenge international COVID-19

Bpifrance a annoncé ce jour les lauréats du Challenge international Covid-19. Suite à l'appel à projets ouvert du 15 avril au 15 mai 2020,...

Une approche européenne de l’intelligence artificielle : EIT Digital fait part de ses recommandations

EIT Digital a présenté son troisième rapport de sa série Policy Perspective. Il aborde la manière dont l'Europe devrait gérer l'intelligence artificielle et fournit...

Replay – Conférence 1re Pierre : Cité de l’Intelligence Artificielle organisée par le département des Alpes-Maritimes et l’Institut EuropIA

Le lundi 14 septembre 2020 s'est déroulé le troisième #IADATES organisé par le département des Alpes-Maritimes et l’Institut EuropIA. Intitulée "1re Pierre : Cité...

reciTAL, spécialiste du TAL, lève 3,5 M€ auprès de Breega

Paris, le 10 septembre 2020 - reciTAL, start-up IA spécialisée dans les solutions de Document Intelligence, effectue une première levée de fonds de 3,5 M€...