Voix et Intelligence artificielle : Deep Voice Paris se tiendra du 23 au 24 juin

0
Voix et Intelligence artificielle : Deep Voice Paris se tiendra du 23 au 24 juin
Chargement de la carte…

Date / Heure
Date(s) - 23/06/2021 - 24/06/2021
Toute la journée

Emplacement
SCAI IRCAM

Catégories


Organisé du 23 au 24 juin 2012 par par SCAI et l’Ircam, Deep Voice est l’événement parisien dédié à la voix et à l’intelligence artificielle. Son objectif est de réunir l’expertise technique et l’innovation business/entrepreneuriale durant 2 jours. Au programme : une présentation keynote, deux ateliers pratiques, une table ronde thématique et des moments de networking afin de favoriser l’échange et la collaboration entre tous les participants. Inscriptions via eventbrite.

Le 23 juin

  • 10h – Keynote – Text-to-Speech neuronal expressif – Thomas Drugman (Amazon)

Les progrès récents de la synthèse vocale basée sur l’apprentissage profond ont rendu les voix artificielles presque indiscernables de la parole humaine dans les contenus neutres et courts. Cependant, il existe encore une lacune importante lorsqu’il s’agit de savoir comment les systèmes basés sur l’IA sont capables de rendre les émotions. Cet exposé se concentrera sur nos efforts, chez Amazon, pour combler ce fossé en rendant nos modèles génératifs plus expressifs et plus humains. Nous verrons comment ce progrès technologique a amélioré des produits tels qu’Amazon Alexa ou AWS Polly.

  • 14h – Atelier #1 – Synthèse neuronale de la parole – Nicolas Obin (Ircam)

Le 24 juin

  • 10h – Table ronde – Assistants, emo/co-bots et réalité virtuelle : comment la simulation des émotions va-t-elle modifier notre rapport affectif aux machines et notre immersion dans un monde social artificiel ?

Susana Sánchez Restrepo (SoftBank Robotics), Nadia Guerouaou (CHRU Lille), Catherine Pelachaud (Sorbonne Université), Jean-Julien Aucouturier (CNRS), Serge Tisseron (Université de Paris, Académie des technologies) / Nicolas Obin (modérateur)

  • 14h – Atelier #2 – Vocodeur neuronal – Axel Röbel (Ircam)

Les 2 ateliers présenteront le fonctionnement des deux blocs essentiels d’un TTS neuronal à l’exemple du Tacotron 2.

Le premier atelier introduira aux concepts de linguistique générale, de la communication parlée, et du traitement automatique de la parole, puis présentera les détails de l’architecture Tacotron et de ses évolutions. Le second atelier expliquera le fonctionnement des réseaux post-net (WavNet et autres) utilisés pour reconstruire un signal de parole à partir d’une représentation en Mel-spectrogramme.

Le public visé par ces ateliers sont des ingénieurs ayant une bonne connaissance en deep learning et connaissant les environnements de programmation dédiés désireux de monter en compétences sur les architectures spécifiques en traitement automatique du langage et de la parole.