OpenAI partage un aperçu de Voice Engine, un modèle de clonage vocal

OpenAI a récemment dévoilé Voice Engine, un modèle qui peut reproduire la voix d'un orateur à partir d'une invite textuelle et d'un échantillon audio de 15 secondes. Selon la start-up, il peut générer des voix émotives et réalistes mais, consciente des dangers d'usurpation d'identité, elle préfère ne pas le déployer à grande échelle pour l'instant. OpenAI travaille au développement de Voice Engine depuis fin 2022, c'est à dire depuis le lancement de ChatGPT. Le modèle alimente d'ailleurs les voix prédéfinies de son API de synthèse vocale ainsi que ChatGPT Voice et Read Aloud. La start-up avait annoncé en septembre dernier le chat vocal et que la plateforme de streaming Spotify utilisait sa nouvelle technologie de génération de voix pour traduire les podcasts.

Un déploiement responsable

Pour appréhender les utilisations potentielles de Voice Engine, OpenAI a débuté des tests en privé avec un petit groupe de partenaires de confiance. Parmi les applications initiales du modèle, la start-up cite l'aide à la lecture aux non-lecteurs et aux enfants. Age of Learning, une entreprise de technologie éducative, l’utilise ainsi pour générer du contenu de voix off pré-scénarisé et des réponses personnalisées en temps réel pour interagir avec les élèves. La plateforme HeyGen utilise Voice Engine pour traduire des contenus tels que des vidéos et des podcasts, ce qui lui permet de toucher un public mondial, Dimagi pour améliorer la prestation de services essentiels dans les régions éloignées en fournissant des conseils et des informations dans la langue principale de chaque communauté. Voice Engine permet également aux utilisateurs de Livox, une application de communication alternative basée sur l’IA, de choisir la voix qui les représente le mieux et de maintenir une cohérence dans chaque langue parlée. Le modèle a été d'autre part utilisé dans un contexte clinique pour restaurer la voix d'une patiente atteinte d’une tumeur vasculaire au cerveau à L'Institut des neurosciences Norman Prince. Malgré ces cas d'utilisations bénéfiques pour la société, OpenAI adopte une approche prudente pour un déploiement plus large en raison du risque potentiel de mauvaise utilisation des voix synthétiques. La société déclare dans son communiqué :

"Nous reconnaissons que la production d’un discours qui ressemble à la voix des gens comporte de graves risques, qui sont particulièrement importants en cette année électorale. Nous collaborons avec des partenaires américains et internationaux issus du gouvernement, des médias, du divertissement, de l’éducation, de la société civile et au-delà pour nous assurer que nous intégrons leurs commentaires au fur et à mesure que nous construisons".

OpenAI, qui a travaillé à sécuriser ChatGPT et DALL-E 3 à l'approche des élections américaines et mondiales, assure avoir également mis en place un ensemble de mesures de sécurité pour Voice Engine telles que le tatouage numérique et une surveillance proactive de l'utilisation du modèle. Les partenaires de confiance qui testent Voice Engine ont accepté les politiques d’utilisation strictes de la start-up pour éviter l’usurpation d’identité. Si un consentement explicite des locuteurs originaux leur est exigé, ils se doivent également d'être transparents et informer leur public que les voix entendues ont été générées par l'IA. La société conclut :

"Sur la base des résultats de nos tests à petite échelle, nous prendrons une décision plus éclairée quant à savoir si et comment déployer cette technologie à grande échelle".

Marie-Claude Benoit

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

OpenAI partage un aperçu de Voice Engine, un modèle de clonage vocal

Un déploiement responsable

Chatterbox : une percée open source dans la synthèse vocale

Study Mode : OpenAI dote ChatGPT d'un assistant pédagogique

API Responses, SDK Agents : OpenAI permet aux entreprises de créer leurs agents d'IA plus simplement