Des chercheurs de l'Université Carnegie Mellon veulent apporter la reconnaissance automatique de la parole à près de 2 000 langues

Selon l'Atlas mondial des langues de l'UNESCO, il y aurait 8 324 langues (parlées et signées) documentées par les gouvernements. Parmi les langues parlées, environ 200 bénéficient des technologies linguistiques modernes telles que la transcription voix-texte, le sous-titrage automatique, la traduction instantanée et la reconnaissance vocale. Des chercheurs de l’Université Carnegie Mellon ont pour projet de faire passer le nombre de langues dotées d’outils de reconnaissance vocale automatique à près de 2 000. Les modèles de reconnaissance vocale les plus récents reposent sur de grands ensembles de données supervisées, qui ne sont pas disponibles pour de nombreuses langues à faibles ressources. Une équipe de chercheurs de Carnegie Mellon s'est attelée à simplifier les exigences en matière de données dont les langues ont besoin pour créer un modèle de reconnaissance vocale. L’équipe composée de Xinjian Li, doctorant à l’Institut des technologies linguistiques (LTI) de l’École d’informatique. ainsi que des membres du corps professoral de LTI Shinji Watanabe, Florian Metze, David Mortensen et Alan Black, a présenté son travail « ASR2K : Reconnaissance vocale pour environ 2 000 langues sans audio » à Interspeech 2022 en Corée du Sud. Xinjian Li commente :

« Beaucoup de gens dans ce monde parlent diverses langues, mais les outils de technologie linguistique ne sont pas développés pour tous. Développer une technologie et un bon modèle linguistique pour tous est l’un des objectifs de cette recherche ».

La plupart des modèles de reconnaissance vocale nécessitent deux ensembles de données : texte et audio. S'il est facile de collecter des données textuelles pour des milliers de langues, les données audio peuvent s'avérer beaucoup plus rares. L’équipe espère éliminer le besoin de ces dernières en se concentrant sur les éléments linguistiques communs à de nombreuses langues. Aaron Aupperlee, Senior Director of Media Relations à l'Université de Carnagie Mellon, explique dans un article de Science Daily consacré à cette recherche :

« Historiquement, les technologies de reconnaissance vocale se concentrent sur le phonème d’une langue. Ces sons distincts qui distinguent un mot d’un autre - comme le "d" qui différencie "dog" de "log" et "cog" - sont uniques à chaque langue. Mais les langues ont aussi des téléphones, qui décrivent comment un mot sonne physiquement. Plusieurs téléphones peuvent correspondre à un seul phonème. Ainsi, même si des langues distinctes peuvent avoir des phonèmes différents, leurs téléphones sous-jacents pourraient être les mêmes ».

Il ajoute :

« L’équipe LTI développe un modèle de reconnaissance vocale qui s’éloigne des phonèmes et s’appuie plutôt sur des informations sur la façon dont les téléphones sont partagés entre les langues, réduisant ainsi les efforts pour construire des modèles distincts pour chaque langue. Plus précisément, il associe le modèle à un arbre phylogénétique - un diagramme qui cartographie les relations entre les langues - pour aider avec les règles de prononciation. Grâce à leur modèle et à l’arborescence, l’équipe peut approximer le modèle vocal pour des milliers de langues sans données audio ».

Les chercheurs ont ainsi construit un pipeline de reconnaissance vocale pour 1 909 langues, et selon Xijian Li, « c'est la première recherche à cibler un si grand nombre de langues, et nous sommes la première équipe à vouloir étendre les outils linguistiques à cette portée ». Pour lui, outre rendre les technologies langagières accessibles à tous, cette recherche est une question de préservation culturelle. Il déclare :

« Chaque langue est un facteur très important dans sa culture. Chaque langue a sa propre histoire, et si vous n’essayez pas de préserver les langues, ces histoires pourraient être perdues .Développer ce type de système de reconnaissance vocale et cet outil est une étape pour essayer de préserver ces langues ».

Encore à un stade précoce, la recherche a amélioré les outils d’approximation du langage existants d’un modeste 5%, mais l’équipe espère qu’elle servira d’inspiration non seulement pour leurs travaux futurs, mais aussi pour ceux d’autres chercheurs. Sources de l'article : Université Carnegie Mellon. « Le projet vise à étendre les technologies langagières : la recherche pourrait apporter la reconnaissance automatique de la parole à 2 000 langues. » ScienceDaily. ScienceDaily, 10 janvier 2023. Original écrit par Aaron Aupperlee. <www.sciencedaily.com/releases/2023/01/230110151049.htm>. Li, X., Metze, F., Mortensen, D.R., Black, A.W., Watanabe, S. (2022) ASR2K: Reconnaissance vocale pour environ 2000 langues sans audio. Proc. Interspeech 2022, 4885-4889, doi: 10.21437/Interspeech.2022-10712

Pierre-yves Gerlat

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Des chercheurs de l'Université Carnegie Mellon veulent apporter la reconnaissance automatique de la parole à près de 2 000 langues

Google rend l'intelligence artificielle de NotebookLM disponible en version multilingue

Chatterbox : une percée open source dans la synthèse vocale

Qwen-3 Omni : Alibaba accélère dans la course à l’IA multimodale