Chine : l'intelligence artificielle utilisée pour concevoir des bases de données linguistiques

Dans le cadre d'un vaste programme de protection des ressources linguistiques nationales, la Chine a lancé la seconde phase de son projet. Le pays a pour ambition de vouloir préserver tout ce qui peut exister en matière de dialectes et de langues des minorités ethniques. Les technologies liées à l'intelligence artificielle sont fortement mises à contribution.

La protection des ressources linguistiques

En 2019, à Pékin, l'UNESCO et le ministère de l'éducation chinoise avaient publié conjointement la "proclamation Yuelu", un document visant à promouvoir la diversité linguistique dans le monde et à la protéger. Ce texte encourageait les institutions nationales linguistiques, les universités, les ONG ou tout autre institution publique ou privée des pays membres de l'UNESCO, à essayer d'appliquer diverses techniques et méthodes afin de tout faire pour protéger la diversité linguistique au sein de leur pays. En Chine, ce projet existe depuis 2015. Lancé par le ministère de l'éducation et la commission des langues chinoises, il a d'abord eu pour objectif de recenser, présenter et développer les ressources linguistiques et protéger les langues en danger d'extinction. Mais progressivement, le corpus s'est étendu à toutes les langues et dialectes du pays. Le directeur du centre pour la protection des ressources linguistiques de Chine, Cao Zhiyun a expliqué :

"Les langues et les dialectes disparaissent rapidement. Une langue s'éteint toutes les deux semaines, alors nous courons contre la montre pour les sauver. C'est aussi un bon moyen de protéger et de transmettre la culture chinoise"

L'utilisation de l'intelligence artificielle

Plus de 350 collèges, universités et instituts de recherche ont rejoint le projet à ce jour, impliquant plus de 4 500 professionnels. Durant la première phase du projet, une grande plateforme de collecte et d'enregistrement de données a été conçue afin de répertorier l'ensemble des ressources linguistiques existant dans le pays. En octobre 2020, ce sont 1 712 sites dont 103 avec des dialectes chinois en voie de disparition qui ont été étudiés et dont les données ont été récupérées. Le programme a couvert 34 provinces ou régions de Chine ainsi que 123 langues. La reconnaissance et la synthèse de la parole ont été notamment utilisées pour mieux préserver les langues et les dialectes en constituant des bases de données écrites et vocales, y compris celle de toutes les minorités ethniques du pays. La seconde phase consistera à utiliser ces bases de données dans l'objectif de promouvoir le chinois standard écrit et parlé pour uniformiser la langue au sein du pays, tout en protégeant les langues et dialectes locaux qui seront également proposés pour apprentissage à qui le souhaitera.

Zach T.

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Chine : l'intelligence artificielle utilisée pour concevoir des bases de données linguistiques

La protection des ressources linguistiques

L'utilisation de l'intelligence artificielle

De la dépendance à l'autosuffisance : l’ambition IA de la Chine

L'UNESCO dédie la Journée internationale de l'éducation 2025 à l'intelligence artificielle

Google rend l'intelligence artificielle de NotebookLM disponible en version multilingue