Des chercheurs développent un système d'IA capable d'apprendre les règles du langage humain

Une équipe de chercheurs de l’Université Cornell, du MIT et de l’Université McGill a développé un système d’IA capable d’apprendre les règles et les modèles des langues humaines par lui-même. L’étude « Synthesizing theories of human language with Bayesian program induction » a été publiée dans Nature Communications.

Les chercheurs s’intéressaient à la découverte de théories pilotées par l’IA, ils ont choisi le langage humain comme champ d’essai. Ils se sont concentrés sur la construction par le linguiste de théories spécifiques à la langue et sur sa synthèse de méta-théories interlinguistiques abstraites, tout en proposant des liens avec l’acquisition du langage chez l’enfant. Les sciences cognitives du langage ont en effet établi une analogie explicite entre le scientifique construisant des grammaires de langues particulières et l’enfant apprenant ces langues.

Kevin Ellis, Professeur adjoint d’informatique à l’Université Cornell et auteur principal de l’article, explique :

« L’une des motivations de ce travail était notre désir d’étudier des systèmes qui apprennent des modèles d’ensembles de données qui sont représentés d’une manière que les humains peuvent comprendre. Au lieu d’apprendre des poids, le modèle peut-il apprendre des expressions ou des règles ? Et nous voulions voir si nous pouvions construire ce système afin qu’il apprenne sur toute une batterie d’ensembles de données interdépendants, pour que le système apprenne un peu sur la façon de mieux modéliser chacun d’eux ».

Le choix du langage humain

Le langage naturel est un domaine idéal pour étudier la découverte théorique pour plusieurs raisons:

Des décennies de travail en linguistique, psycholinguistique et autres sciences cognitives du langage fournissent une matière première diversifiée pour développer et tester des modèles de découverte théorique automatisée. On trouve des corpus, des ensembles de données et des grammaires provenant d’une grande variété de langages typologiquement distincts, ce qui représente un banc d’essai riche et varié pour l’analyse comparative des algorithmes d’induction de la théorie;
D’autre part, les enfants acquièrent le langage à partir de quantités de données modestes par rapport à l’IA. De la même façon, les linguistes de terrain développent des grammaires basées sur de très petites quantités de données obtenues. Ces faits suggèrent que l’analogie de l’enfant en tant que linguiste est productive et que l’induction de théories du langage est traitable à partir de données clairsemées avec les bons biais inductifs;
Enfin, les théories de la représentation et de l’apprentissage des langues sont formulées en termes informatiques, exposant une série de formalismes prêts à être déployés par les chercheurs en IA.

Ces trois caractéristiques du langage humain : la disponibilité d’un grand nombre de cibles empiriques très diverses, les interfaces avec le développement cognitif et les formalismes informatiques au sein de la linguistique, ont conduit les chercheurs à choisir le langage comme cible pour la recherche en induction théorique automatisée.

Un modèle d’apprentissage par programme bayésien

La linguistique vise à comprendre les représentations générales, les processus et les mécanismes qui permettent aux gens d’apprendre et d’utiliser une langue, et non seulement de cataloguer et de décrire des langues particulières. Pour saisir cet aspect au niveau du cadre du problème de l’induction théorique, les chercheurs ont adopté le paradigme de l’apprentissage par programme bayésien (BPL). Ils ont construit le modèle en utilisant Sketch, un synthétiseur de programme qui a été développé au MIT par Armando Solar-Lezama.

Ils se sont concentrés sur les théories de la morphophonologie du langage naturel, le domaine du langage régissant l’interaction de la formation des mots et de la structure sonore.

L’équipe a évalué le modèle BPL sur 70 ensembles de données couvrant la morphophonologie de 58 langues. Ces ensembles de données provenaient de manuels de phonologie : bien que d’une grande diversité linguistique, ils sont beaucoup plus simples que l’apprentissage complet de la langue, ils ne comptent qu’une centaine de mots au maximum et n’isolent qu’une poignée de phénomènes grammaticaux. Lorsqu’on lui donne des mots et des exemples de la façon dont ces mots changent pour exprimer différentes fonctions grammaticales (comme le temps, la casse ou le genre) dans une langue, ce modèle d’apprentissage automatique propose des règles qui expliquent pourquoi les formes de ces mots changent..

Les conclusions de l’étude

Le modèle a été en mesure de proposer un ensemble correct de règles pour décrire ces changements de forme pour 60% des problèmes. Il pourrait être utilisé pour étudier les hypothèses linguistiques et étudier les similitudes dans la façon dont diverses langues transforment les mots.

Selon les chercheurs, les humains déploient leurs théories plus richement que leur modèle. Ils proposent ainsi de nouvelles expériences pour tester des prédictions théoriques, conçoivent de nouveaux outils basés sur les conclusions d’une théorie et distillent des connaissances de niveau supérieur qui vont bien au-delà de ce que leur approximation « Fragment-Grammaire » peut faire. Cependant, continuer à pousser l’induction théorique le long de ces nombreuses dimensions reste une cible de choix pour les recherches futures.

Sources de l’article :

“Synthesizing theories of human language with Bayesian program induction”
Nature Communications https://doi.org/10.1038/s41467-022-32012-w

Auteurs :

Kevin Ellis, Professeur adjoint d’informatique à l’Université Cornell;
Adam Albright, Professeur de linguistique, MIT;
Armando Solar-Lezama, Professeur et Directeur associé du Laboratoire d’informatique et d’intelligence artificielle (CSAIL), MIT;
Joshua B. Tenenbaum, Professeur de développement de carrière Paul E. Newton en sciences cognitives et en calcul au Département des sciences du cerveau et de la fonction cognitive et membre du CSAIL, MIT;
Timothy J. O’Donnell, Professeur adjoint au Département de linguistique de l’Université McGill et titulaire de la Chaire Canada-CIFAR en IA au Mila – Institut québécois d’intelligence artificielle.