Actualité Des chercheurs du MIT proposent une nouvelle façon de faire de la...

Pour approfondir le sujet

Element AI rejoint l’initiative “Systems that Learn” du MIT CSAIL

La start-up Element AI a annoncé qu'elle rejoignait "Systems that Learn", le projet du MIT CSAIL. En collaboration avec les autres membres BASF, British...

Le MIT CSAIL cherche à appliquer le machine learning à la détection du cancer du sein

Plusieurs chercheurs du MIT CSAIL, de la Harvard Medical School et de l'Hôpital Général du Massachusetts travaillent sur l'intelligence artificielle appliquée à la détection...

Le CSAIL MIT développe un algorithme permettant aux véhicules autonomes de changer de voie plus fluidement

Les constructeurs franchissent progressivement des étapes fondamentales vers des niveaux d'autonomie beaucoup plus importants. Ces avancées ne pourraient se faire sans le travail de...

Des chercheurs du MIT proposent une nouvelle façon de faire de la reconnaissance vocale

Des chercheurs du MIT ont développé un système qui apprend à identifier les objets sur une image en se basant sur une description sonore de l’image. Afin de démontrer l’association faite, lorsqu’une image et une description audio sont fournies au modèle, le système met en évidence en temps réel les régions de l’image décrites.

Une technique plus proche de l’apprentissage humain

Le projet part de la volonté de ses créateurs de développer une nouvelle façon, inspirée du comportement humain, de faire de la reconnaissance vocale. Les systèmes actuels, tels que ceux embarqués dans Google Home ou Alexa reposent sur des transcriptions et annotations manuelles de la langue.

Des bases de données comportant les mots sous forme textuelle et sonore sont constituées. Cela nécessite des milliers d’heures d’enregistrements sonores. Le problème est que lorsque la langue évolue, par exemple si de nouveaux mots ou expressions font leur entrée dans une langue, il est nécessaire de réaliser de compléter la base avec de nouveaux enregistrements et de réentrainer le modèle.

L’approche du modèle présenté par David Harwarth et al est beaucoup plus naturelle et s’inspire du monde réel : il s’agit de montrer au modèle quelque chose et de prononcer son nom, afin qu’il fasse l’association et la mémorise, de la même façon qu’on le ferait pour nos jeunes enfants.

Selon Florian Metze, professeur associé à l’institut des technologies du langage de l’université Carnegie Mellon : ” Il est excitant de voir que les méthodes reposant sur les neurones artificiels peuvent maintenant associer des éléments de l’image avec des segments audio, sans nécessiter de passer par une forme écrite”.

Il met cependant en garde sur l’analogie avec l’apprentissage humain :

“Ce n’est pas comme l’apprentissage humain, le système est basé uniquement sur des corrélations”.

Le modèle ne peut actuellement reconnaître que quelques centaines de mots et types d’objets. Cependant, les chercheurs espèrent que la technique mise au point
pourra leur épargner des heures de travail manuel et ouvrir de nouvelles portes à la reconnaissance de parole et d’image.

Notons que ce n’est pas la première tentative d’associer des images avec une description audio, mais ce qui différencie celle-ci des précédentes est que jusqu’à présent, l’ensemble des modèles étaient pré-entraînés avec des images labellisées qui provenaient de bases telles qu’ImageNet.

Le système repose sur deux réseaux de neurones convolutifs : l’un analyse les images, l’autre analyse les spectrogrammes. Leurs sorties sont ensuite combinées dans la couche la plus haute du modèle afin de réaliser l’association.

“Nous voulions faire de la reconnaissance vocale d’une façon qui puisse être plus naturelle, en exploitant des informations auxquels les humains ont habituellement accès mais auxquelles le machine learning n’a pas accès.”

explique David Harwath, chercheur au laboratoire de sciences informatiques et intelligence artificielle (CSAIL). et au groupe des systèmes de langage parlé.

Harwath a co-écrit un papier décrivant le modèle et l’a récemment présenté à la conférence européenne Computer vision.

L’image comme interlangue pour la traduction automatisée

L’une des applications prometteuses est l’apprentissage de traductions entre différentes langues sans annotation bilingue. Des 7000 langues parlées dans le monde, seulement 100 ont suffisamment de données transcrites pour la reconnaissance vocale. Si nous envisageons une situation dans laquelle des  personnes parlant différentes langues décrivent la même image, le système pourra de lui même apprendre que ces descriptions sont des traductions respectives. La vision jouera alors le rôle d’interlangue.

Il serait certainement également possible d’exploiter les films en audio-description afin d’aller plus loin. Pour le moment ce n’est pas encore possible car il est nécessaire que la description soit exactement synchronisée avec les images affichées, mais il serait tout à fait envisageable d’ajouter une tolérance temporelle.

Retrouvez les travaux de Harwath et Al ici.

ActuIA

Partager l'article

Replay : Le “droit” des robots, réalité ou abus de langage ? avec Nathalie Nevejans et Serge Tisseron

Dans le cadre de son émission Matières à penser, Serge Tisseron avait reçu en 2018 Nathalie Nevejans, maîtresse de conférences en droit privé à...

Le Comité économique et social européen rend son Avis sur le Livre blanc sur l’Intelligence artificielle

À l'occasion de la session plénière du 16 juillet dernier, le Comité économique et social européen (CESE) a rendu son avis sur le Livre...

Données, intelligence artificielle et edge computing : Orange et Google Cloud annoncent un partenariat stratégique

Orange souhaite accélérer sa transformation digitale et annonce avoir signé un partenariat stratégique avec Google Cloud. Cet accord permettra notamment au groupe de développer...

Une équipe de chercheurs présente une intelligence artificielle différenciant les oiseaux d’une même espèce

Une équipe de scientifiques CNRS/ Université de Montpellier/ Université Paul-Valéry-Montpellier/ IRD/ EPHE/ CIBIO à l’Université de Porto ont présenté les résultats de leurs recherches sur...