Intelligence artificielle Des chercheurs du MIT proposent une nouvelle façon de faire de la...

Pour approfondir le sujet

Des chercheurs du CNRS/Thales créent le premier nano-neurone artificiel capable de reconnaissance vocale

Des chercheurs de l'Unité mixte de physique CNRS/Thales, du Centre de nanosciences et de nanotechnologies (CNRS/Université Paris Sud), en collaboration avec des chercheurs américains...

Google numéro 1 de la course à l’intelligence artificielle

L'intelligence artificielle est un domaine qui attire de plus en plus d'entreprises et d'investisseurs. Depuis quelques années on assiste en effet à une course...

Meetup: Deep Learning en pratique: Reconnaissance Automatique de la Parole et bien plus encore…

LINAGORA organisera un meetup consacré au deep learning à Puteaux le 27 septembre prochain. Au programme de ce meetup : • Intelligence Artificielle et Machine Learning •...

Une équipe de chercheurs présente une intelligence artificielle différenciant les oiseaux d’une même espèce

Une équipe de scientifiques CNRS/ Université de Montpellier/ Université Paul-Valéry-Montpellier/ IRD/ EPHE/ CIBIO à l’Université de Porto ont présenté les résultats de leurs recherches sur...

Des chercheurs du MIT proposent une nouvelle façon de faire de la reconnaissance vocale

Des chercheurs du MIT ont développé un système qui apprend à identifier les objets sur une image en se basant sur une description sonore de l’image. Afin de démontrer l’association faite, lorsqu’une image et une description audio sont fournies au modèle, le système met en évidence en temps réel les régions de l’image décrites.

Une technique plus proche de l’apprentissage humain

Le projet part de la volonté de ses créateurs de développer une nouvelle façon, inspirée du comportement humain, de faire de la reconnaissance vocale. Les systèmes actuels, tels que ceux embarqués dans Google Home ou Alexa reposent sur des transcriptions et annotations manuelles de la langue.

Des bases de données comportant les mots sous forme textuelle et sonore sont constituées. Cela nécessite des milliers d’heures d’enregistrements sonores. Le problème est que lorsque la langue évolue, par exemple si de nouveaux mots ou expressions font leur entrée dans une langue, il est nécessaire de réaliser de compléter la base avec de nouveaux enregistrements et de réentrainer le modèle.

L’approche du modèle présenté par David Harwarth et al est beaucoup plus naturelle et s’inspire du monde réel : il s’agit de montrer au modèle quelque chose et de prononcer son nom, afin qu’il fasse l’association et la mémorise, de la même façon qu’on le ferait pour nos jeunes enfants.

Selon Florian Metze, professeur associé à l’institut des technologies du langage de l’université Carnegie Mellon : ” Il est excitant de voir que les méthodes reposant sur les neurones artificiels peuvent maintenant associer des éléments de l’image avec des segments audio, sans nécessiter de passer par une forme écrite”.

Il met cependant en garde sur l’analogie avec l’apprentissage humain :

“Ce n’est pas comme l’apprentissage humain, le système est basé uniquement sur des corrélations”.

Le modèle ne peut actuellement reconnaître que quelques centaines de mots et types d’objets. Cependant, les chercheurs espèrent que la technique mise au point
pourra leur épargner des heures de travail manuel et ouvrir de nouvelles portes à la reconnaissance de parole et d’image.

Notons que ce n’est pas la première tentative d’associer des images avec une description audio, mais ce qui différencie celle-ci des précédentes est que jusqu’à présent, l’ensemble des modèles étaient pré-entraînés avec des images labellisées qui provenaient de bases telles qu’ImageNet.

Le système repose sur deux réseaux de neurones convolutifs : l’un analyse les images, l’autre analyse les spectrogrammes. Leurs sorties sont ensuite combinées dans la couche la plus haute du modèle afin de réaliser l’association.

“Nous voulions faire de la reconnaissance vocale d’une façon qui puisse être plus naturelle, en exploitant des informations auxquels les humains ont habituellement accès mais auxquelles le machine learning n’a pas accès.”

explique David Harwath, chercheur au laboratoire de sciences informatiques et intelligence artificielle (CSAIL). et au groupe des systèmes de langage parlé.

Harwath a co-écrit un papier décrivant le modèle et l’a récemment présenté à la conférence européenne Computer vision.

L’image comme interlangue pour la traduction automatisée

L’une des applications prometteuses est l’apprentissage de traductions entre différentes langues sans annotation bilingue. Des 7000 langues parlées dans le monde, seulement 100 ont suffisamment de données transcrites pour la reconnaissance vocale. Si nous envisageons une situation dans laquelle des  personnes parlant différentes langues décrivent la même image, le système pourra de lui même apprendre que ces descriptions sont des traductions respectives. La vision jouera alors le rôle d’interlangue.

Il serait certainement également possible d’exploiter les films en audio-description afin d’aller plus loin. Pour le moment ce n’est pas encore possible car il est nécessaire que la description soit exactement synchronisée avec les images affichées, mais il serait tout à fait envisageable d’ajouter une tolérance temporelle.

Retrouvez les travaux de Harwath et Al ici.


1ère Marketplace de l'IA et de la transformation numérique vous recommande :
 
ActuIA

Partager l'article

Skoda ouvre son laboratoire dédié à l’intelligence artificielle pour améliorer sa production de véhicules électriques

Au sein de l'Université technique d'Ostrava, en République tchèque, le constructeur automobile Skoda a inauguré un laboratoire de production par intelligence artificielle (AIM.Lab). Cette...

Recevez le numéro 5 d’ActuIA, le magazine de l’intelligence artificielle

Le numéro 5 d’ActuIA, le magazine de l’intelligence artificielle, arrive en kiosques et en version numérique le 21 septembre 2021 ! Recevez-le directement chez...

Québec : création d’une chaire de recherche en numérique de la santé pour mieux soigner les maladies rares

Mieux comprendre les maladies rares afin de mieux les diagnostiquer et les traiter efficacement constitue un défi de taille en raison de la multiplicité...

Greenly lève 3 millions de dollars pour déployer sa solution de comptabilité carbone alimentée par l’IA

Greenly, une start-up technologique spécialisée dans l'aide aux organisations à réduire leurs émissions de dioxyde de carbone, a annoncé cette semaine une levée de...