Actualité Reconnaissance vocale : Pourquoi le Wake-Up Word de Google est-il si bien...

Pour approfondir le sujet

Détourer des images rapidement sur Adobe Photoshop grâce à l’intelligence artificielle c’est possible

L'an dernier, Adobe Photoshop avait annoncé l'arrivée d'une nouvelle fonctionnalité : Select Subject. Présentée notamment dans la vidéo ci-dessus, elle permettait de détourer rapidement,...

La start-up Corti.ai a developpé un système d’intelligence artificielle pour diagnostiquer une situation médicale d’urgence

La start-up danoise Corti.ai a dévoilé un système intelligent, capable d'identifier lors d'un appel d'urgence si la personne est en situation de détresse grave....

Le projet européen MAGIA ouvre de nouvelles portes vers la Chine et les Etats-Unis pour les PME du pôle de compétitivité Lyonbiopôle

8 accords de partenariats (dits MoU – Memorandum of Understanding) – un avec les Etats-Unis et 7 avec la Chine - ont été signés...

Synapse Développement dévoile « CLEAR », projet de R&D en Intelligence Artificielle pour faciliter la communication Médecins/Patients

L’Intelligence Artificielle au service de la santé : «CLEAR» est un projet d’assistant personnel médical pour faciliter l’échange et la compréhension d’informations entre les...

Reconnaissance vocale : Pourquoi le Wake-Up Word de Google est-il si bien ?

“Ok Google, pourquoi ton wake-up word fonctionne-t-il aussi bien ?”, est une question que nous pourrions poser directement à l’assistant vocal de ce géant du numérique. Pourtant, la réponse serait très dure à obtenir de la part d’une intelligence artificielle du fait de la complexité de cette technologie. C’est là que Vivoka entre en action !

Pour rappel, le Wake-Up Word, aussi appelé Hot Word, est une brique, un module, de la reconnaissance vocale dans le sens global du terme. Il s’agit en fait d’un mot ou d’une suite de mots plus généralement qui vont servir à déclencher l’enregistrement vocal de l’utilisateur d’un système de reconnaissance vocale. Paradoxal vous nous direz, en tout cas si on fait une petite rétrospective de l’actualité Google on peut se rendre compte que leurs assistants aiment bien écouter un peu plus que ce qui est prévu. Ce “mot clé” comme le fameux “Ok Google” ou “Salut Zac” (moins connu mais en passe de l’être) servent à activer le système et ce pour deux raisons :

  • Respecter la vie privée des utilisateurs afin de n’enregistrer que la séquence qui va suivre le Wake-Up Word, donc celle qui correspond à l’intention.
  • Optimiser la consommation et la performance du système, car un enregistrement et une analyse constante des fichiers audio s’avèrent être des tâches très lourdes si elles sont réalisées en continu.

Maintenant que vous avez compris, ou en tout cas vous vous êtes souvenu, ce qu’est le Wake-up Word, nous pouvons attaquer le vif du sujet qui est de savoir ce qui fait sa qualité. En effet, sous son apparence assez simpliste et relevant plus d’une question d’image de marque à première vue, il s’agit d’un véritable casse-tête pour trouver LE bon mot.

En ce sens, la reconnaissance vocale de Google affiche un mot déclencheur plutôt exemplaire et ce pour plusieurs raisons.

Sa simplicité

Première bonne leçon de la part de Google et cela s’applique principalement au marketing ! En effet, leur Wake-up Word reprend le nom de leur marque qui s’ajoute à un mot très commun et simple à dire : “ok”. Ainsi, des milliers d’utilisateurs, qu’il s’agisse de l’assistant vocal ou de l’enceinte connectée, ne cessent de répéter Google lorsqu’ils interagissent avec les outils de la marque.

En termes de mémorisation de marque, quoi de mieux ? Déjà que le nom de Google est certainement l’un des moins méconnus de nos jours, on vous laisse imaginer la suite.

Son uniformité

À cela nous pouvons ajouter un aspect plus pragmatique très bien géré par la reconnaissance vocale de Google. Une des forces de son Wake-up Word réside dans son uniformité : quelles que soient les langues, “ok” et “Google” se disent de la même manière. Ceci s’avère très pratique et ce pour plusieurs raisons : un seul wake-up word est appliqué à l’ensemble des marchés couvert par Google ! Cela paraît anodin comme cela, pourtant il est très compliqué de décliner un Hot Word dans différentes langues tout en conservant cohérence et efficacité. En parlant d’efficacité, continuons sur le troisième point !

Son efficacité

Pour finir avec ces éloges, Google a mis la main sur une combinaison de mots particulièrement performante sur le plan technique de sa reconnaissance vocale. Effectivement, lorsqu’on imagine et développe un Wake-Up Word il est très important de faire attention aux faux-positifs, c’est-à-dire, des erreurs imprévues qui envoient des réponses positives alors qu’en réalité elles sont négatives. En effet les phonèmes, les plus petits éléments composants une fréquence audio (traduisant le son), sont très proches dans ce dernier cas, suite à une mauvaise prononciation, le système peut s’activer et enregistrer la conversation à l’insu des utilisateurs.

Ainsi, “Ok” et “Google” sont composés de phonèmes très différents et éloignés, cela a pour conséquence d’offrir un taux de faux-positifs très faible pour la reconnaissance vocale de Google.

Dans cet article, nous avons vu, à travers l’exemple de Google, ce qui fait un bon Wake-Up Word et les aspects importants à prendre en compte lorsqu’on le choisit. Pour développer des logiciels de reconnaissance vocale, il est primoridial d’avoir une connaissance des autres technologies, comme le NLP (Natural Language Processing) !

Contributeur expert

Aurélien Chapuzet

Aurélien Chapuzet est chargé de marketing digital et acquisition de lead pour l’entreprise Vi

Partager l'article

Lancement du Collectif International technologique Intelligence Artificielle du Village Francophone à l’occasion de Vivatech

Le Village Francophone, moteur de l'animation de délégations francophones lors d'événements nationaux et internationaux, a lancé son collectif IA ce mardi 16/06 à l'occasion...

TALia : le laboratoire de recherche de onepoint et Télécom Paris autour du traitement du langage naturel

Télécom Paris, école d'ingénieur spécialisée dans le numérique, et onepoint, une entreprise française spécialisée dans la transformation numérique, vont lancer ensemble un laboratoire de...

Tractable, spécialiste des solutions de vision par ordinateur pour les assurances, devient une licorne

Tractable, une entreprise développant des systèmes d'intelligence artificielle au service de la gestion des sinistres et accidents vient de lever la somme de 60...

Le projet CETI : comprendre la langue des cachalots grâce à des outils d’intelligence artificielle

Comprendre la langue utilisée par les animaux est un des enjeux de certains scientifiques : c'est notamment le cas de Denise Herzing qui étudie,...