Intelligence artificielle Reconnaissance vocale : Pourquoi le Wake-Up Word de Google est-il si bien...

Pour approfondir le sujet

Sur le même thème :

Vivoka et sa solution d’intelligence artificielle à reconnaissance vocale 100% Made in France lève 1 million d’euros

La start-up Vivoka a annoncé avoir levé un million d'euros pour développer sa solution d’intelligence artificielle à reconnaissance vocale. Baptisé Lola, ce système veut se...

Focus sur 6 PME et start-ups accompagnées par CAP’TRONIC récompensées par les CES Award 2019

Le Consumer Electronics Show est le plus important salon consacré à l'innovation technologique en électronique grand public devenu incontournable pour les industriels du secteur....

Vivoka reçoit le prix de l’innovation du CES pour sa technologie de reconnaissance vocale

Le jury du Prix de l’Innovation du Consumer Electronics Show (CES) vient de le décerner à Vivoka pour récompenser sa technologie de reconnaissance vocale. L'annonce...

Le Voice Lab lève 4,7 millions d’euros pour développer une marketplace de solutions vocales

Le Voice Lab, une association française dédiée à la voix, a annoncé avoir obtenu une aide de 4,7 millions d'euros auprès de la Bpifrance, ...

Reconnaissance vocale : Pourquoi le Wake-Up Word de Google est-il si bien ?

“Ok Google, pourquoi ton wake-up word fonctionne-t-il aussi bien ?”, est une question que nous pourrions poser directement à l’assistant vocal de ce géant du numérique. Pourtant, la réponse serait très dure à obtenir de la part d’une intelligence artificielle du fait de la complexité de cette technologie. C’est là que Vivoka entre en action !

Pour rappel, le Wake-Up Word, aussi appelé Hot Word, est une brique, un module, de la reconnaissance vocale dans le sens global du terme. Il s’agit en fait d’un mot ou d’une suite de mots plus généralement qui vont servir à déclencher l’enregistrement vocal de l’utilisateur d’un système de reconnaissance vocale. Paradoxal vous nous direz, en tout cas si on fait une petite rétrospective de l’actualité Google on peut se rendre compte que leurs assistants aiment bien écouter un peu plus que ce qui est prévu. Ce “mot clé” comme le fameux “Ok Google” ou “Salut Zac” (moins connu mais en passe de l’être) servent à activer le système et ce pour deux raisons :

  • Respecter la vie privée des utilisateurs afin de n’enregistrer que la séquence qui va suivre le Wake-Up Word, donc celle qui correspond à l’intention.
  • Optimiser la consommation et la performance du système, car un enregistrement et une analyse constante des fichiers audio s’avèrent être des tâches très lourdes si elles sont réalisées en continu.

Maintenant que vous avez compris, ou en tout cas vous vous êtes souvenu, ce qu’est le Wake-up Word, nous pouvons attaquer le vif du sujet qui est de savoir ce qui fait sa qualité. En effet, sous son apparence assez simpliste et relevant plus d’une question d’image de marque à première vue, il s’agit d’un véritable casse-tête pour trouver LE bon mot.

En ce sens, la reconnaissance vocale de Google affiche un mot déclencheur plutôt exemplaire et ce pour plusieurs raisons.

Sa simplicité

Première bonne leçon de la part de Google et cela s’applique principalement au marketing ! En effet, leur Wake-up Word reprend le nom de leur marque qui s’ajoute à un mot très commun et simple à dire : “ok”. Ainsi, des milliers d’utilisateurs, qu’il s’agisse de l’assistant vocal ou de l’enceinte connectée, ne cessent de répéter Google lorsqu’ils interagissent avec les outils de la marque.

En termes de mémorisation de marque, quoi de mieux ? Déjà que le nom de Google est certainement l’un des moins méconnus de nos jours, on vous laisse imaginer la suite.

Son uniformité

À cela nous pouvons ajouter un aspect plus pragmatique très bien géré par la reconnaissance vocale de Google. Une des forces de son Wake-up Word réside dans son uniformité : quelles que soient les langues, “ok” et “Google” se disent de la même manière. Ceci s’avère très pratique et ce pour plusieurs raisons : un seul wake-up word est appliqué à l’ensemble des marchés couvert par Google ! Cela paraît anodin comme cela, pourtant il est très compliqué de décliner un Hot Word dans différentes langues tout en conservant cohérence et efficacité. En parlant d’efficacité, continuons sur le troisième point !

Son efficacité

Pour finir avec ces éloges, Google a mis la main sur une combinaison de mots particulièrement performante sur le plan technique de sa reconnaissance vocale. Effectivement, lorsqu’on imagine et développe un Wake-Up Word il est très important de faire attention aux faux-positifs, c’est-à-dire, des erreurs imprévues qui envoient des réponses positives alors qu’en réalité elles sont négatives. En effet les phonèmes, les plus petits éléments composants une fréquence audio (traduisant le son), sont très proches dans ce dernier cas, suite à une mauvaise prononciation, le système peut s’activer et enregistrer la conversation à l’insu des utilisateurs.

Ainsi, “Ok” et “Google” sont composés de phonèmes très différents et éloignés, cela a pour conséquence d’offrir un taux de faux-positifs très faible pour la reconnaissance vocale de Google.

Dans cet article, nous avons vu, à travers l’exemple de Google, ce qui fait un bon Wake-Up Word et les aspects importants à prendre en compte lorsqu’on le choisit. Pour développer des logiciels de reconnaissance vocale, il est primoridial d’avoir une connaissance des autres technologies, comme le NLP (Natural Language Processing) !

Contributeur expert

Aurélien Chapuzet

Aurélien Chapuzet est chargé de marketing digital et acquisition de lead pour l’entreprise Vi

Partager l'article

Deux ans après l’arrivée de ChatGPT, comment la GenAI transforme la recherche en ligne et le marketing

Alors que ChatGPT vient de fêter son second anniversaire et compte aujourd'hui plus de 300 millions d'utilisateurs hebdomadaires, le rapport "Online Search After ChatGPT:...

Llama 3.3 70B : Meta dévoile son dernier ajout à la famille Llama 3, un modèle particulièrement efficace

Alors que Meta prépare le lancement des premiers modèles Llama 4 pour le début de l'année prochaine, l'entreprise a dévoilé en fin de semaine...

AgentLab, un framework open source pour le développement et l’évaluation des agents Web

Lancé par ServiceNow, AgentLab est un framework open source visant à faciliter le développement et l'évaluation d'agents Web. Son objectif principal est de soutenir...

Pleias : des modèles de langages ouverts pour une IA éthique et transparente

Pleias, une start-up française, annonce le lancement de sa première famille de grands modèles de langage (LLM), définissant de nouvelles références en matière...