Intelligence artificielle Reconnaissance vocale : Pourquoi le Wake-Up Word de Google est-il si bien...

Pour approfondir le sujet

Sur le même thème :

Vivoka et sa solution d’intelligence artificielle à reconnaissance vocale 100% Made in France lève 1 million d’euros

La start-up Vivoka a annoncé avoir levé un million d'euros pour développer sa solution d’intelligence artificielle à reconnaissance vocale. Baptisé Lola, ce système veut se...

Focus sur 6 PME et start-ups accompagnées par CAP’TRONIC récompensées par les CES Award 2019

Le Consumer Electronics Show est le plus important salon consacré à l'innovation technologique en électronique grand public devenu incontournable pour les industriels du secteur....

Vivoka reçoit le prix de l’innovation du CES pour sa technologie de reconnaissance vocale

Le jury du Prix de l’Innovation du Consumer Electronics Show (CES) vient de le décerner à Vivoka pour récompenser sa technologie de reconnaissance vocale. L'annonce...

Le Voice Lab lève 4,7 millions d’euros pour développer une marketplace de solutions vocales

Le Voice Lab, une association française dédiée à la voix, a annoncé avoir obtenu une aide de 4,7 millions d'euros auprès de la Bpifrance, ...

Reconnaissance vocale : Pourquoi le Wake-Up Word de Google est-il si bien ?

“Ok Google, pourquoi ton wake-up word fonctionne-t-il aussi bien ?”, est une question que nous pourrions poser directement à l’assistant vocal de ce géant du numérique. Pourtant, la réponse serait très dure à obtenir de la part d’une intelligence artificielle du fait de la complexité de cette technologie. C’est là que Vivoka entre en action !

Pour rappel, le Wake-Up Word, aussi appelé Hot Word, est une brique, un module, de la reconnaissance vocale dans le sens global du terme. Il s’agit en fait d’un mot ou d’une suite de mots plus généralement qui vont servir à déclencher l’enregistrement vocal de l’utilisateur d’un système de reconnaissance vocale. Paradoxal vous nous direz, en tout cas si on fait une petite rétrospective de l’actualité Google on peut se rendre compte que leurs assistants aiment bien écouter un peu plus que ce qui est prévu. Ce “mot clé” comme le fameux “Ok Google” ou “Salut Zac” (moins connu mais en passe de l’être) servent à activer le système et ce pour deux raisons :

  • Respecter la vie privée des utilisateurs afin de n’enregistrer que la séquence qui va suivre le Wake-Up Word, donc celle qui correspond à l’intention.
  • Optimiser la consommation et la performance du système, car un enregistrement et une analyse constante des fichiers audio s’avèrent être des tâches très lourdes si elles sont réalisées en continu.

Maintenant que vous avez compris, ou en tout cas vous vous êtes souvenu, ce qu’est le Wake-up Word, nous pouvons attaquer le vif du sujet qui est de savoir ce qui fait sa qualité. En effet, sous son apparence assez simpliste et relevant plus d’une question d’image de marque à première vue, il s’agit d’un véritable casse-tête pour trouver LE bon mot.

En ce sens, la reconnaissance vocale de Google affiche un mot déclencheur plutôt exemplaire et ce pour plusieurs raisons.

Sa simplicité

Première bonne leçon de la part de Google et cela s’applique principalement au marketing ! En effet, leur Wake-up Word reprend le nom de leur marque qui s’ajoute à un mot très commun et simple à dire : “ok”. Ainsi, des milliers d’utilisateurs, qu’il s’agisse de l’assistant vocal ou de l’enceinte connectée, ne cessent de répéter Google lorsqu’ils interagissent avec les outils de la marque.

En termes de mémorisation de marque, quoi de mieux ? Déjà que le nom de Google est certainement l’un des moins méconnus de nos jours, on vous laisse imaginer la suite.

Son uniformité

À cela nous pouvons ajouter un aspect plus pragmatique très bien géré par la reconnaissance vocale de Google. Une des forces de son Wake-up Word réside dans son uniformité : quelles que soient les langues, “ok” et “Google” se disent de la même manière. Ceci s’avère très pratique et ce pour plusieurs raisons : un seul wake-up word est appliqué à l’ensemble des marchés couvert par Google ! Cela paraît anodin comme cela, pourtant il est très compliqué de décliner un Hot Word dans différentes langues tout en conservant cohérence et efficacité. En parlant d’efficacité, continuons sur le troisième point !

Son efficacité

Pour finir avec ces éloges, Google a mis la main sur une combinaison de mots particulièrement performante sur le plan technique de sa reconnaissance vocale. Effectivement, lorsqu’on imagine et développe un Wake-Up Word il est très important de faire attention aux faux-positifs, c’est-à-dire, des erreurs imprévues qui envoient des réponses positives alors qu’en réalité elles sont négatives. En effet les phonèmes, les plus petits éléments composants une fréquence audio (traduisant le son), sont très proches dans ce dernier cas, suite à une mauvaise prononciation, le système peut s’activer et enregistrer la conversation à l’insu des utilisateurs.

Ainsi, “Ok” et “Google” sont composés de phonèmes très différents et éloignés, cela a pour conséquence d’offrir un taux de faux-positifs très faible pour la reconnaissance vocale de Google.

Dans cet article, nous avons vu, à travers l’exemple de Google, ce qui fait un bon Wake-Up Word et les aspects importants à prendre en compte lorsqu’on le choisit. Pour développer des logiciels de reconnaissance vocale, il est primoridial d’avoir une connaissance des autres technologies, comme le NLP (Natural Language Processing) !

Contributeur expert

Aurélien Chapuzet

Aurélien Chapuzet est chargé de marketing digital et acquisition de lead pour l’entreprise Vi

Partager l'article

ActuIA lance le podcast “Dialogue Machine” animé par Thibault Neveu

A travers cette série de podcasts présentée par Thibault Neveu, nous voulons faire écho à la diversité des points de vue qui façonnent le...

Nouvelle avancée d’OpenAI avec GPT-4o, un modèle qui fusionne le traitement de l’audio, de la vision et du texte en temps réel

Alors que les spéculations allaient bon train sur l'arrivée prochaine de GPT-5, OpenAI crée une fois de plus la surprise en présentant ce 13...

Le pari français de Microsoft : un investissement de 4 milliards d’euros pour accélérer l’adoption de l’IA

Microsoft a annoncé dernièrement ses plus gros investissements pour ses infrastructures d'IA et de cloud dans différents pays, la France en fait désormais partie....

Le Forum TERATEC, plus grand événement en France dédié aux technologies du numérique et du calcul intensif

Couplée au Cloud, l'intelligence artificielle (IA) vient brouiller les frontières et les barrières technologiques, notamment en termes de puissance de calcul et de transfert...