“Ok Google, pourquoi ton wake-up word fonctionne-t-il aussi bien ?”, est une question que nous pourrions poser directement à l’assistant vocal de ce géant du numérique. Pourtant, la réponse serait très dure à obtenir de la part d’une intelligence artificielle du fait de la complexité de cette technologie. C’est là que Vivoka entre en action !
Pour rappel, le Wake-Up Word, aussi appelé Hot Word, est une brique, un module, de la reconnaissance vocale dans le sens global du terme. Il s’agit en fait d’un mot ou d’une suite de mots plus généralement qui vont servir à déclencher l’enregistrement vocal de l’utilisateur d’un système de reconnaissance vocale. Paradoxal vous nous direz, en tout cas si on fait une petite rétrospective de l’actualité Google on peut se rendre compte que leurs assistants aiment bien écouter un peu plus que ce qui est prévu. Ce “mot clé” comme le fameux “Ok Google” ou “Salut Zac” (moins connu mais en passe de l’être) servent à activer le système et ce pour deux raisons :
- Respecter la vie privée des utilisateurs afin de n’enregistrer que la séquence qui va suivre le Wake-Up Word, donc celle qui correspond à l’intention.
- Optimiser la consommation et la performance du système, car un enregistrement et une analyse constante des fichiers audio s’avèrent être des tâches très lourdes si elles sont réalisées en continu.
Maintenant que vous avez compris, ou en tout cas vous vous êtes souvenu, ce qu’est le Wake-up Word, nous pouvons attaquer le vif du sujet qui est de savoir ce qui fait sa qualité. En effet, sous son apparence assez simpliste et relevant plus d’une question d’image de marque à première vue, il s’agit d’un véritable casse-tête pour trouver LE bon mot.
En ce sens, la reconnaissance vocale de Google affiche un mot déclencheur plutôt exemplaire et ce pour plusieurs raisons.
Sa simplicité
Première bonne leçon de la part de Google et cela s’applique principalement au marketing ! En effet, leur Wake-up Word reprend le nom de leur marque qui s’ajoute à un mot très commun et simple à dire : “ok”. Ainsi, des milliers d’utilisateurs, qu’il s’agisse de l’assistant vocal ou de l’enceinte connectée, ne cessent de répéter Google lorsqu’ils interagissent avec les outils de la marque.
En termes de mémorisation de marque, quoi de mieux ? Déjà que le nom de Google est certainement l’un des moins méconnus de nos jours, on vous laisse imaginer la suite.
Son uniformité
À cela nous pouvons ajouter un aspect plus pragmatique très bien géré par la reconnaissance vocale de Google. Une des forces de son Wake-up Word réside dans son uniformité : quelles que soient les langues, “ok” et “Google” se disent de la même manière. Ceci s’avère très pratique et ce pour plusieurs raisons : un seul wake-up word est appliqué à l’ensemble des marchés couvert par Google ! Cela paraît anodin comme cela, pourtant il est très compliqué de décliner un Hot Word dans différentes langues tout en conservant cohérence et efficacité. En parlant d’efficacité, continuons sur le troisième point !
Son efficacité
Pour finir avec ces éloges, Google a mis la main sur une combinaison de mots particulièrement performante sur le plan technique de sa reconnaissance vocale. Effectivement, lorsqu’on imagine et développe un Wake-Up Word il est très important de faire attention aux faux-positifs, c’est-à-dire, des erreurs imprévues qui envoient des réponses positives alors qu’en réalité elles sont négatives. En effet les phonèmes, les plus petits éléments composants une fréquence audio (traduisant le son), sont très proches dans ce dernier cas, suite à une mauvaise prononciation, le système peut s’activer et enregistrer la conversation à l’insu des utilisateurs.
Ainsi, “Ok” et “Google” sont composés de phonèmes très différents et éloignés, cela a pour conséquence d’offrir un taux de faux-positifs très faible pour la reconnaissance vocale de Google.
Dans cet article, nous avons vu, à travers l’exemple de Google, ce qui fait un bon Wake-Up Word et les aspects importants à prendre en compte lorsqu’on le choisit. Pour développer des logiciels de reconnaissance vocale, il est primoridial d’avoir une connaissance des autres technologies, comme le NLP (Natural Language Processing) !