OpenAI a récemment lancé Whisper, un modèle d’IA de 1,6 milliard de paramètres capable de transcrire et de traduire l’audio vocale de 97 langues différentes, affichant des performances robustes sur un large éventail de tâches de reconnaissance vocale automatisée (ASR). Le modèle formé sur 680 000 heures de données audio collectées sur le Web a très vite été publié en open source sur GitHub.
Le réseau neuronal Whisper
Whisper utilise une architecture transformer-encodeur-décodeur, l’audio d’entrée est divisée en morceaux de 30 secondes, convertie en spectrogramme log-Mel, puis passée dans un encodeur. Contrairement à la plupart des modèles ASR de pointe, il n’ a pas été ajusté à un ensemble de données spécifiques, il a au contraire été formé en utilisant une supervision faible sur un ensemble de données bruyantes à grande échelle collecté sur Internet. Bien qu’il ne batte pas les modèles spécialisés dans les performances LibriSpeech, lors des évaluations zero-shot sur un ensemble de données diverses, Whisper s’est révélé plus robuste et a fait 50% moins d’erreurs que ces modèles.
Selon OpenAI :
« Les principaux utilisateurs visés des modèles Whisper sont des chercheurs en IA qui étudient la robustesse, la généralisation, les capacités, les biais et les contraintes du modèle actuel. Cependant, Whisper est également potentiellement très utile en tant que solution de reconnaissance vocale automatique pour les développeurs, en particulier pour la reconnaissance vocale en anglais. »
Un modèle formé en partie avec des transcriptions bruyantes
La formation d’un modèle de DL de reconnaissance vocale utilisant uniquement l’apprentissage supervisé nécessite un grand ensemble de données, les chercheurs se tournent généralement vers l’apprentissage par transfert.
Les chercheurs ont choisi d’entraîner Whisper sur un grand ensemble de données audio, 680 000 heures dont « une grande quantité de transcriptions médiocres » récupérées sur Internet et dont 117 000 provenaient d’autres langues que l’anglais, le modèle étant alors chargé de transcrire dans la langue originale ou de traduire en anglais.
Bien que privilégiant la quantité à la qualité, le modèle obtient de bonnes performances zero-shot sur un large éventail de tâches, notamment la transcription dans plusieurs langues ainsi que la traduction et l’identification des langues.
Cependant, OpenAI reconnait que Whisper a ses limites, en particulier dans le domaine de la prédiction de texte. Etant donné qu’il a été entraîné sur une grande quantité de données bruyantes, il pourrait inclure des mots dans ses transcriptions qui n’ont pas été réellement prononcés. De plus, Whisper n’est pas également précis selon les langues, le taux d’erreur est plus élevé lorsqu’il s’agit de locuteurs de langues peu représentées dans les données d’entraînements.
OpenAI déclare sur GitHub :
« Bien que les modèles Whisper ne puissent pas être utilisés pour la transcription en temps réel, leur vitesse et leur taille suggèrent que d’autres peuvent être en mesure de créer des applications qui permettent la reconnaissance vocale et la traduction en temps quasi réel. La valeur réelle des applications bénéfiques construites sur les modèles Whisper suggère que les performances disparates de ces modèles peuvent avoir de réelles implications économiques… Nous espérons que la technologie sera utilisée principalement à des fins bénéfiques, rendre la technologie de reconnaissance vocale automatique plus accessible pourrait permettre à davantage d’acteurs de construire des technologies de surveillance capables ou d’intensifier les efforts de surveillance existants, car la vitesse et la précision permettent une transcription et une traduction automatiques abordables de grands volumes de communication audio. »