Selon OpenAI, ChatGPT peut maintenant voir, entendre et parler

OpenAI franchit une nouvelle étape dans le domaine de l’intelligence artificielle conversationnelle en déployant des fonctionnalités vocales et d’image révolutionnaires dans ChatGPT. Ces nouvelles fonctionnalités, qui seront déployées pour les utilisateurs Plus et Enterprise au cours des deux prochaines semaines, ouvrent la porte à une interaction plus intuitive et plus enrichissante avec l’IA.

Selon OpenAI, “la voix arrive sur iOS et Android (opt-in dans vos paramètres) et les images seront disponibles sur toutes les plateformes”.

Le chat vocal

Il était jusqu’alors possible de poser des questions sur l’application mobile de ChatGPT via des invites textuelles ou oralement, l’IA fournissait des réponses sous forme de texte, elle peut dorénavant le faire oralement.

Les utilisateurs peuvent lui demander des histoires au coucher pour leurs enfants ou de les aider à résoudre des problèmes mathématiques en utilisant la voix comme moyen d’interaction.

Cette nouvelle capacité vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son humain à partir de texte et de quelques secondes d’échantillon de discours. OpenAI a collaboré avec des doubleurs professionnels pour créer chacune des 5 voix synthétiques proposées et utilisé Whisper, son système de reconnaissance vocale open-source, pour transcrire les mots parlés en texte.

La plateforme de streaming Spotify utilise la nouvelle technologie de génération de voix d’OpenAI pour traduire les podcasts, qu’elle assure plus naturelle. ChatGPT pourrait ainsi remplacer les assistants vocaux comme Siri ou Alexa.

Cependant, OpenAI reste conscient des risques potentiels liés à cette technologie, notamment la possibilité d’usurpation d’identité vocale. Par conséquent, la technologie vocale est limitée au chat vocal et fait l’objet d’une utilisation responsable.

L’analyse d’images

OpenAI a également élargi les capacités de ChatGPT à la compréhension des images. Les utilisateurs peuvent télécharger une image ou une photo et selon la start-up, ChatGPT leur permettra de comprendre pourquoi leur gril ne démarre pas, explorera le contenu de leur réfrigérateur pour planifier un repas ou analysera un graphique complexe à la recherche de données liées au travail. Ils auront la possibilité de dessiner sur les images pour indiquer à ChatGPT où se concentrer.

Cette approche est rendue possible grâce aux modèles GPT-3.5 et GPT-4 multimodaux qui appliquent leur raisonnement linguistique à un large éventail d’images, y compris des photographies, des captures d’écran et des documents mixtes texte-image. OpenAI a collaboré avec Be My Eyes, une application mobile gratuite pour les personnes aveugles et malvoyantes, afin de comprendre les utilisations et les limites potentielles de ChatGPT dans le domaine de la vision.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb

— OpenAI (@OpenAI) September 25, 2023

OpenAI décourage toutefois les utilisations à risque élevé sans vérification appropriée et travaille activement pour améliorer la protection de la vie privée, notamment en limitant la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes.