Kyutai présente Moshi : la première IA vocale générative open source

C’est à l’IRCAM (Institut de Recherche et Coordination Acoustique/Musique) que Kyutai a présenté ce mercredi 3 juillet, un peu moins de huit mois après son lancement, le prototype expérimental de son premier modèle d’IA générative doté de capacités vocales, à l’instar de GPT-4o : Moshi (Moshi-moshi signifie allo en japonais), qui a été entraîné à partir d’enregistrements d’appels passés entre 1994 et 2002 aux Etats-Unis.

C’est à Station F, lors de la conférence AI Pulse, organisée par Scaleway, filiale de l’entreprise Iliad fondée par Xavier Niel, que Kyutai a été lancé le 17 novembre dernier en présence de son équipe scientifique et de ses trois co-fondateurs : Xavier Niel, Rodolphe Saadé, fils du fondateur du groupe CMA CGM dont il assure la direction, et Eric Schmidt. Financé à hauteur de 300 millions d’euros, 100 millions d’euros d’Iliad, 100 du groupe CMA CGM et les 100 derniers restants via Schmidt Futures, l’entreprise philanthropique cofondée par Eric Schmidt et sa femme Wendy.

Ce laboratoire d’initiative privée à but non-lucratif, entièrement dédié à la recherche ouverte en IA, s’est donné pour objectif de développer des LLM pour s’attaquer “aux défis de l’IA moderne” en s’appuyant sur la puissance de calcul superpod Nabu 23 de Scaleway.

Moshi, la 1ère IA vocale accessible à tous

Il est désormais possible de communiquer de manière fluide, naturelle et expressive avec une IA. En seulement 6 mois, avec une équipe de 8 personnes, Kyutai a développé un modèle d’IA multimodal doté de capacités avancées de synthèse vocale et de reconnaissance des émotions.

Moshi a tout d’abord été entraîné avec le LLM Helium 7B puis avec un mix de données textuelles et audio. Pour lui apprendre à tenir une conversation, les chercheurs l’ont affiné avec des données synthétiques de dialogues. Ils ont travaillé avec une artiste nommée Alice pour la voix, les monologues ou dialogues ont permis d’entraîner le modèle text-to-speech à reconnaître 70 émotions. Moshi est donc capable d’adapter son ton, chuchoter, hésiter, faire des plaisanteries, prendre un accent. Son temps de latence est de seulement 160 millisecondes (contre 232 ms au minimum pour GPT-4o), ce qui donne vraiment l’impression de converser en temps réel.

Compact, Moshi peut également être installé localement et fonctionner en toute sécurité sur un appareil non connecté.

Pendant la présentation, l’équipe de Kyutai a interagi avec Moshi pour illustrer son potentiel en tant que coach ou compagnon, par exemple, et sa créativité à travers l’incarnation de personnages dans des jeux de rôle.

À la fin de la présentation, les participants – chercheurs, développeurs, entrepreneurs, investisseurs et journalistes – ont eux-mêmes pu interagir avec Moshi. Si vous désirez le faire vous aussi, il suffit pour vous inscrire sur la liste d’attente de remplir votre adresse mail, les conversations sont toutefois limitées à 5 mns.

Avec Moshi, Kyutai vise à soutenir la recherche ouverte en IA et à favoriser le développement de l’ensemble de l’écosystème. Le code et les poids des modèles seront bientôt accessibles librement, une première pour ce type de technologie. Ils seront utiles tant aux chercheurs qu’aux développeurs travaillant sur des produits et services basés sur la voix. Cette technologie pourra être examinée en détail, modifiée, étendue ou spécialisée selon les besoins. La communauté pourra enrichir la base de connaissances et la factualité de Moshi, actuellement délibérément restreintes dans un modèle aussi léger, tout en exploitant ses capacités d’interaction vocale exceptionnelles.