Cohere For AI lance Aya 23 pour faire avancer le multilinguisme en IA

En juin 2022, la licorne canadienne Cohere lançait “Cohere For AI”, un laboratoire de recherche à but non lucratif et une communauté dédiée à contribuer à la recherche fondamentale en apprentissage automatique open-source. Cohere For AI a récemment dévoilé Aya 23, une nouvelle famille de grands modèles de langage multilingues. Les poids des deux versions d’Aya 23, comptant 8 milliards et 35 milliards de paramètres, sont disponibles sur Hugging Face.

Le développement des modèles Aya 23 s’appuie sur le jeu de de données Aya, une collection pour le réglage d’instructions open source comprenant 513 millions d’invites et de réponses LLM en 114 langues. Ce projet lancé par Cohere pour “aider à la prise en charge des langues sous-représentées” a rassemblé 3 000 contributeurs du monde entier, permettant de créer le plus grand ensemble de données multilingues à ce jour et de développer le modèle Aya 101, publié en open source en février dernier.

Alors qu’Aya 101 couvrait 101 langues, Cohere passe de l’étendue à la profondeur avec Aya 23 qui associe un modèle pré-entraîné très performant à la collection Aya pour offrir des performances robustes dans 23 langues (Arabe, chinois (simplifié et traditionnel), tchèque, néerlandais, anglais, français, allemand, grec, hébreu, hindi, indonésien, italien, japonais, coréen, persan, polonais, portugais, roumain, russe, espagnol, turc, ukrainien et vietnamien), atteignant ainsi près de la moitié de la population mondiale.

La famille de modèles Aya 23 repose sur une architecture Transformer uniquement décodeur et est basée sur les modèles phares Command de Cohere, Aya-23-35B sur une version affinée de Command R.

Tandis qu’Aya 23-8B est conçu pour offrir un équilibre optimal entre performance et efficacité des ressources, Aya 23-35B est destiné à des cas d’utilisation plus complexes et à des besoins de performance plus élevés.

Performances des modèles Aya 23

Cohere for AI a comparé les performances d’Aya 23 à celles de modèles open source massivement multilingues tels que Aya-101 et de modèles à poids ouvert largement utilisés. Il surpasse des modèles largement utilisés comme Gemma, Mistral 7B Intstruct et Mixtral sur une vaste gamme de tâches discriminatives et génératives.

35B Aya 23 a obtenu les résultats les plus élevés sur tous les benchmarks pour les langues couvertes, tandis que 8B Aya 23 a démontré les meilleures performances multilingues de sa catégorie.