Aleph Alpha dévoile la famille Pharia-1-LLM : des modèles d'IA transparents et conformes aux exigences de L'UE

Si l’arrivée de LLMs au nombre de paramètres époustouflants a suscité l’enthousiasme, les entreprises qui désirent intégrer la GenAI dans leurs flux de travail hésitent à le faire en raison des coûts et des ressources nécessaires. Les acteurs de l’IA l’ont bien compris et proposent aujourd’hui des modèles plus légers, adaptés à des tâches spécifiques, à l’instar d’Aleph Alpha, avec sa famille Pharia-1-LLM et ses “seulement” 7 milliards de paramètres.

Basée à Heidelberg en Allemagne, la start-up Aleph Alpha a pour ambition de faire de l’UE un des leaders dans le domaine de l’IA et de consolider sa souveraineté numérique.

Elle se positionne comme un acteur clé de l’IA explicable et digne de confiance, ce qui est essentiel pour les agences gouvernementales et les entreprises qui cherchent à construire et à appliquer l’IA dans un environnement souverain, tout en garantissant la protection et la sécurité des données. Cette approche lui a permis de lever l’an passé près de 467 millions d’euros, un montant record pour une start-up d’IA européenne.

Des modèles optimisés pour l’Europe

Les deux modèles Pharia-1-LLM-7B-control et Pharia-1-LLM-7B-control-aligned, disponibles au public sous sa licence “Open Aleph”, autorisant la recherche non commerciale et l’utilisation éducative, ont été entraînés sur un vaste corpus multilingue et optimisés pour les langues européennes.

Le modèle Pharia-1-LLM-7B-control a été conçu pour fournir des réponses concises dont la longueur peut être contrôlée, répondant ainsi aux besoins d’une grande variété d’applications. Optimisé pour exceller dans les secteurs de l’automobile et de l’ingénierie, ce modèle se distingue par son efficacité de jeton améliorée et sa capacité à s’aligner sur les préférences des utilisateurs. Il se révèle particulièrement performant dans les applications spécifiques à un domaine, où des réponses précises et directes sont cruciales.

Le développement de Pharia-1-LLM-7B-control s’est appuyé sur un ensemble de données multilingues (anglais, allemand, Français, espagnol, italien, portugais et néerlandais) soigneusement sélectionné, en conformité avec les réglementations européennes et nationales, notamment en matière de droit d’auteur et de confidentialité des données. Le modèle a été entraîné en utilisant des techniques de pointe, notamment la Grouped Query Attention (QGA) pour améliorer les performances en temps d’inférence et une base rotative plus large pour une meilleure capacité de contexte long.

L’entraînement de Pharia-1-LLM-7B s’est déroulé en deux étapes. Dans un premier temps, le modèle a été pré-entraîné sur un ensemble de données de 4,7 billions de jetons avec une longueur de séquence de 8 192 jetons, à l’aide de 256 GPU A100. Il a ensuite entraîné sur un nouveau mélange de données de 3 billions de jetons supplémentaires, en utilisant 256 GPU H100.

La variante Pharia-1-LLM-7B-control-aligned a été développée avec des garde-fous supplémentaires, grâce à des méthodes d’alignement sophistiquées. Ce modèle est parfaitement adapté aux applications conversationnelles, telles que les chatbots et les assistants virtuels, où la sécurité et la clarté des réponses sont primordiales. Les ajustements apportés via un processus d’alignement minutieux garantissent que ce modèle respecte les intentions de l’utilisateur tout en évitant les comportements indésirables.

Évaluation et performance

Les modèles Pharia-1-LLM-7B-control et Pharia-1-LLM-7B-control-aligned ont été rigoureusement évalués par rapport aux modèles multilingues open source de taille similaire Mistral-7B-Instruct-v0.3 de Mistral AI et Llama-3.1-8b-instruct de Meta. Ils ont démontré des performances comparables, voire supérieures, à ces derniers, notamment en matière de traitement multilingue.

Les modèles et les évaluations sont disponibles sur Hugging Face.