Snowflake annonce l'intégration de Llama 3.1 et l'open source de sa pile d'optimisation d'inférence

Snowflake annonce qu’il héberge et optimise la collection de LLM Llama 3.1 dans sa plateforme Snowflake Cortex AI, offrant aux entreprises un accès sécurisé et sans serveur au modèle open source le plus avancé de Meta, Llama 3.1 405B. Parallèlement, la société rend open source sa pile d’optimisation d’inférence et de fine-tuning pour les grands modèles de langage, démocratisant ainsi l’accès aux IA génératives pour les entreprises et la communauté open source.

Lancée en novembre dernier, Snowflake Cortex AI est une suite de fonctionnalités d’IA entièrement gérées, conçues pour permettre aux entreprises de créer et de déployer des applications d’IA génératives de manière sécurisée et sans serveur. Le service propose une interface de développement sans code, accessible aux utilisateurs de tous niveaux techniques. Il donne accès à des LLM de pointe, notamment ceux de Mistral AI, de Google et AI21 Labs, mais également à Snowflake Arctic, à Llama 3 (8B et 70B), aux LLM Reka-Core et désormais à la famille Llama 3.1.

Une collaboration stratégique pour l’innovation

Développée en collaboration avec des acteurs clés de l’IA, dont DeepSpeed, Hugging Face et vLLM, la pile d’optimisation de Snowflake offre des outils et des technologies pour optimiser l’inférence et le fine-tuning des LLMs de manière efficace et rentable. Cette initiative s’inscrit dans le cadre de l’engagement de Snowflake à fournir des solutions de pointe en matière d’intelligence artificielle tout en favorisant l’innovation ouverte.

Caractéristiques techniques et avantages

Optimisation de l’Inférence

Réduction de la latence : La pile permet de réduire la latence d’inférence jusqu’à trois fois par rapport aux solutions open source existantes, offrant ainsi une performance en temps réel indispensable pour les applications critiques ;
Augmentation du débit : Avec une amélioration du débit de 1,4 fois, les utilisateurs peuvent traiter un volume plus important de requêtes en moins de temps, optimisant ainsi l’efficacité opérationnelle.

Fine-tuning efficace

Utilisation minimale de ressources : Le fine-tuning des modèles massifs peut désormais être réalisé en utilisant un seul nœud GPU, réduisant considérablement les coûts et la complexité.
Support de fenêtres de contexte étendu : Avec une prise en charge des fenêtres de contexte allant jusqu’à 128K, les modèles peuvent gérer des contextes plus larges et produire des résultats plus cohérents et pertinents.

Llama 3.1 405B a ainsi été optimisé pour l’inférence en temps réel et à haut débit avec une fenêtre de contexte massive de 128K à l’aide d’un seul nœud GPU au sein de Cortex AI.

Vivek Raghunathan, VP of AI Engineering chez Snowflake, commente :

“Nous ne nous contentons pas de fournir les modèles de pointe de Meta à nos clients via Snowflake Cortex AI. Nous armons les entreprises et la communauté de l’IA avec de nouvelles recherches et un code open source supportant des fenêtres de contexte de 128K, l’inférence multi-nœuds, le parallélisme de pipeline, la quantization en virgule flottante de 8 bits, et bien plus, afin de faire progresser l’intelligence artificielle pour l’écosystème global.”

Engagement en matière de sécurité et de confiance

Snowflake a également intégré des mécanismes de sécurité avancés dans sa pile open source avec Snowflake Cortex Guard. Pour développer cette nouvelle fonctionnalité, l’entreprise a utilisé Llama Guard 2 de Meta, qui recourt à des algorithmes avancés pour détecter et filtrer automatiquement les contenus potentiellement nuisibles, offensants ou inappropriés dans les sorties des modèles de langage. Les applications d’IA construites sur cette pile sont ainsi protégées contre les contenus nuisibles.

Ryan Klapper, leader IA chez Hakkoda, assure :

“La sécurité et la confiance sont des impératifs business lorsqu’il s’agit d’exploiter l’intelligence artificielle générative, et Snowflake nous offre les garanties nécessaires pour innover et utiliser à grande échelle des grands modèles de langage de pointe. La combinaison des modèles Llama de Meta au sein de Snowflake Cortex AI nous ouvre encore plus de possibilités pour des applications internes basées sur les RAG, permettant à nos parties prenantes d’accéder à des informations précises et pertinentes”.