IA générative : Anthropic dévoile la 3ème génération de sa famille de modèles Claude

Lundi dernier, Anthropic annonçait la dernière itération de sa famille de modèles d'IA générative : Claude 3. Le modèle se décline sous trois versions à l'instar du modèle Gemini de Google : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus, par ordre de performances. Les deux derniers modèles sont d'ores et déjà disponibles dans 159 pays, dont la France, via l'API Claude, Haiku, le plus léger, les y rejoindra prochainement. Selon Anthropic, les utilisateurs des modèles Claude 3 pourront désormais sélectionner l'équilibre optimal entre intelligence, vitesse et coût pour leur application spécifique. Claude 3 Haiku est le modèle le plus rapide et le plus économique : 0,25$ par million de tokens (jetons) en entrée et 1,25$ par million de tokens générés, et, selon la société, le plus rentable du marché "pour sa catégorie intelligence". Il peut lire un article de recherche dense en informations et en données sur arXiv (environ 10 000 jetons) avec des tableaux et des graphiques en moins de trois secondes. Claude 3 Sonnet, 2 fois plus rapide que Claude 2 et Claude 2.1 avec des niveaux d'intelligence plus élevés, combine performances et vitesse pour des tâches efficaces et à haut débit. Il excellerait dans les tâches exigeant des réponses rapides, comme la récupération de connaissances ou l'automatisation des ventes. Son coût est de 3$ par million de tokens en entrée et 15$ par million de tokens générés. Claude 3 Opus est le modèle le plus puissant des trois mais également le plus onéreux : 15$ par million de tokens en entrée, 75$ par million de tokens générés. Il peut gérer des analyses complexes, des tâches plus longues comportant plusieurs étapes, des tâches mathématiques et de codage d'ordre supérieur. Selon Anthropic :

"Il peut naviguer dans des invites ouvertes et des scénarios invisibles avec une fluidité remarquable et une compréhension humaine. Opus nous montre les limites extérieures de ce qui est possible avec l'IA générative".

Les trois modèles ont une fenêtre contextuelle de 200 000 jetons d'entrée, pouvant aller jusqu'à 1 million pour des cas d'utilisation spécifiques.

Evaluations des performances des modèles Claude 3

Les modèles Claude 3 présentent des capacités accrues en matière d'analyse et de prévision, de création de contenu nuancé, de génération de code et de conversation dans des langues autres que l'anglais comme l'espagnol, le japonais et le français. Selon les comparaisons d'Anthropic que l'on retrouve dans le tableau ci-dessous, Opus surpasse ses concurrents GPT-4 et Gemini Ultra sur la plupart des benchmarks d'évaluation courants des systèmes d'IA, notamment les connaissances expertes de premier cycle ( MMLU ou Massive Multitask Language Understanding), le raisonnement expert de niveau supérieur (GPQA) et les mathématiques de base (GSM8K). Pour la start-up, il se rapproche de l'AGI :

"Il présente des niveaux de compréhension et d’aisance quasi-humains sur des tâches complexes, à la pointe de l’intelligence générale".

Anthropic a tenu à préciser que des scores plus élevés pour un modèle GPT-4T plus récent avaient été rapportés. Les trois modèles peuvent traiter un large éventail de formats visuels, notamment des photos, des tableaux, des graphiques et des diagrammes techniques. Cependant, ils ne peuvent pas générer d'images, ni traiter d'audio ou de vidéo. Par rapport aux versions précédentes, ils font preuve d'une compréhension plus nuancée des demandes, et refusent beaucoup moins souvent de répondre à des invites inoffensives. Selon Anthropic, ils sont également beaucoup plus précis et leurs réponses plus fiables. Prochainement, il suffira de pointer sur les citations pour les retrouver dans le document traité par Claude 3. Outre l'API Claude, Sonnet est également disponible via Amazon Bedrock et en avant-première privée sur Vertex AI Model Garden de Google Cloud, Opus et Haiku le seront également. Anthropic conclut :

"Nous ne pensons pas que l'intelligence des modèles soit proche de ses limites et nous prévoyons de publier des mises à jour fréquentes de la famille de modèles Claude 3 au cours des prochains mois. Nous sommes également ravis de publier une série de fonctionnalités visant à améliorer les capacités de nos modèles, en particulier pour les cas d'utilisation en entreprise et les déploiements à grande échelle. Ces nouvelles fonctionnalités incluront l'utilisation d'outils (alias appel de fonction), le codage interactif (alias REPL) et des capacités agentiques plus avancées".

Google, Anthropic et Mistral AI talonnent aujourd'hui OpenAI qui a amélioré les capacités de GPT-4 avec GPT-4 Turbo avec Vision et pourrait prochainement creuser de nouveau l'écart avec GPT-5.

Marie-Claude Benoit

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

IA générative : Anthropic dévoile la 3ème génération de sa famille de modèles Claude

Evaluations des performances des modèles Claude 3

Anthropic dévoile Claude 4, ses agents optimisés pour la programmation et les tâches complexes

Anthropic présente Claude 3.7 Sonnet, le 1er modèle de raisonnement hybride

Claude Opus 4.8 : Anthropic met l’accent sur un modèle plus honnête face à ses propres erreurs