"Il peut naviguer dans des invites ouvertes et des scénarios invisibles avec une fluidité remarquable et une compréhension humaine. Opus nous montre les limites extérieures de ce qui est possible avec l'IA générative".
Les trois modèles ont une fenêtre contextuelle de 200 000 jetons d'entrée, pouvant aller jusqu'à 1 million pour des cas d'utilisation spécifiques.Evaluations des performances des modèles Claude 3
Les modèles Claude 3 présentent des capacités accrues en matière d'analyse et de prévision, de création de contenu nuancé, de génération de code et de conversation dans des langues autres que l'anglais comme l'espagnol, le japonais et le français. Selon les comparaisons d'Anthropic que l'on retrouve dans le tableau ci-dessous, Opus surpasse ses concurrents GPT-4 et Gemini Ultra sur la plupart des benchmarks d'évaluation courants des systèmes d'IA, notamment les connaissances expertes de premier cycle ( MMLU ou Massive Multitask Language Understanding), le raisonnement expert de niveau supérieur (GPQA) et les mathématiques de base (GSM8K). Pour la start-up, il se rapproche de l'AGI :"Il présente des niveaux de compréhension et d’aisance quasi-humains sur des tâches complexes, à la pointe de l’intelligence générale".
Anthropic a tenu à préciser que des scores plus élevés pour un modèle GPT-4T plus récent avaient été rapportés.
Les trois modèles peuvent traiter un large éventail de formats visuels, notamment des photos, des tableaux, des graphiques et des diagrammes techniques. Cependant, ils ne peuvent pas générer d'images, ni traiter d'audio ou de vidéo.
Par rapport aux versions précédentes, ils font preuve d'une compréhension plus nuancée des demandes, et refusent beaucoup moins souvent de répondre à des invites inoffensives. Selon Anthropic, ils sont également beaucoup plus précis et leurs réponses plus fiables. Prochainement, il suffira de pointer sur les citations pour les retrouver dans le document traité par Claude 3.
Outre l'API Claude, Sonnet est également disponible via Amazon Bedrock et en avant-première privée sur Vertex AI Model Garden de Google Cloud, Opus et Haiku le seront également.
Anthropic conclut :
"Nous ne pensons pas que l'intelligence des modèles soit proche de ses limites et nous prévoyons de publier des mises à jour fréquentes de la famille de modèles Claude 3 au cours des prochains mois. Nous sommes également ravis de publier une série de fonctionnalités visant à améliorer les capacités de nos modèles, en particulier pour les cas d'utilisation en entreprise et les déploiements à grande échelle. Ces nouvelles fonctionnalités incluront l'utilisation d'outils (alias appel de fonction), le codage interactif (alias REPL) et des capacités agentiques plus avancées".
Google, Anthropic et Mistral AI talonnent aujourd'hui OpenAI qui a amélioré les capacités de GPT-4 avec GPT-4 Turbo avec Vision et pourrait prochainement creuser de nouveau l'écart avec GPT-5.