Anthropic presenta Claude 4, sus agentes optimizados para la programación y tareas complejas

Anthropic acaba de revelar la nueva generación de sus modelos Claude con el lanzamiento de Claude Opus 4 y Claude Sonnet 4. Estos modelos están dirigidos explícitamente a casos de uso avanzados en codificación, razonamiento complejo y automatización por agentes, con un rendimiento que redefine la cúspide de los LLM actuales.

Dos modelos, dos usos, una ambición común

Claude Opus 4 es presentado por Anthropic como el mejor modelo de codificación del mundo, con resultados notables en los benchmarks SWE-bench (72,5%) y Terminal-bench (43,2%). Destinado a tareas largas y complejas, está diseñado para funcionar durante varias horas sin pérdida de rendimiento, lo que lo hace ideal para arquitecturas multi-agentes o flujos de trabajo industriales pesados.

Claude Sonnet 4, una versión más ligera pero poderosa, reemplaza a Sonnet 3.7 con una clara mejora en las tareas de codificación (72,7% en SWE-bench). Está diseñado para aplicaciones cotidianas que requieren una respuesta rápida pero fiable, incluso para los usuarios gratuitos.

Benchmarks y rendimiento: dominación en tareas reales

Claude 4 supera a GPT-4 y Gemini 2.5 en tareas de ingeniería de software reales (SWE-bench Verified).

Claude 4 se distingue no solo por sus capacidades de razonamiento, sino también por su capacidad para mantener un rumbo sin atajos lógicos. Según Anthropic, los dos modelos son 65% menos propensos a recurrir a "atajos" y bucles infinitos en tareas agenticas críticas que su predecesor.

Nuevas características técnicas

Los modelos Claude 4 inauguran el “pensamiento extendido” con herramientas integradas, permitiendo a la IA cambiar dinámicamente entre razonamiento y uso de herramientas (como una búsqueda web) durante una tarea.

Pueden:

Usar varias herramientas en paralelo
Retener información en archivos locales, simulando una memoria de trabajo
Generar resúmenes de razonamiento para mejorar la legibilidad de largas cadenas de pensamiento (chains of thoughts)

Claude Code: un "copiloto" de desarrollo autónomo

Ya en prueba en GitHub, Claude Code está disponible en versión estable. Este sistema ofrece integraciones nativas para VS Code y JetBrains, con sugerencias de código mostradas directamente en tus archivos.

También se pone a disposición un SDK para desarrollar tus propios agentes basados en Claude Code, con un ejemplo clave: una integración en GitHub que permite a Claude actuar automáticamente en PR, errores CI/CD, o refactorizaciones complejas.

Disponibilidad y precios

Los dos modelos están disponibles en:

Anthropic API
Amazon Bedrock
Google Vertex AI

💰 Precios:

Claude Opus 4: $15 / $75 por millón de tokens (entrada/salida)
Claude Sonnet 4: $3 / $15

👉 Para saber más o probar los modelos: claude.ai

Entre Gemini 2.5 Pro, OpenAI Codex y Claude 4, los editores de LLM parecen querer acelerar en la ayuda a la programación, una tarea de alto valor agregado para los LLM.

Stephane Nachez

Redacción de ActuIA — noticias, datos y análisis sobre inteligencia artificial para los responsables de decisiones.