Anthropic svela Claude 4, i suoi agenti ottimizzati per la programmazione e i compiti complessi

Anthropic ha appena sollevato il velo sulla nuova generazione dei suoi modelli Claude con il lancio di Claude Opus 4 e Claude Sonnet 4. Questi modelli mirano esplicitamente a casi d'uso avanzati in codifica, ragionamento complesso e automazione tramite agenti, con prestazioni che ridefiniscono l'alto livello degli LLM attuali.

Due modelli, due usi, un'ambizione comune

Claude Opus 4 è presentato da Anthropic come il miglior modello di codifica al mondo, con risultati notevoli sui benchmark SWE-bench (72,5%) e Terminal-bench (43,2%). Destinato a compiti lunghi e complessi, è progettato per funzionare per diverse ore senza perdita di prestazioni, rendendolo ideale per architetture multi-agente o flussi di lavoro industriali pesanti.

Claude Sonnet 4, versione leggera ma potenziata, sostituisce Sonnet 3.7 con un netto miglioramento nei compiti di codifica (72,7% su SWE-bench). È progettato per le applicazioni quotidiane che richiedono una risposta rapida ma affidabile, incluso per gli utenti gratuiti.

Benchmark e prestazioni: dominazione sui compiti reali

Claude 4 supera GPT-4 e Gemini 2.5 su compiti di ingegneria del software reali (SWE-bench Verified).

Claude 4 si distingue non solo per le sue capacità di ragionamento, ma anche per la sua capacità di mantenere la rotta senza scorciatoie logiche. Secondo Anthropic, i due modelli sono 65% meno inclini a ricorrere a "scorciatoie" e cicli infiniti in compiti agentici critici rispetto al loro predecessore.

Nuove funzionalità tecniche

I modelli Claude 4 inaugurano l'“extended thinking” con strumenti integrati, permettendo all'IA di passare dinamicamente tra ragionamento e utilizzo di strumenti (come una ricerca web) durante un compito.

Possono:

Utilizzare più strumenti in parallelo
Memorizzare informazioni in file locali, simulando una memoria di lavoro
Generare riassunti di ragionamento per migliorare la leggibilità di lunghe catene di pensiero (chains of thoughts)

Claude Code: un "copilota" di sviluppo autonomo

Già in test su GitHub, Claude Code diventa disponibile in versione stabile. Questo sistema propone integrazioni native per VS Code e JetBrains, con suggerimenti di codice visualizzati direttamente nei tuoi file.

Un SDK è anche messo a disposizione per sviluppare i propri agenti basati su Claude Code, con un esempio chiave: un'integrazione GitHub che permette a Claude di agire automaticamente su PR, errori CI/CD o refactoring complessi.

Disponibilità e prezzi

I due modelli sono disponibili su:

Anthropic API
Amazon Bedrock
Google Vertex AI

💰 Prezzi:

Claude Opus 4: $15 / $75 per milione di token (input/output)
Claude Sonnet 4: $3 / $15

👉 Per saperne di più o testare i modelli: claude.ai

Tra Gemini 2.5 Pro, OpenAI Codex e Claude 4, gli editori di LLM sembrano tutti voler accelerare sull'assistenza alla programmazione, un compito ad alto valore aggiunto per gli LLM.

Stephane Nachez

Redazione ActuIA — notizie, dati e analisi sull'intelligenza artificiale per i decisori.