Nuovo modello

Anthropic svela Claude 4, i suoi agenti ottimizzati per la programmazione e i compiti complessi

Anthropic svela Claude Opus 4 e Claude Sonnet 4, modelli IA per la programmazione e il ragionamento complesso. Claude Opus 4, progettato per compiti lunghi, mostra prestazioni impressionanti sui benchmark SWE e Terminal, mentre Claude Sonnet 4 offre risposte rapide per le applicazioni quotidiane.

STStephane Nachez · ·3 min
Anthropic svela Claude 4, i suoi agenti ottimizzati per la programmazione e i compiti complessi
Sommario

Anthropic ha appena sollevato il velo sulla nuova generazione dei suoi modelli Claude con il lancio di Claude Opus 4 e Claude Sonnet 4. Questi modelli mirano esplicitamente a casi d'uso avanzati in codifica, ragionamento complesso e automazione tramite agenti, con prestazioni che ridefiniscono l'alto livello degli LLM attuali.


Due modelli, due usi, un'ambizione comune

Claude Opus 4 è presentato da Anthropic come il miglior modello di codifica al mondo, con risultati notevoli sui benchmark SWE-bench (72,5%) e Terminal-bench (43,2%). Destinato a compiti lunghi e complessi, è progettato per funzionare per diverse ore senza perdita di prestazioni, rendendolo ideale per architetture multi-agente o flussi di lavoro industriali pesanti.

Claude Sonnet 4, versione leggera ma potenziata, sostituisce Sonnet 3.7 con un netto miglioramento nei compiti di codifica (72,7% su SWE-bench). È progettato per le applicazioni quotidiane che richiedono una risposta rapida ma affidabile, incluso per gli utenti gratuiti.


Benchmark e prestazioni: dominazione sui compiti reali

 

Claude 4 supera GPT-4 e Gemini 2.5 su compiti di ingegneria del software reali (SWE-bench Verified).

Claude 4 si distingue non solo per le sue capacità di ragionamento, ma anche per la sua capacità di mantenere la rotta senza scorciatoie logiche. Secondo Anthropic, i due modelli sono 65% meno inclini a ricorrere a "scorciatoie" e cicli infiniti in compiti agentici critici rispetto al loro predecessore.

Nuove funzionalità tecniche

I modelli Claude 4 inaugurano l'“extended thinking” con strumenti integrati, permettendo all'IA di passare dinamicamente tra ragionamento e utilizzo di strumenti (come una ricerca web) durante un compito.

Possono:

  • Utilizzare più strumenti in parallelo

  • Memorizzare informazioni in file locali, simulando una memoria di lavoro

  • Generare riassunti di ragionamento per migliorare la leggibilità di lunghe catene di pensiero (chains of thoughts)

Claude Code: un "copilota" di sviluppo autonomo

Già in test su GitHub, Claude Code diventa disponibile in versione stabile. Questo sistema propone integrazioni native per VS Code e JetBrains, con suggerimenti di codice visualizzati direttamente nei tuoi file.

Un SDK è anche messo a disposizione per sviluppare i propri agenti basati su Claude Code, con un esempio chiave: un'integrazione GitHub che permette a Claude di agire automaticamente su PR, errori CI/CD o refactoring complessi.

Disponibilità e prezzi

I due modelli sono disponibili su:

  • Anthropic API

  • Amazon Bedrock

  • Google Vertex AI

💰 Prezzi:

  • Claude Opus 4: $15 / $75 per milione di token (input/output)

  • Claude Sonnet 4: $3 / $15

👉 Per saperne di più o testare i modelli: claude.ai

 

Tra Gemini 2.5 Pro, OpenAI Codex e Claude 4, gli editori di LLM sembrano tutti voler accelerare sull'assistenza alla programmazione, un compito ad alto valore aggiunto per gli LLM.

ST
Stephane Nachez

Redazione ActuIA — notizie, dati e analisi sull'intelligenza artificiale per i decisori.

Attori citati
ANAnthropic
JEJetBrains
AMAmazon
GOGoogle
OPOpenAI
GIGithub
Il Settimanale ActuIA

Iscrizione confermata, a presto!