Anthropic rilascia Claude 4: un avanzamento nel coding, nel ragionamento e negli agenti AI

Anthropic Claude 4

Anthropic ha presentato la nuova generazione di modelli Claude: Claude Opus 4 e Claude Sonnet 4: secondo l’AI company, definiscono nuovi standard per il coding, il ragionamento avanzato e gli agenti AI.

Non usa mezzi termini Anthropic e presenta Claude Opus 4 come il miglior modello per il  coding al mondo, con prestazioni sostenute su compiti complessi e di lunga durata e sui flussi di lavoro degli agenti.

Claude Sonnet 4 è descritto dall’azienda come un aggiornamento significativo di Claude Sonnet 3.7, che offre una scrittura di codice e un ragionamento di qualità superiore e risponde in modo più preciso alle istruzioni degli utenti.

Oltre ai modelli, Anthropic ha annunciato anche una serie di altre novità. La prima è l’Extended thinking with tool use (beta): entrambi i modelli possono utilizzare strumenti come la ricerca sul web durante il pensiero esteso, consentendo a Claude di alternare il ragionamento all’uso di strumenti per migliorare le risposte.

Nuove capacità del modello: entrambi i modelli possono usare gli strumenti in parallelo, seguire le istruzioni in modo più preciso e, quando gli sviluppatori danno accesso ai file locali, dimostrano capacità di memoria notevolmente migliorate, estraendo e salvando fatti chiave per mantenere la continuità e costruire una conoscenza tacita nel tempo.

Claude Code è ora generalmente disponibile: dopo aver ricevuto un ampio feedback positivo durante l’anteprima di ricerca, Anthropic sta ampliando il modo in cui gli sviluppatori possono collaborare con Claude. Claude Code supporta ora le attività in background tramite le azioni GitHub e le integrazioni native con VS Code e JetBrains, visualizzando le modifiche direttamente nei file per un pair programming senza soluzione di continuità.

Nuove funzionalità API: l’azienda sta rilasciando quattro nuove funzionalità dell’API Anthropic che consentono agli sviluppatori di creare agenti AI più potenti: lo strumento di esecuzione del codice, il connettore MCP, l’API Files e la possibilità di memorizzare nella cache i prompt fino a un’ora.

Claude Opus 4 e Sonnet 4 – spiega Anthropic – sono modelli ibridi che offrono due modalità: risposte quasi immediate e pensiero esteso per ragionamenti più profondi. I piani Claude Pro, Max, Team ed Enterprise includono entrambi i modelli e il pensiero esteso, mentre Sonnet 4 è disponibile anche per gli utenti gratuiti. Entrambi i modelli sono disponibili su Anthropic API, Amazon Bedrock e Vertex AI di Google Cloud. I prezzi rimangono in linea con i precedenti modelli Opus e Sonnet: Opus 4 a 15/75 dollari per milione di token (input/output) e Sonnet 4 a 3/15 dollari.

Anthropic Claude 4Anthropic afferma che Claude Opus 4 è il suo modello più potente e il miglior modello di coding al mondo, in testa a SWE-bench (72,5%) e Terminal-bench (43,2%). Offre prestazioni sostenute su compiti di lunga durata che richiedono uno sforzo mirato e migliaia di passaggi, con la capacità di lavorare ininterrottamente per diverse ore – superando drasticamente tutti i modelli Sonnet e ampliando in modo significativo ciò che gli agenti AI possono realizzare.

Claude Opus 4 eccelle nel coding e nella risoluzione di problemi complessi, alimentando prodotti di agenti di frontiera. Cursor lo definisce lo stato dell’arte della programmazione e un balzo in avanti nella comprensione di basi di codice complesse. Replit riferisce di una maggiore precisione e di progressi notevoli per le modifiche complesse su più file. Block lo definisce il primo modello in grado di migliorare la qualità del codice durante la modifica e il debug nel suo agente, nome in codice goose, mantenendo al contempo prestazioni e affidabilità complete. Rakuten ha convalidato le sue capacità con un impegnativo refactor open-source eseguito in modo indipendente per 7 ore con prestazioni sostenute. Cognition osserva che Opus 4 eccelle nel risolvere sfide complesse che altri modelli non sono in grado di risolvere, gestendo con successo azioni critiche che i modelli precedenti hanno mancato.

GitHub afferma che Claude Sonnet 4 si distingue negli scenari agenziali e lo introdurrà come modello di base per il nuovo agente di coding in GitHub Copilot. Manus sottolinea i suoi miglioramenti nel seguire istruzioni complesse, nel ragionamento chiaro e nei risultati estetici. iGent riferisce che Sonnet 4 eccelle nello sviluppo autonomo di app con più funzioni, oltre a migliorare sostanzialmente la risoluzione dei problemi e la navigazione nella codebase, riducendo gli errori di navigazione dal 20% a quasi zero. Secondo Sourcegraph, il modello è promettente come salto di qualità nello sviluppo del software: rimane in pista più a lungo, comprende i problemi in modo più approfondito e fornisce una qualità del codice più elegante. Augment Code riporta tassi di successo più elevati, modifiche del codice più “chirurgiche” e un lavoro più accurato su compiti complessi, rendendolo la scelta migliore per il loro modello principale.

Questi modelli – sottolinea Anthropic – fanno progredire le strategie AI dei clienti su tutta la linea: Opus 4 spinge i confini del coding, della ricerca, della scrittura e della scoperta scientifica, mentre Sonnet 4 porta le prestazioni di frontiera ai casi d’uso quotidiano come aggiornamento immediato di Sonnet 3.7.

Maggiori informazioni suoi nuovi modelli e sulle altre novità sono disponibili nel blog di Anthropic.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome