Claude 3.7 Sonnet e Code portano il ragionamento AI e il coding a un nuovo livello

25 Febbraio 2025

Anthropic ha annunciato Claude 3.7 Sonnet: l’azienda lo definisce il suo modello più intelligente e il primo modello di ragionamento ibrido sul mercato. Claude 3.7 Sonnet può produrre risposte quasi istantanee o ragionamenti estesi, passo dopo passo, visibili all’utente. Gli utenti dell’API possono inoltre controllare con precisione la durata del ragionamento del modello.

Claude 3.7 Sonnet – afferma Anthropic – mostra miglioramenti particolarmente evidenti nel coding e nello sviluppo web front-end. Insieme al modello, l’azienda sta introducendo anche uno strumento a riga di comando per il coding agenziale, Claude Code. Claude Code è disponibile come research preview limitata e consente agli sviluppatori di delegare a Claude compiti di ingegneria sostanziali direttamente dal loro terminale.

Claude 3.7 Sonnet è ora disponibile su tutti i piani Claude, inclusi Free, Pro, Team ed Enterprise, nonché su Anthropic API, Amazon Bedrock e Vertex AI di Google Cloud. La modalità di “pensiero esteso”, l’Extended thinking, è disponibile su tutte le piattaforme, tranne il livello gratuito di Claude.

Sia in modalità standard che extended thinking, Claude 3.7 Sonnet ha lo stesso prezzo dei suoi predecessori: 3 dollari per milione di token di input e 15 dollari per milione di token di output, che includono i token thinking, evidenzia Anthropic.

Il team sottolinea di aver sviluppato Claude 3.7 Sonnet con una filosofia diversa da quella degli altri modelli di ragionamento presenti sul mercato. Proprio come gli esseri umani usano un unico cervello sia per le risposte rapide che per la riflessione profonda, secondo Anthropic il ragionamento deve essere una capacità integrata dei modelli di frontiera, piuttosto che un modello completamente separato. Questo approccio unificato crea anche un’esperienza più omogenea per gli utenti.

Claude 3.7 Sonnet incarna questa filosofia in diversi modi. In primo luogo, Claude 3.7 Sonnet è sia un normale LLM che un modello di ragionamento: si può scegliere quando si vuole che il modello risponda normalmente e quando si vuole che pensi più a lungo prima di rispondere. In modalità standard, Claude 3.7 Sonnet rappresenta una versione aggiornata di Claude 3.5 Sonnet. Nella extended thinking mode, Claude riflette su se stesso prima di rispondere, migliorando così le sue prestazioni in matematica, fisica, istruzioni, coding e in molti altri compiti. In genere il team trova che il prompting del modello funzioni in modo simile in entrambe le modalità.

In secondo luogo, quando si usa Claude 3.7 Sonnet attraverso l’API, gli utenti possono anche controllare il budget per il ragionamento: si può dire a Claude di pensare per non più di N token, per qualsiasi valore di N fino al suo limite di uscita di 128K token. In questo modo, è possibile bilanciare la velocità (e il costo) con la qualità della risposta.

In terzo luogo, nello sviluppo dei modelli di ragionamento Anthropic ha ottimizzato un po’ meno per i problemi delle competizioni matematiche e informatiche, spostando invece l’attenzione sui compiti del mondo reale che riflettono meglio l’uso effettivo dei LLM da parte delle aziende.

I primi test – afferma l’azienda – hanno dimostrato la leadership di Claude nelle capacità di coding in tutti i settori: Cursor ha notato che Claude è ancora una volta il migliore della classe per quanto riguarda i compiti di coding del mondo reale, con miglioramenti significativi in aree che vanno dalla gestione di codebase complesse all’uso di strumenti avanzati. Cognition ha rilevato che Claude è di gran lunga migliore di qualsiasi altro modello nella pianificazione delle modifiche al codice e nella gestione degli aggiornamenti full-stack. Vercel ha evidenziato l’eccellente precisione di Claude per i complessi flussi di lavoro degli agenti, mentre Replit ha impiegato con successo Claude per costruire sofisticate applicazioni web e dashboard da zero, dove altri modelli si bloccano. Nelle valutazioni di Canva, Claude ha prodotto costantemente codice pronto per la produzione con un gusto progettuale superiore e una drastica riduzione degli errori.

Maggiori informazioni su come funziona l’extended thinking di Claude sono disponibili nel blog di Anthropic.

E rimanendo in tema di strumenti per gli sviluppatori, Anthropic ha presentato anche Claude Code, il primo strumento di coding agenziale dell’azienda, in un’anteprima di ricerca limitata.

Claude Code è un collaboratore attivo in grado di cercare e leggere il codice, modificare i file, scrivere ed eseguire test, eseguire il commit e il push del codice su GitHub e utilizzare gli strumenti della riga di comando, per tenere gli utenti informati in ogni fase.

Claude Code è un prodotto agli inizi, ma è già diventato indispensabile per il team interno di Anthropic, soprattutto per lo sviluppo test-driven, il debug di problemi complessi e il refactoring su larga scala. Nei primi test, Claude Code ha completato in un solo passaggio attività che normalmente richiederebbero oltre 45 minuti di lavoro manuale, riducendo i tempi di sviluppo e le spese generali.

Nelle prossime settimane, Anthropic ha in programma di migliorarlo continuamente sulla base dell’utilizzo: migliorare l’affidabilità delle chiamate agli strumenti, aggiungere il supporto per i comandi long-running, migliorare il rendering in-app e ampliare la comprensione delle capacità di Claude stesso.

L’obiettivo del team con Claude Code è quello di capire meglio come gli sviluppatori utilizzano Claude per la programmazione, al fine di informare i futuri miglioramenti del modello. Partecipando a questa anteprima, gli utenti avranno accesso agli stessi potenti strumenti che il team usa per sviluppare e migliorare Claude, e il feedback ne influenzerà direttamente il futuro, sottolinea l’azienda.

Il team ha anche migliorato l’esperienza di coding su Claude.ai. L’integrazione con GitHub è ora disponibile su tutti i piani Claude, consentendo agli sviluppatori di collegare i loro repository di codice direttamente a Claude.

Inoltre, Anthropic ha condotto test e valutazioni approfondite su Claude 3.7 Sonnet, collaborando con esperti esterni per garantire che soddisfi gli standard di sicurezza, protezione e affidabilità. Claude 3.7 Sonnet fa anche distinzioni più sfumate tra richieste dannose e benigne, riducendo i rifiuti inutili del 45% rispetto al suo predecessore.

La system card di questa versione riguarda i nuovi risultati in materia di sicurezza in diverse categorie, fornendo una ripartizione dettagliata delle valutazioni della Responsible Scaling Policy di Anthropic che altri laboratori e ricercatori di AI possono applicare al loro lavoro. La scheda affronta anche i rischi emergenti legati all’uso del computer, in particolare gli attacchi di tipo prompt injection, e spiega come il team valuta queste vulnerabilità e addesta Claude a resistere e a mitigarle. Inoltre, esamina i potenziali benefici per la sicurezza derivanti dai modelli di ragionamento: la capacità di capire come i modelli prendono le decisioni e se il ragionamento dei modelli è veramente degno di fiducia e affidabile.

Claude 3.7 Sonnet e Claude Code per Anthropic segnano un passo importante verso sistemi di intelligenza artificiale in grado di aumentare realmente le capacità umane. Con la loro capacità di ragionare in profondità, di lavorare in modo autonomo e di collaborare in modo efficace, avvicinano a un futuro in cui l’AI arricchisce e amplia ciò che gli esseri umani possono raggiungere.