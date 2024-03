Anthropic ha annunciato la famiglia di modelli Claude 3, che – secondo la società specializzata nello sviluppo e nella ricerca nel campo dell’intelligenza artificiale – stabilisce nuovi parametri di riferimento per il settore in un’ampia gamma di attività cognitive.

La famiglia comprende tre modelli all’avanguardia in ordine crescente di capacità: Claude 3 Haiku, Claude 3 Sonnet e Claude 3 Opus.

Ogni modello successivo offre prestazioni sempre più potenti, consentendo agli utenti di scegliere l’equilibrio ottimale tra intelligenza, velocità e costo per la loro specifica applicazione.

I modelli Opus e Sonnet sono ora disponibili per l’uso in claude.ai e nell’API Claude, che è ora generalmente disponibile in 159 Paesi (tra cui anche l’Italia). Haiku sarà presto disponibile, ha annunciato Anthropic.

Opus, il modello al momento più intelligente di Anthropic, supera i suoi omologhi nella maggior parte dei benchmark di valutazione comuni per i sistemi di intelligenza artificiale, tra cui undergraduate level expert knowledge (MMLU), graduate level expert reasoning (GPQA), la matematica di base (GSM8K) e altri ancora, sottolinea l’azienda. Presenta livelli di comprensione e di fluidità quasi umani su compiti complessi, e secondo Anthropic si pone all’avanguardia nell’attuale frontiera dell’intelligenza generale.

Tutti i modelli Claude 3 – spiega Anthropic – mostrano maggiori capacità di analisi e previsione, di creazione di contenuti sfumati, di generazione di codice e di conversazione in lingue non inglesi come lo spagnolo, il giapponese e il francese.

Anthropic ha pubblicato una serie di confronti tra i modelli Claude 3 e quelli di altre aziende protagoniste del campo dell’intelligenza artificiale, su diversi benchmark.

Per quanto riguarda le applicazioni, i modelli Claude 3 sono in grado di gestire le chat con i clienti in diretta, gli autocompletamenti e le attività di estrazione dei dati in cui le risposte devono essere immediate e in tempo reale.

Haiku è anche descritto dalla società sviluppatrice come il modello più veloce ed economico sul mercato per la sua categoria di intelligenza. È in grado di leggere un paper di ricerca denso di informazioni e dati su arXiv (~10k token) con grafici e diagrammi in meno di tre secondi. Dopo il lancio, Anthropic si aspetta inoltre di migliorare ulteriormente le prestazioni.

Per la maggior parte dei carichi di lavoro, Sonnet è due volte più veloce di Claude 2 e Claude 2.1 con livelli di intelligenza superiori. Eccelle nelle attività che richiedono risposte rapide, come il recupero delle conoscenze o l’automazione delle vendite. Opus offre velocità simili a Claude 2 e 2.1, ma con livelli di intelligenza molto più elevati.

I modelli Claude 3 sono dotati di sofisticate funzionalità di visione, alla pari di altri modelli leader del settore. Sono in grado di elaborare un’ampia gamma di formati visivi, tra cui foto, tabelle, grafici e diagrammi tecnici. Anthropic fornisce questa nuova modalità ai suoi clienti aziendali, alcuni dei quali hanno fino al 50% delle loro basi di conoscenza codificate in vari formati come PDF, diagrammi di flusso o slide di presentazioni.

I precedenti modelli di Claude spesso presentavano refusal inutili che suggerivano una mancanza di comprensione del contesto. Anthropic annuncia di aver fatto progressi significativi in questo campo: Opus, Sonnet e Haiku sono molto meno propensi a rifiutarsi di rispondere a richieste che sfiorano i limiti del sistema rispetto alle generazioni precedenti di modelli. I modelli Claude 3 mostrano una comprensione più sfumata delle richieste, riconoscono i danni reali e rifiutano di rispondere a prompt innocui molto meno spesso.

Le aziende di tutte le dimensioni si affidano ai modelli Anthropic per servire i loro clienti, per cui è indispensabile che i risultati dei modelli mantengano un’elevata accuratezza su scala. Per valutare questo aspetto, l’azienda utilizza un’ampia serie di domande complesse e fattuali che mirano ai punti deboli noti dei modelli attuali. Le risposte vengono classificate in risposte corrette, risposte errate (o allucinazioni) e ammissioni di incertezza, in cui il modello afferma di non conoscere la risposta invece di fornire informazioni errate. Rispetto a Claude 2.1, Opus ha dimostrato un miglioramento di due volte nell’accuratezza (o risposte corrette) su queste domande aperte e impegnative, oltre a ridurre i livelli di risposte errate.

Oltre a produrre risposte più affidabili, presto Anthropic abiliterà le citazioni nei suoi modelli Claude 3, in modo che possano indicare frasi precise nel materiale di riferimento per verificare le loro risposte.

La famiglia di modelli Claude 3 offrirà inizialmente una finestra di contesto da 200K al momento del lancio. Tuttavia, tutti e tre i modelli sono in grado di accettare input superiori a 1 milione di token e Anthropic ha dichiarato che potrebbe renderli disponibili a clienti selezionati che necessitano di una maggiore potenza di elaborazione.

Per elaborare efficacemente richieste di contesti lunghi, i modelli necessitano di solide capacità di recall. La valutazione “Needle In A Haystack” (NIAH) misura la capacità di un modello di richiamare accuratamente le informazioni da un vasto corpus di dati. Anthropic afferma di aver migliorato la robustezza di questo benchmark: Claude 3 Opus non solo ha ottenuto un recall quasi perfetto, superando il 99% di accuratezza, ma in alcuni casi ha persino identificato i limiti della valutazione stessa, riconoscendo che la frase “needle” sembrava essere stata inserita artificialmente nel testo originale da un umano.

I modelli Claude 3 sono migliori nel seguire istruzioni complesse e in più fasi, mette inoltre in evidenza Anthropic. Sono particolarmente abili nell’aderire alla “voce del brand” e alle linee guida di risposta, e nello sviluppare esperienze di contatto con i clienti di cui gli utenti possano fidarsi. Inoltre, i modelli Claude 3 sono migliori nel produrre output strutturati in formati popolari come JSON, semplificando così le istruzioni di Claude per casi d’uso come la classificazione del linguaggio naturale e la sentiment analysis.

Anthropic definisce Claude 3 Opus il suo modello più intelligente, con le migliori prestazioni del mercato su compiti altamente complessi. È in grado di gestire richieste aperte e scenari a vista con una notevole fluidità e una comprensione simile a quella umana. Secondo l’azienda, Opus è in grado di mostrare i limiti esterni di ciò che è possibile fare con l’intelligenza artificiale generativa.

Opus e Sonnet sono disponibili da oggi nella API di Anthropic, che è ora generalmente disponibile, consentendo agli sviluppatori di registrarsi e iniziare a utilizzare questi modelli immediatamente. Haiku sarà presto disponibile. Sonnet alimenta l’esperienza gratuita su claude.ai, mentre Opus è disponibile per gli abbonati a Claude Pro.

Sonnet è inoltre disponibile da oggi anche su Amazon Bedrock e in anteprima privata su Vertex AI Model Garden di Google Cloud, mentre Opus e Haiku saranno presto disponibili su entrambi.

Anthropic non ritiene che l’intelligenza del modello sia vicina ai suoi limiti e prevede di rilasciare frequenti aggiornamenti alla famiglia di modelli Claude 3 nei prossimi mesi. Intende anche rilasciare una serie di funzionalità per migliorare le capacità dei suoi modelli, in particolare per i casi d’uso aziendali e le implementazioni su larga scala. Queste nuove caratteristiche includeranno function calling, la codifica interattiva e capacità di agent più avanzate.

Mentre l’azienda si spinge oltre i confini delle capacità dell’intelligenza artificiale, è altrettanto impegnata a garantire che le protezioni di sicurezza stiano al passo con questi balzi di prestazioni.

Maggiori informazioni sui principi etici che guidano Anthropic nello sviluppo dei modelli, sui prezzi e sulle caratteristiche tecniche e le prestazioni dei nuovi modelli, sono disponibili sul sito dell’azienda.