Ciao a tutti, sono Vincenzo Lomonaco ricercatore e docente all’Università di Pisa.
Nella puntata di oggi vorrei parlarvi del recentissimo rilascio di Grok 3, l’ultima versione dei modelli di Intelligenza Artificiale di xAI, l’azienda, fondata nel 2023 da Elon Musk.
Di cosa si tratta e perché questo modello risulta particolarmente interessante? Come si relaziona con l’ormai sempre più affollato panorama competitivo di modelli di IA conversazionali di Google, Meta, OpenAI e DeepSeek? Scopriamolo insieme in questa puntata di Le Voci dell’AI.
xAI, l’azienda di intelligenza artificiale fondata da Elon Musk, ha recentemente annunciato il rilascio di Grok 3, il suo modello di AI più avanzato fino ad oggi.
Questo segna un significativo passo avanti rispetto ai precedenti modelli Grok-1 e Grok-2, con miglioramenti sostanziali nelle capacità di ragionamento e nell’efficienza computazionale.
Grok 3 è stato sviluppato utilizzando una potenza di calcolo fino a dieci volte superiore rispetto a Grock-2, consentendo prestazioni superiori in test di matematica, scienze e programmazione, come vedremo dopo, rispetto ai concorrenti come OpenAI e DeepSeek.
Il percorso di xAI è iniziato con il lancio di Grok-1 nel novembre 2023, un chatbot integrato con la piattaforma X, precedentemente nota come Twitter, progettato per comprendere e generare testo senza troppi filtri.
Successivamente, Grok-2, rilasciato nell’agosto 2024, ha introdotto capacità avanzate di comprensione sia del testo sia delle immagini, integrando informazioni in tempo reale dalla piattaforma.
Con Grok 3 xAI ha introdotto le modalità di ragionamento più avanzate, come Think o Big Brain, ancora più dispendiose, che permettono al modello di affrontare domande complesse scomponendo in compiti più piccoli.
xAI ha contestualmente lanciato anche una funzionalità chiamata DeepSearch, un motore di ricerca di nuova generazione progettato per ridurre il tempo che gli utenti trascorrono nella ricerca di informazioni online, quindi su più siti o a partire da più sorgenti di riferimento.
Grok 3 è attualmente disponibile per gli abbonati Premium Plus di X negli Stati Uniti tramite un sito web e un’applicazione standalone con l’idea di integrare funzionalità di interazione vocale prevista nel futuro prossimo.
Questo sviluppo posiziona xAI per la prima volta e dopo meno di 24 mesi dalla sua fondazione, come un concorrente significativo nel campo dell’intelligenza artificiale, sfidando leader di settore come OpenAI e Google.
Il rilascio di Grok 3 da parte di xAI rappresenta una conferma significativa dell’importanza della scalabilità e dell’aumento delle risorse computazionali nello sviluppo di intelligenza artificiale avanzata.
Questo sviluppo arriva in un contesto in cui il lancio di DeepSeek R1 aveva sollevato dibattiti sull’efficacia dell’ottimizzazione e innovazione algoritmica rispetto alla pura potenza di calcolo.
Ricordate, come abbiamo discusso nell’episodio 86 di Le Voci dell’AI, che dissi che la start up cinese ha attirato l’attenzione nel gennaio 2025 con il rilascio di DeepSeek R1 modello AI open source progettato per compiti complessi di ragionamento matematico e di programmazione.
Ciò che ha reso notevole questo rilascio è stato l’approccio di DeepSeek nell’ottenere prestazioni competitive utilizzando risorse computazionali relativamente limitate.
Questo approccio ha dimostrato che attraverso ottimizzazioni algoritmiche e implementa nativi, è sicuramente possibile raggiungere risultati di alto livello senza disporre delle enormi infrastrutture computazionali tipiche dei leader del settore.
Tuttavia, lo stesso amministratore delegato di DeepSeek, Liang Wenfeng, ha riconosciuto che le restrizioni all’export di GPU e hardware computazionale operato dagli Stati Uniti rappresentano un ostacolo significativo per l’accesso a risorse computazionali più potenti, suggerendo che con maggiori risorse le prestazioni anche di DeepSeek, potrebbero essere ulteriormente migliorate.
In questo scenario, xAI ha adottato una strategia completamente diversa per Grok 3, investendo massicciamente nell’infrastruttura computazionale, anzi, direi a livello prioritario.
Il team di xAI ha infatti utilizzato il suo supercomputer Colossus, dotato di più di 100.000 GPU Nvidia H100 per addestrare il suo modello più grande.
Questo investimento ha permesso a Grok 3 di raggiungere e in alcuni casi addirittura superare le prestazioni di modelli di aziende più affermate come OpenAI e Google Deepmind.
Questi sviluppi quindi evidenziano, se vogliamo, una lezione fondamentale nel campo dell’intelligenza artificiale, mentre le ottimizzazioni e le innovazioni algoritmiche e metodologiche sono essenziali, la scalabilità e l’accesso a risorse computazionali massicce rimangono fattori chiave per avanzamenti sostanziali.
L’esperienza di DeepSeek mostra che è possibile ottenere risultati notevoli con risorse limitate attraverso strategie innovative, tuttavia, il successo così repentino di xAI con Grok 3 sottolinea che l’investimento in infrastrutture computazionali su larga scala offre un vantaggio competitivo molto più significativo, confermando l’importanza di quelle che vengono chiamate leggi di scalabilità nel progresso dell’AI.
In questa immagine vediamo come Grok 3, il nuovo modello di xAI, abbia raggiunto la vetta della classifica della Chatbot Arena, diventando il primo modello a superare il punteggio di 1.400.
La Chatbot Arena è una piattaforma open source sviluppata da ricercatori dell’Università della California – Berkeley, progettata per valutare le prestazioni dei modelli più avanzati di AI attraverso preferenze umane, utilizzando un approccio di confronto a coppie.
Gli utenti interagiscono con due chatbot in parallelo senza saperne l’identità e votano per la risposta che preferiscono, contribuendo quindi a una classifica basata su milioni di voti della comunità.
Questo metodo di valutazione crowdsourced offre una prospettiva unica sulle capacità dei modelli di AI di svolgere compiti reali e aperti, almeno secondo gli umani, andando oltre i tradizionali benchmark automatizzati.
Le performance di Grok 3 nella Chatbot Arena, confrontato con tanti altri modelli allo stato dell’arte, evidenzia come l’aumento della potenza di calcolo possa poi trasformarsi, tradursi in miglioramenti tangibili, pragmatici nelle capacità dei modelli di AI offrendo esperienze utente più avanzate e affidabili.
In questa immagine invece, vediamo un confronto tra diversi modelli di intelligenza artificiale su tre benchmark chiave di matematica, scienza e programmazione.
I modelli confrontati includono Grok-3, Grok-3 mini, una sua versione più efficiente, Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet e GPT-4o.
Dai risultati emerge che Grok-3, in blu scuro, è il modello con le prestazioni migliori in tutte e tre queste categorie.
In matematica, per esempio, Grok-3 ottiene 52 superando significativamente gli altri modelli, con GPT-4 che si ferma a 9.
Nella scienza Grok-3 può raggiungere addirittura 75 distaccando Gemini-2 Pro DeepSeek-V3 e Claude, tutti fermi a 65, e anche la programmazione Grok-3 può ottenere un punteggio di 57 con il secondo miglior modello Grok-3 mini fermo a 41.
Questi risultati mostrano quindi il notevole miglioramento di Grok 3 rispetto a modelli concorrenti, specialmente in ambiti tecnici e scientifici.
Bene, in questa puntata abbiamo discusso del recentissimo rilascio di Grok 3, l’ultima versione dell’intelligenza artificiale sviluppata da Elon Musk e il suo team di xAI.
Quello che ha lasciato tutti davvero di stucco è la velocità con la quale in meno di due anni xAI sia riuscita a raggiungere risultati davvero competitivi rispetto ad altre soluzioni prodotte da giganti come Google, Meta e OpenAI.
Questo risultato sta facendo riflettere tutti sull’importanza di continuare a investire in infrastrutture di calcolo all’avanguardia e di come, con adeguate risorse finanziarie, sia possibile competere ai livelli più alti di questo mercato, anche entrandoci relativamente tardi.
Ciao, dalla prossima puntata di Le Voci dell’AI.

