Il 30 novembre 2022 è una data da non dimenticare: è il giorno in cui OpenAI ha rilasciato pubblicamente ChatGPT. Il resto è letteralmente storia. Sono trascorsi due anni da allora e in questo tempo abbiamo assistito a un’incredibile esplosione dell’interesse verso l’intelligenza artificiale. Le conseguenze sono state un incremento di quasi dieci volte nella capitalizzazione di mercato di Nvidia, il principale produttore di GPU, ed entusiastiche previsioni su possibili investimenti del mondo aziendale a favore dell’AI oltre che sull’impatto che questa tecnologia potrà avere sull’intera società.
Tutto questo è molto diverso rispetto alle precedenti occasioni in cui l’AI si è periodicamente imposta all’attenzione del pubblico negli ultimi 70 anni: dalla formulazione del test di Turing alla sconfitta dei gran maestri di scacchi fino alla guida autonoma e, ora, all’esplosione della AI Generativa. Il settore è cambiato parecchio nel tempo, ma alcuni concetti fondamentali ne costituiscono tuttora le basi. Da molti anni i progressi della AI vertono su tre elementi chiave: 1) risorse di calcolo più potenti, sotto forma di GPU; 2) perfezionamento degli algoritmi o dei modelli – nel caso della AI Generativa, l’architettura dei Transformer e i Large Language Model (LLM); 3) l’accesso a volumi di dati incredibilmente estesi. A livello estremamente alto, le fasi di un progetto AI comprendono la raccolta e la preparazione dei dati, lo sviluppo e l’addestramento del modello, e infine il deployment del modello ovvero l’inferenza.
È tutta una questione di dati
La raccolta e la preparazione dei dati sono fondamentali: dati di qualità, pertinenti e neutrali sono il segreto del successo di un progetto AI. Viene ricordato spesso come le aziende facciano fatica a capire i dati che possiedono, identificarne i proprietari e abbattere le barriere che li isolano all’interno di silos affinché possano essere utilizzati in modo efficace. Senza l’accesso a dati di alta qualità è difficile che una qualsiasi iniziativa possa avere successo. Sempre più spesso le aziende usano dati multimodali per i loro progetti di intelligenza artificiale: quindi non solo testi ma anche audio, immagini e persino video. La quantità di dati, e quindi i requisiti per lo storage sottostante, sono significativi.
Addestrare il modello
La fase di addestramento viene solitamente affrontata in due modi. Il primo è l’addestramento dei modelli fondativi, che comporta l’uso di enormi quantità di dati per costruire il modello di intelligenza artificiale da zero e addestrarlo iterativamente per produrre un modello generalmente utilizzabile. Questo approccio è seguito in genere dalle grandi aziende tecnologiche che dispongono di molte risorse; Meta ha recentemente affermato che l’addestramento del suo modello open source Llama 3.1 da 405 miliardi di parametri con oltre 15 trilioni di token ha richiesto 40 milioni di ore/GPU su 16.000 GPU. Tempi così lunghi evidenziano un importante aspetto dell’addestramento di questi modelli: l’esecuzione frequente di checkpoint che permettano il ripristino in seguito a possibili errori o guasti. Con i modelli di grandi dimensioni è essenziale che lo storage usato per il checkpointing abbia prestazioni molto alte in scrittura e una grande capacità.
Il secondo approccio all’addestramento riguarda l’ottimizzazione o fine tuning del modello. Ciò significa prendere un modello già esistente per il quale qualcun altro abbia già svolto il grosso del lavoro e applicarvi dati verticali specifici attraverso un’ulteriore fase di training. In questo modo è possibile sfruttare un proprio modello personalizzato ma senza bisogno di doverlo addestrare da zero.
Qualunque sia l’approccio seguito, l’addestramento richiede una massiccia capacità di elaborazione parallela tramite GPU con alte velocità di accesso e di throughput per poter gestire in modo efficiente dataset di grandi dimensioni. Lo storage per l’addestramento AI deve quindi garantire prestazioni notevolmente elevate per poter costantemente alimentare di dati le GPU, essere scalabile per riuscire a gestire dataset molto estesi ed essere affidabile considerando l’importanza e i costi dei modelli di training.
In produzione
Una volta che è stato addestrato e le sue prestazioni soddisfano i requisiti, il modello viene messo in produzione: qui utilizza dati che non ha mai visto prima traendo conclusioni o fornendo insight. Questo processo è chiamato inferenza e rappresenta il valore che scaturisce da un’iniziativa di intelligenza artificiale. L’utilizzo di risorse e i costi associati all’inferenza fanno impallidire quelli dell’addestramento dal momento che l’inferenza richiede capacità di calcolo e storage su base costante e potenzialmente su scala massiva: si pensi a milioni di utenti che accedano contemporaneamente al chatbot di un servizio di assistenza clienti.
Lo storage sottostante deve poter raggiungere prestazioni elevate per produrre risultati tempestivi e scalare facilmente per rispondere ai requisiti di capacità dei dati inviati al modello a fini gestionali e di retraining. La qualità dei risultati dell’inferenza dipende direttamente dalla qualità del modello addestrato e dal dataset adoperato per l’addestramento. L’intelligenza artificiale Generativa ha dato una svolta alla precisione dell’inferenza ma la sua natura implica un’alta probabilità di imprecisioni, chiamate allucinazioni. Queste imprecisioni hanno provocato problemi che spesso hanno conquistato i titoli dei giornali.
Più precisione
Chi usa ChatGPT sa quanto sia importante la query inviata al modello. Una query completa e ben strutturata può produrre una risposta molto più precisa rispetto a una domanda secca. Da qui nasce il concetto di “ingegneria dei prompt”, dove la query è composta da un grande dataset adeguatamente preparato in modo da ottenere il risultato ottimale.
Un approccio alternativo che sta diventando sempre più importante è la RAG o Retrieval Augmented Generation. La RAG arricchisce la query con dati proprietari sotto forma di contesti verticali specifici provenienti direttamente da database vettoriali come Chroma o Milvus. Rispetto all’ingegneria dei prompt, la RAG fornisce risultati migliori e riduce significativamente la possibilità di allucinazioni. Ugualmente importante è il fatto di poter usare col modello dati attuali e puntuali anziché limitarsi a dati storici fermi al momento del cut-off del modello stesso.
La RAG dipende dalla vettorizzazione dei dati per la conseguente integrazione nell’architettura generale. I database vettoriali comportano spesso una crescita significativa delle dimensioni del dataset rispetto alla fonte originale – anche di dieci volte tanto – e sono estremamente sensibili alle prestazioni dal momento che l’esperienza dell’utente dipende direttamente dal tempo di risposta della query al database vettoriale. Per questo le prestazioni e la scalabilità dello storage sottostante giocano un ruolo importante nel successo delle implementazioni RAG.
L’enigma energetico dell’intelligenza artificiale

Negli ultimi anni i costi dell’elettricità sono saliti in tutto il mondo e non danno segno di voler diminuire. La diffusione della intelligenza artificiale Generativa ha comportato inoltre una moltiplicazione del fabbisogno energetico dei data centre. Al proposito, la IEA calcola che i consumi assorbiti da intelligenza artificiale, data centre e criptovalute hanno rappresentato quasi il 2% della domanda globale di energia del 2022 – un dato che potrebbe raddoppiare entro il 2026. La causa risiede negli elevati requisiti di alimentazione delle GPU pari a 40-50 kilowatt per rack, ben oltre la capacità di molti data centre.
Rendere efficienti i data centre è quindi essenziale, il che significa che elementi infrastrutturali come lo storage all-flash diventano critici per poter gestire spazi e consumi elettrici, dal momento che ogni Watt risparmiato sullo storage può contribuire ad alimentare più GPU. Con alcune tecnologie storage all-flash è possibile ridurre i consumi dell’85% e l’occupazione su rack del 95% rispetto ad alternative concorrenti, ottenendo un valore significativo nell’ambito dell’ecosistema AI.
Il puzzle dell’AI e il tassello dello storage
Le potenzialità della AI sono quasi inimmaginabili. Tuttavia, affinché i modelli AI possano produrre risultati, occorre un attento approccio all’addestramento – sia esso fondativo o di fine tuning – per poter ottenere inferenza precisa e scalabile. L’aggiunta della RAG può migliorare ulteriormente la qualità dell’output.
È chiaro che un componente chiave in tutti i vari passaggi è rappresentato dai dati e che il flash storage è essenziale per l’impatto trasformativo che l’AI può avere sul business e sulla società grazie a livelli di prestazioni, scalabilità e affidabilità che non hanno paragoni. Flash supporta la necessità dell’AI di poter accedere in tempo reale a dati non strutturati a scopi sia di addestramento che di inferenza, riducendo nel contempo i consumi di energia e le emissioni di CO2 – elementi critici per un’infrastruttura AI efficiente e sostenibile.






