Home Intelligenza Artificiale Nvidia spiega come l'AI può accelerare i workflow dei data scientist

Nvidia spiega come l’AI può accelerare i workflow dei data scientist

In un appuntamento della serie AI Decoded – che demistifica l’intelligenza artificiale rendendo la tecnologia più accessibile e presentando nuovi hardware, software, strumenti e accelerazioni per gli utenti di workstation e PC RTX – Nvidia approfondisce RAPIDS cuDF, una libreria che consente ai data scientist di lavorare più facilmente con i dati e accelera la libreria software pandas senza modifiche al codice. RAPIDS cuDF accelera la popolare libreria pandas fino a 100 volte su PC e workstation AI dotati di RTX.

In tutti i settori, l’IA sta guidando l’innovazione e migliorando l’efficienza, ma per sfruttare appieno il suo potenziale, la tecnologia deve essere addestrata su grandi quantità di dati di alta qualità.

I data scientist svolgono un ruolo fondamentale nella preparazione di questi dati, soprattutto nei settori specifici in cui i dati specializzati, spesso proprietari, sono essenziali per migliorare le capacità dell’IA.

Per aiutare i data scientist a far fronte alle crescenti richieste di workload, NVIDIA ha annunciato che RAPIDS cuDF, una libreria che permette agli utenti di lavorare più facilmente con i dati, è in grado di accelerare la libreria software pandas con zero modifiche al codice. Pandas è una libreria di analisi e manipolazione dei dati flessibile, potente e apprezzata per il linguaggio di programmazione Python. Con cuDF, i data scientist possono ora utilizzare la loro base di codice preferita senza compromettere la velocità di elaborazione dei dati.

L’hardware e le tecnologie NVIDIA RTX AI possono anche fornire accelerazioni nell’elaborazione dei dati. Includono potenti GPU che offrono le prestazioni di calcolo necessarie per accelerare in modo rapido ed efficiente l’intelligenza artificiale a ogni livello, dai workflow di data science all’addestramento e personalizzazione dei modelli su PC e workstation.

I problemi da affrontare

Il formato di dati più comune è quello tabellare, organizzato in righe e colonne. Gli insiemi di dati più piccoli possono essere gestiti con tool come Excel, ma quelli con decine di milioni di righe e le pipeline di modellazione ugualmente enormi si affidano tipicamente a librerie di dataframe in linguaggi di programmazione come Python.

Python è una scelta comune per l’analisi dei dati, soprattutto grazie alla libreria pandas, che presenta un’interfaccia di programmazione delle applicazioni (API) facile da usare. Tuttavia, quando le dimensioni dei set di dati crescono, pandas ha problemi di velocità di elaborazione e di efficienza nei sistemi con sola CPU. Inoltre, la libreria ha notoriamente problemi con i set di dati pesanti come il testo, un tipo di dati importante per i modelli linguistici di grandi dimensioni.

Quando i requisiti dei dati superano le capacità di pandas, i data scientist si trovano di fronte a un dilemma: sopportare tempi di elaborazione lenti o compiere il complesso e costoso passo di passare a strumenti più efficienti ma meno facili da usare.

Nvidia data scientistAccelerare le pipeline di pre-elaborazione con RAPIDS cuDF

Con RAPIDS cuDF, i data scientist possono utilizzare la loro base di codice preferita senza rinunciare alla velocità di elaborazione.

RAPIDS è una suite open source di librerie Python accelerate dalle GPU progettate per migliorare le pipeline di data science e analytics. cuDF è una libreria DataFrame per GPU che fornisce un’API simile a pandas per caricare, filtrare e manipolare i dati.

Utilizzando la “modalità acceleratore pandas” di cuDF, i data scientist possono eseguire il codice pandas esistente sulle GPU per sfruttare la potente elaborazione in parallelo, con la certezza che il codice passerà alla CPU quando necessario. Questa interoperabilità offre prestazioni avanzate e affidabili.

L’ultima versione di cuDF supporta set di dati più grandi e miliardi di righe di dati testuali tabellari. Ciò consente ai data scientist di utilizzare il codice pandas per pre-elaborare i dati per i casi di utilizzo dell’intelligenza artificiale generativa.

Accelerare il data science su workstation e PC AI con NVIDIA RTX

Secondo un recente studio, il 57% dei data scientist utilizza risorse locali come PC, desktop o workstation per il data science.

I data scientist possono ottenere notevoli accelerazioni a partire dalla GPU NVIDIA GeForce RTX 4090. Quando i dataset crescono e l’elaborazione diventa più impegnativa dal punto di vista della memoria, possono utilizzare cuDF per ottenere prestazioni fino a 100 volte superiori con le GPU NVIDIA RTX 6000 Ada Generation nelle workstation, rispetto alle soluzioni tradizionali basate su CPU.

I data scientist possono iniziare facilmente a lavorare con RAPIDS cuDF su NVIDIA AI Workbench. Questo developer environment manager gratuito basato su container consente a data scientist e sviluppatori di creare, collaborare e migrare workload di AI e data science su sistemi di GPU. Gli utenti possono iniziare con diversi progetti di esempio disponibili sul repository GitHub di NVIDIA, come il progetto cuDF AI Workbench.

cuDF è disponibile di default anche su HP AI Studio, una piattaforma centralizzata per il data science progettata per aiutare i developer di IA a replicare senza soluzione di continuità il loro ambiente di sviluppo dalle workstation al cloud. Ciò consente loro di impostare, sviluppare e collaborare ai progetti senza dover gestire più ambienti.

Nvidia data scientist
Due comuni operazioni di data science – “join” e “groupby” – sono sull’asse delle ordinate, mentre l’asse delle ascisse mostra il tempo necessario per eseguire ciascuna operazione. Fonte: NVIDIA

I vantaggi di cuDF sui PC e sulle workstation AI con RTX vanno oltre l’accelerazione delle prestazioni. Esso infatti:

  • Consente di risparmiare tempo e risorse economiche grazie allo sviluppo in locale a costo fisso su potenti GPU che si replica senza problemi su server on-premise o istanze cloud.
  • Permette un’elaborazione più rapida dei dati per iterazioni più veloci, consentendo ai data scientist di sperimentare, perfezionare e ricavare intuizioni dai set di dati a velocità interattiva.
  • Offre un’elaborazione dei dati più incisiva per migliorare i risultati dei modelli più avanti nella pipeline.

Una nuova era per il Data Science

Con la continua evoluzione dell’IA e del data science, la capacità di elaborare e analizzare rapidamente enormi insiemi di dati diventerà un elemento di differenziazione fondamentale per consentire innovazioni in tutti i settori. Sia che si tratti di sviluppare sofisticati modelli di apprendimento automatico, di condurre complesse analisi statistiche o di esplorare l’IA generativa, RAPIDS cuDF fornisce le basi per l’elaborazione dei dati di prossima generazione.

NVIDIA sta ampliando questa base aggiungendo il supporto per gli strumenti di dataframe più diffusi, fra cui Polars, una delle librerie Python a più rapida crescita, che accelera in modo significativo l’elaborazione dei dati rispetto ad altri strumenti basati sulla sola CPU.

Polars ha annunciato questo mese l’open beta del Polars GPU Engine, alimentato da RAPIDS cuDF. Gli utenti di Polars possono ora aumentare le prestazioni della libreria di dataframe, già velocissima, fino a 13 volte.

Infinite possibilità per gli ingegneri di domani con RTX AI

Le GPU NVIDIA – che siano in esecuzione nei data center universitari, nei laptop GeForce RTX o nelle workstation NVIDIA RTX – stanno accelerando gli studi. Gli studenti specializzati in data science e non solo, stanno migliorando la loro esperienza di apprendimento e stanno acquisendo esperienza pratica con l’hardware ampiamente utilizzato nelle applicazioni del mondo reale.

Scopri di più su come i PC e le workstation NVIDIA RTX aiutano gli studenti a migliorare i loro studi con strumenti basati sull’intelligenza artificiale.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php