Dieci trend da seguire per i data scientist

Oggi è difficile trovare qualcuno che non veda nell'analisi dei dati una delle principali priorità di qualsiasi impresa: per questo motivo le piattaforme e le tecnologie di analytics sono in costante evoluzione e il data scientist è diventato una delle figure più appetite in molte aziende.

La vita dell'analista però non è semplice: operare in un ambito in forte evoluzione significa anche tenere d'occhio le tendenze che si stanno affermando, per capire se possono essere d'interesse, e stabilire quanto puntare ancora sui settori che, invece, stanno vedendo calare la loro popolarità.

Tra le evoluzioni di cui tenere traccia ci sono, a parte le singole tecnologie, quelle che in generale stanno toccando le funzioni di analisi in cloud. Ai data scientist serve seguirle perché da un punto di vista procedurale è sempre meglio, quando possibile, analizzare i dati là dove si trovano. E oggi i dati aziendali sono sempre più in cloud. Questo significa affidarsi sempre di più alle funzioni che sono nativamente disponibili sulle piattaforme dei cloud provider.

Cresce sensibilmente anche l'interesse intorno alle deep neural network. Questo tipo di reti neurali sta facendo da supporto allo sviluppo di algoritmi di machine learning complessi e che operano su larga scala. Le reti neurali con molti livelli promettono funzioni di machine learning che "imparano" meglio, ma sono anche più complesse da gestire. La conseguenza è che stanno passando in primo piano alcuni framework che promettono di gestirle meglio di altri.

Anche per questo motivo si parla molto di due framework comunque noti ai data scientist: TensorFlow e MXNet. Il primo è nato in casa Google, dove è alla base di quasi tutte le iniziative legate al machine learning, ma è anche open source. Non è certo una piattaforma semplice ma punta particolarmente sull'essere flessibile e utilizzabile in molti ambiti. MXNet è simile, con qualcosa in più nella parte di calcolo dei tensori e qualcosa in meno nel debugging.

Alcuni framework d'interesse per i data scientist hanno seguito la crescita di popolarità di Python. Chi usa il linguaggio in ambito scientifico conosce la libreria SciPy, in campo machine learning questa fa da base per il progetto Scikit-learn. Non è di sicuro il framework più completo per l'AI ma ha il vantaggio della semplicità nella fase di sviluppo. E il supporto di Cython aiuta quanto serve un buon livello di performance.

In un ambito molto diverso, ma comunque collegato all'analisi dei dati e (originariamente) a Python, c'è Jupyter Notebook. La piattaforma permette di creare documenti interattivi che i data scientist possono condividere per analizzare dati, eseguire codice e simulazioni numeriche in tempo reale, studiare modelli di machine learning. La "r" di Jupyter fa riferimento al linguaggio R e va segnalato che questo sta diventando sempre più popolare anche di per sé.

Cosa è in frenata

Detto di cosa sta suscitando l'interesse degli addetti ai lavori, ci sono anche altri elementi che stanno passando da una fase di grande "hype" a una di normalizzazione. Questo non vuol dire che non interessino più, ma che la loro adozione viene ora considerata con un occhio più pragmatico. Il che di solito è un bene.

Lo è ad esempio per tutto il mondo IoT. La prospettiva di rendere smart e connesso qualsiasi oggetto non è più così allettante in diversi ambiti, dopo che le implementazioni di molti produttori hanno mostrato una preoccupante mancanza di attenzione ai temi della sicurezza. In generale la vulnerabilità potenziale delle implementazioni IoT ha raffreddato un po' gli entusiasmi di chi già vedeva enormi quantità di dati arrivare dal mondo fisico alle funzioni di analytics. In molti casi questo è possibile senza rischi, ma ciò non è più dato per scontato come una volta.

Tra le specifiche piattaforme, si sono un po' raffreddati gli animi intorno ad Hadoop. Non perché i suoi concetti di fondo non siano validi ma perché le implementazioni si sono rilevate complesse a causa dei tanti moduli che possono coinvolgere, tra quelli del progetto in sé (Common, HDFS, YARN, MapReduce) e quelli di altri progetti collegati (Ambari, Cassandra, Hive, Kafka, Spark...). Senza contare le diverse implementazioni dei vari cloud provider.

Abbiamo indicato la popolarità delle reti neurali complesse per il deep learning e la conseguente crescita di framework come TensorFlow. A perderci, in più di un senso, è stato Caffe. Era stato visto come la piattaforma più promettente per il riconoscimento delle immagini e le potenzialità restano inalterate, ma il suo sviluppo appare in frenata - siamo ancora a una versione 1.0 considerata piuttosto problematica - proprio per l'interesse di tecnici e data scientist per altre piattaforme.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche iscriviti alla newsletter gratuita.

LASCIA UN COMMENTO

Please enter your comment!
Please enter your name here