Big Data: stiamo perdendo di vista il quadro d’insieme?

30 Ottobre 2013

Parla Roberto Patano, Senior Manager Systems Engineering di NetApp Italia: un tema fondamentale nelle pubbliche amministrazioni, spesso non affrontato nell’ottica corretta.

Di questi tempi i Big Data rappresentano un tema di massimo interesse anche per i CTO delle pubbliche amministrazioni.

Che si tratti di Hadoop, MapReduce o altri strumenti per i Big Data, finora l’attenzione è stata principalmente focalizzata sulle funzioni analitiche e su come analizzare in modo rapido ed efficiente set di dati non strutturati di grandi dimensioni. Le funzioni analitiche sono importanti per le pubbliche amministrazioni che cercano di migliorare la visibilità sui propri dati e ottimizzare i processi decisionali sulla base delle conoscenze acquisite, ma rappresentano solo la punta dell’iceberg nel difficile processo per un impiego utile dei Big Data.

Spiega Roberto Patano, Senior Manager Systems Engineering di NetApp Italia: ”L’aspetto fondamentale dei Big Data, ovvero la disponibilità di un’Agile Data Infrastructure con tre caratteristiche fondamentali, intelligente, immortale e infinita, non è subito evidente. In primo luogo deve essere intelligente per fornire le informazioni giuste agli utenti quando e dove ne hanno bisogno. In secondo luogo deve essere immortale, ovvero garantire operazioni senza interruzioni con il 100% di accessibilità, senza downtime per aggiornamenti, guasti o sostituzioni. In terzo luogo deve essere infinita, ovvero offrire scalabilità illimitata per far fronte all’aumento dei dati accumulati”.

Secondo Patano, il nodo cruciale sta proprio nella capacità di rivolgere l’attenzione ai sottolivelli di elaborazione dei Big Data, a maggior ragione nel momento in cui aumentano i finanziamenti e le risorse destinate a questo scopo.
”Questo pool di fondi non deve essere destinato esclusivamente ai servizi analitici, perché ogni fase del processo relativo ai Big Data è di vitale importanza. Se uno qualsiasi dei passaggi che lo compongono non funziona alla perfezione, l’intero sistema fallisce”.

Per gestire i Big Data è necessario disporre di funzionalità adeguate in tre ambiti: ”Li definiamo “l’ABC dei Big Data”, ovvero Analytics (analitiche), Bandwidth (larghezza di banda) e Content (contenuto)”.
Questi sono i componenti di base di un’Agile Data Infrastructure.
In mancanza della larghezza di banda necessaria per inserire correttamente e rapidamente i dati, l’analisi, l’archiviazione e la distribuzione non possono essere eseguite nei tempi previsti.
Se l’archivio è inadeguato alle esigenze, l’organizzazione perderà traccia dei dati.
Se le funzioni di analisi, quali ricerca e indicizzazione, sono insufficienti, i dati non diventeranno mai utili.
”Infine, se non è possibile distribuire il contenuto a chi ne ha bisogno al momento giusto, l’intero processo risulta inutile. È questo infatti il requisito chiave per accelerare i processi decisionali in ambienti mission critical.
Come avviene per la maggior parte delle tecnologie emergenti, la retorica spesso supera l’effettiva adozione. Un recente sondaggio, svolto da Meritalk per conto di NetApp su oltre 150 professionisti IT del settore pubblico, evidenzia il grande interesse all’interno del governo federale nell’idea di sfruttare i Big Data a supporto delle mission governative.
”Tuttavia, la maggior parte degli enti non dispone della memoria, della potenza e del personale necessari per beneficiare appieno delle efficienze e del miglioramento dei processi decisionali che la tecnologia è in grado di offrire e non è un caso che secondo quanto emerge da un ulteriore sondaggio, “The Big Data Gap”, solo il 60% dei professionisti IT afferma che il proprio ente di appartenenza analizza i dati raccolti e un modesto 40% utilizza i dati per prendere decisioni strategiche. Questi dati si collocano in uno scenario in cui una percentuale enorme, pari al 96% degli intervistati, si aspetta che i dati memorizzati crescano in media del 64% entro due anni”.

Appare dunque evidente come quando si tratta di Big Data sia fondamentale sviluppare un approccio che si estenda oltre le funzioni analitiche, intrecciandosi con gli altri livelli chiave.
Per questo NetApp suggerisce alle pubbliche amministrazioni alcune iniziative metodologiche:
• Individuare il punto di partenza ottimale. È essenziale determinare l’area in cui è più probabile che un particolare sistema registri dei problemi con l’aumento dei dati. Se un’organizzazione può affrontare in primo luogo l’area più critica, sarà possibile rivolgere l’attenzione alle altre aree problematiche man mano che emergono i problemi. Questo collo di bottiglia può verificarsi nell’ambito degli strumenti analitici, ma potrebbe allo stesso modo riguardare la larghezza di banda, l’archiviazione dei contenuti o la distribuzione dei dati. Il punto essenziale è sapere esattamente cosa si sta cercando di risolvere prima di iniziare.
• Riconoscere che l’archiviazione può essere la sfida più grande. Per molte organizzazioni lo storage dei dati rappresenta la principale spesa IT e non c’è da stupirsi, vista l’esplosione del volume di dati. Ma ecco la brutta notizia: la situazione è destinata a peggiorare. Si prevede infatti che nei prossimi dieci anni il volume di dati nel mondo aumenterà di 50 volte rispetto agli attuali livelli. Nello stesso periodo di tempo, tuttavia, le nuove tecnologie di rete consentiranno di aumentare la larghezza di banda solo di circa 10 volte. Tutte le pubbliche amministrazioni avranno bisogno di nuove strategie per l’acquisizione, l’archiviazione e l’analisi dei dati.

• Sfruttare le opportunità di consolidamento. La National Science Foundation, ad esempio, sta incoraggiando i ricercatori a rivolgersi alle proprie università per i servizi cloud. Questo, a sua volta, sta spingendo le università a sviluppare consorzi di ricerca per condividere i rischi e i costi. Opportunità simili esistono nell’ambito dell’efficienza nell’implementazione di tecnologie per i Big Data. Si potrebbero, ad esempio, affidare i servizi di archiviazione per l’intero governo federale alla National Archives and Records Administration, anziché lasciare la responsabilità dei propri record a ogni singolo ente.

• Rivolgersi a un Data scientist e ascoltare la sua opinione in merito. La figura del Data scientist esiste fin dall’inizio della rivoluzione tecnologica. L’high performance computing è stato a lungo un indicatore importante dei metodi e delle tecnologie destinate a essere poi adottate in ambito aziendale. Quindici anni fa, i Data scientist tentavano di capire in che modo memorizzare e analizzare un volume superiore di dati: è arrivato il momento di conoscere le risposte.

”Non si tratta certamente di piccole sfide, ma quelli illustrati sono gli elementi di base di una vera Agile Data Infrastructure, che consenta di sfruttare appieno il potenziale dei Big Data in ambito pubblico”.