Big Data

Come governare i data lake e non essere travolti dai dati

28 Agosto 2017

Le aziende che possono analizzare in maniera mirata grandi moli di informazioni collegate al loro business fanno più ricavi e hanno una posizione di maggiore forza rispetto alla concorrenza.

Questo è un po’ il mantra dell’analisi dei Big Data ed è anche uno scenario molto stimolante per le imprese. E infatti molte avviano progetti per la creazione di grandi data lake in cui riversare tutti i dati possibili, generati internamente o meno.

L’esperienza ha mostrato che dalla teoria alla pratica il passo come al solito non è breve. E talvolta il data lake inteso come “bacino” indifferenziato di dati, rasserenante nella sua tranquillità, diventa in fretta una palude in cui si resta invischiati senza arrivare da nessuna parte. Da cui la definizione di data swamp.

È difficile definire linee guida generalizzate che evitino a un’azienda di creare una palude di dati. Ogni progetto Big Data ha le sue specificità e quindi i suoi rischi. Mettendo però a fattor comune le esperienze di chi ha messo in pratica la teoria dei data lake, si evidenziano alcuni punti che sono critici per qualsiasi implementazione.

Ancora prima di partire

Il primo punto chiave è la dimensione del progetto. Anche se molti vendor ritengono che il concetto di data lake sia per sua natura estendibile a piacere, partire in piccolo risulta più vantaggioso che partire subito in grande.

Certo “piccolo” e “grande” sono termini relativi e da valutare in funzione delle dimensioni dell’IT aziendale, ma un progetto Big Data coinvolge comunque molte componenti (processi, persone, risorse…) ed è meglio iniziare affrontando un problema specifico. Partire in piccolo serve poi a farsi le ossa e a capire come passare a una scala maggiore.

Collegato a questo tema c’è evidentemente quello della focalizzazione. Raccogliere genericamente dati pensando di definire solo in un secondo momento le domande a cui questi stessi dati devono rispondere è un approccio perdente.

Non a caso oltre che di data swamp si parla anche di data graveyard, cimiteri di dati che restano lì senza scopo. Un progetto di data lake deve partire collegato a un obiettivo di business ben preciso e che ovviamente non può essere individuato solo dal CIO.

Definire l’obiettivo di business che si vuole ottenere porta a definire le informazioni che il data lake deve offrire, quindi le domande a cui trovare una risposta nei dati raccolti. E senza un obiettivo di business un data lake non ha nemmeno la possibilità di generare un valore misurabile per l’azienda, una condizione oggi spiacevole per qualsiasi progetto IT.

Ci vuole metodo anche nei data lake

Il vecchio detto secondo cui “garbage in, garbage out” vale per moltissimi aspetti dell’IT aziendale e anche per i data lake. Il primo problema che si pone nella creazione e nella successiva gestione dei data lake riguarda tutta la governance dei dati, in particolare la “pulizia” dei dati stessi.

Come una palude vera inizia con un lago contaminato, così un modo veloce per trasformare un data lake in qualcosa di inutilizzabile è lasciare che vi entrino dati “sporchi”. Serve quindi un processo chiaro di assicurazione qualità per i dati che si raccolgono, tenendo sempre in mente (sia nell’IT sia nella parte business) che la stragrande maggioranza dei dati che si raccolgono va esaminata e “pulita” prima di poter essere utilizzata. E che questo processo di controllo delle fonti e di data cleansing non è affatto banale.

La governance dei dati non riguarda solo la verifica delle informazioni in ingresso. Deve anche essere ben definito che tipo di dati si usano, provenienti da quali fonti e con quali scopi di analisi.

I data lake infatti sono per definizione concentratori enormi di informazioni e bisogna sempre sapere quali processi e persone hanno accesso a quali tipi di dati. In questo bisogna trovare un difficile equilibrio tra i requisiti di sicurezza, privacy e compliance da un lato e, dall’altro, il fatto che i data lake devono costantemente produrre informazioni per poter portare un vantaggio.

La “apertura” dei data lake è infatti un altro punto importante. Il ruolo dei data lake non è solo conservare informazioni che poi devono essere organizzate, classificate e gestite dall’IT.

La diffusione dei Big Data deve anche favorire la crescita di figure intermedie tra quelle business e quelle IT, in grado di portare avanti in autonomia operazioni di analisi ed esplorazione dei dati raccolti. I cosiddetti citizen data scientist possono aumentare la capacità che l’azienda ha di estrarre informazioni dai dati in qualsiasi momento, senza aspettare l’IT o i data scientist propriamente detti.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter