Data lake: un test per capire se l’azienda ne ha bisogno

I data lake sono soluzioni che permettono di confrontare, archiviare e analizzare enormi quantità di dati, consentendo di predire i comportamenti di acquisto, dando la possibilità di guidare i progetti e migliorare il servizio ai clienti o la produttività.

Spesso molte aziende che si avviano a implementare strategie di data lake restano ferme alle prime fasi del percorso. Per diverse ragioni. Tra cui, quella storica, per cui non sempre l’It e il resto dell’azienda sono allineati nell’uso e negli obiettivi da raggiungere nei progetti sui Big Data.

Prima venne il marketing – Tra i primi dipartimenti a promuovere l’adozione delle analisi dei dati c’è stata la struttura marketing, con l’obiettivo di raccogliere e analizzare informazioni per comprendere le esigenze dei clienti, declinando la strategia di comunicazione. Ma non tutte le aziende saranno presto pronte a sviluppare analisi dei dati: molte avranno bisogno di iniziare a pianificarne l’implementazione o rischieranno di perdere terreno nei confronti dei concorrenti che abbracciano questa tecnologia. Alla fine, tutte avranno bisogno di analizzare i propri dati.

Fabio Pascali di Emc Italia
Fabio Pascali responsabile top account north di Emc Italia

Parla Pascali – Mentre alcune aziende stanno sperimentando analisi di base dei dati, molte non sono pronte al passo successivo, molto più complesso, dell’elaborazione di insight in tempo reale. Come fanno allora a sapere quando passare al livello successivo nel percorso di implementazione di strategie di analisi dei dati e investire in data lake? Fabio Pascali, Responsabile Top Account North di Emc Italia identifica per noi i quattro indicatori base con cui le aziende possono capire a che livello sono.

1 – La complessità operativa – In un ambiente “pre-data lake”, se un’azienda sta cercando di scalare la propria infrastruttura ma non ha pianificato incrementi delle spese operative a supporto della gestione, con buona probabilità l’esigenza di dati supererà la capacità di gestirli. Le risorse di dati tradizionali non sono sempre gestite virtualmente, e quindi la quantità di storage che un singolo manager può gestire è limitata, rendendo chiara la necessità di una risorsa più flessibile di storage soprattutto per i dati non strutturati, ovvero i data lake.

2 – Scalabilità delle infrastrutture – Nelle aziende stanno nascendo isole per l’analisi dei dati non strutturati. Ma l’infrastruttura a supporto utilizza schemi di architetture IT tradizionali. Se per un primo approccio anche i modelli tradizionali vanno bene, non possono essere una soluzione applicabile alla realizzazione di ambienti di produzione scalabili. Servono architetture in grado di scalare linearmente, nativamente integrate con i protocolli dei nuovi ambienti, capaci di estendere l’analisi a dati presenti nei branch office delle aziende e con un’architettura centrale integrata con il cloud ibrido. Il tutto per sviluppare un modello costi sostenibile in relazione alle quantità di dati non strutturati.

3 – Sforzo di produzione – Le applicazioni di analisi mettono a dura prova i sistemi di produzione. Le analisi real-time possono richiedere moltissime risorse, come quando si cerca di ricavare analisi attraverso flussi video HD o l’utilizzo di contenuti social. I data lake servono ad assicurare che le analisi real-time possano funzionare al massimo delle prestazioni.

4 – Analisi multiprotocollo – I data scientist richiedono applicazioni su differenti distribuzioni Hadoop e devono collegare i dati. In questo caso, le aziende hanno bisogno di supporto multiprotocollo, che consenta di creare una visione unica dei dati non strutturati, verso un approccio a silos.

 

 

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome