2015, l’anno del Data Lake

Hu Yoshida
Hu Yoshida

Nell’anno che viene le aziende chiederanno risposte, più che infrastrutture, ai fornitori di informatica. Soluzioni robuste ma con un’interfaccia leggera in grado di combinare mobilità, cloud, social media e Big Data.

Hu Yoshida, Chief Technology Officer di Hitachi Data Systems, ha elaborato le informazioni a disposizione del colosso giapponese e le ha confezionate in un report scaricabile da questa pagina. Eccovi intanto una sintesi ragionata, organizzata nell’ottica dell’ecologia dei dati.

Business-defined It anche per le Pmi

Vendor e partner dovranno condividere il rischio e i carichi di lavoro collegati a un cambio di paradigma, l’integrazione della catena di fornitura da tecnologia a soluzioni di business e un più organico legame con i clienti. Nel punto 1, Business Defined It, Yoshida esplicita come i classici modelli di business per fornitori e canali siano stati smantellati. Si assiste oggi alla battaglia di riallineamento dei portafogli: le entrate 2013 dell’Amazon Cloud hanno raggiunto i 2,6 miliardi di dollari, ma hanno preso il posto di 13 miliardi in termini di canale tradizionale.

Un fattore chiave per l’It definita dal business sono le soluzioni convergenti (punto 2) che si integrano con i sistemi e lo stack applicativo. Non c’è più bisogno di aspettare le settimane o mesi necessarie ad avviare un Rac di Oracle o una piattaforma Sap Hana: l’integrazione del software di orchestrazione ad esempio con VMware e Hyper-V fornisce direttamente un software-defined data center per il cloud pubblico e privato.

Va rimarcato che il punto di ingresso per soluzioni convergenti si sta abbassando verso le Pmi, mantenendo la possibilità di integrarsi in configurazioni enterprise.

Ecco perché il 2015 sarà l’anno degli investimenti in automazione (punto 3) di carichi e flussi di lavoro.

L’approccio software-defined it (punto 4) vedrà le migliori soluzioni anche per le aziende più piccole e su hardware a basso costo, in modalità commodity. Anche lo storage vedrà una virtualizzazione orizzontale (punto 5), costruita attorno ai dati e non alle reti anche grazie a nuove tecnologie flash e device allo stato solido (punto 7), principalmente su cloud ibrido (punto 10).

Rifiuti inerti e costi certi nei dati del lago

Particolarmente interessante è l’analisi sul mondo dei dati e la successiva sintesi proposta dal Cto di Hitachi. Il costo per la protezione dei dati principali (punto 6) sta esplodendo. La causa va ricercata nella crescita dei rifiuti, ovvero del numero di copie inutili generate per test e sviluppo, protezione e replica. Un database può avere da 50 a 60 copie che sono amministrati da diversi utenti per scopi diversi. Molte copie diventano orfane, e quando è richiesto il recupero dei dati contenuti non è chiaro quale replica dovrebbe essere usata. Il sistema di tracciabilità degli archivi è quindi oggetto di analisi e di crescita.

E’ qui che s’inserisce la metafora del lago dei dati. La crescita dei dati non strutturati e il valore che ha per l’analisi dei Big Data (punto 8) richiederà nuovi tipi di sistemi di storage e di calcolo distribuiti. James Dixon, Cto Pentaho, è accreditato del termine data lake, lago di dati. “Se si pensa a un data mart come riserva di acqua in bottiglia, pronta ad un immediato consumo, il data lake è una grande massa d’acqua in uno stato più naturale. I contenuti del lago fluiscono dalle sorgenti e vanno a riempire il lago; gli utenti possono venire a esaminare le acque, tuffarsi o prelevare campioni”. I data lake conterranno enormi quantità di dati e saranno accessibili attraverso interfacce basate su file e su web.

Particolarmente interessante è l’aspetto della protezione dei dati, che sostanzialmente non esisterà più. L’azione relativa nei dati sarà la replica, che non richiede backup in quanto i dati non vengono aggiornati. Per proteggere grandi insiemi di dati e consentire il recupero veloce si userà un approccio di codifica della cancellazione, un approccio che prevede la frammentazione del data set e la distribuzione ridondata dei frammenti su sistemi sparsi geograficamente. In questo modo i dati inutilizzati saranno inerti e non inquineranno l’ecosistema dell’It aziendale.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome