Come cambiano i datacenter con l’arrivo dei nuovi dati

I nuovi dati sono sia transazionali sia non strutturati, disponibili al pubblico e raccolti privatamente, il loro valore deriva dalla capacità di aggregarli e analizzarli e in tal modo stanno cambiando i datacenter.

In termini vaghi possiamo suddividerli in due categorie: big data - grandi insiemi di dati aggregati usati per l'analisi batch - e dati rapidi - raccolti da molte fonti che vengono utilizzati per guidare il processo decisionale immediato. Il grande paradigma della velocità dei dati guida un'architettura completamente nuova per i data center (pubblici e privati).

L'acquisizione dei dati sta guidando architetture di datacenter edge-to-core: i nuovi dati vengono acquisiti alla fonte. Tale fonte potrebbe anche trovarsi sotto l'oceano, in caso di prospezione di petrolio e gas, da satelliti in orbita, in caso di applicazioni meteorologiche, sul telefono, nel caso di immagini, video e tweet, o sul set di un filmato. Il volume dei dati raccolti alla fonte sarà di diversi ordini di grandezza superiore a quello che conosciamo oggi.

L'automazione dei datacenter

La scala dati sta guidando l'automazione dei datacenter: la scala dei grandi fornitori di cloud è già tale che essi devono investire fortemente in automazione e intelligenza per gestire le loro infrastrutture. Ogni gestione manuale è semplicemente proibitiva dal punto di vista dei costi nella scala in cui operano. La mobilità dei dati sta cambiando le reti globali: se i dati sono ovunque, allora devono essere spostati per essere aggregati e analizzati. Proprio quando abbiamo pensato (speriamo) che le reti stavano diventando sempre più veloci rispetto ai requisiti di larghezza di banda internet a 40-100 Gbps, il movimento dei dati è probabile che aumenterà 100x a 1000x.

Il valore dei dati sta rivoluzionando la memorizzazione. Non c'è dubbio che i dati stiano diventando sempre più preziosi per le organizzazioni e che la loro utilità su periodi di tempo più lunghi stia crescendo a causa dell'apprendimento automatico e dell'intelligenza artificiale basata sull'analisi. Ciò significa che un maggior numero di dati deve essere conservato per periodi di tempo più lunghi e che i dati devono essere indirizzabili in forma aggregata affinché l' analisi possa essere efficace.

L'analisi dei dati è il driver per future architetture ad alta intensità di calcolo: le organizzazioni sono spinte a conservare più dati per poterli aggregare in grandi archivi di dati, per la natura dell'analisi e in particolare dell'apprendimento automatico. Questi tipi di analisi forniscono risposte migliori se applicate a fonti di dati multiple e più grandi. L'analisi e l'apprendimento automatico sono operazioni intensive di calcolo. Di conseguenza, l'analisi su set di dati di grandi dimensioni consente di gestire grandi quantità di elaborazione ad alta velocità. Allo stesso tempo, la natura intensiva di calcolo dell'analisi sta guidando molti nuovi modi per memorizzare e accedere ai dati, dai database in memoria a 100 petabyte di oggetti in scala.

Le sfide per i datacenter

L'acquisizione dei dati sta guidando architetture di datacenter edge-to-core. I nuovi dati vengono acquisiti alla fonte. Il volume dei dati raccolti alla fonte sarà di diversi ordini di grandezza superiore a quello che conosciamo oggi. Ad esempio, un'auto autonoma genera fino a 4 terabyte di dati al giorno. È chiaro che non possiamo catturare tutti quei dati alla fonte e poi cercare di trasmetterli attraverso le reti odierne a postazioni centralizzate per l'elaborazione e la memorizzazione. Questo sta guidando lo sviluppo di data center completamente nuovi, con diversi ambienti per diversi tipi di dati caratterizzati da un nuovo ambiente di "edge computing" ottimizzato per catturare, memorizzare e parzialmente analizzare grandi quantità di dati prima della trasmissione ad un ambiente separato data center. I nuovi ambienti di edge computing guideranno cambiamenti fondamentali in tutti gli aspetti delle infrastrutture di calcolo: dalle Cpu alle Gpu e persino alle Mpu (mini-processori) fino alla bassa potenza, allo storage flash su piccola scala, all'Internet of Things e ai protocolli che non richiedono ciò che diventerà prezioso indirizzamento Ip.

Consideriamo un esempio diverso di acquisizione dei dati. Nello spazio della bioinformatica, i dati esplodono alla fonte. Nel caso della mammografia, i sistemi che catturano queste immagini si muovono da immagini bidimensionali a immagini tridimensionali. Le immagini 2D richiedono circa 20MB di capacità di memorizzazione, mentre le immagini 3D richiedono fino a 3GB di capacità di memorizzazione pari a un aumento di 150x della capacità necessaria per memorizzare queste immagini. Sfortunatamente, la maggior parte dei sistemi di memorizzazione digitale utilizzati per memorizzare le immagini 2D non sono semplicemente in grado di memorizzare le immagini 3D a costi contenuti. Devono essere sostituiti da grandi archivi di dati affinché tali dati possano prosperare.

Inoltre, il tipo di elaborazione che le organizzazioni sperano di eseguire su queste immagini è basata sull'apprendimento automatico e molto più impegnativa rispetto a qualsiasi altro tipo di elaborazione delle immagini in passato. Soprattutto, al fine di eseguire l'apprendimento automatico, i ricercatori devono assemblare un gran numero di immagini da elaborare per essere efficace. Assemblare queste immagini significa spostare o condividere immagini tra organizzazioni che richiedono l'acquisizione dei dati alla fonte, conservati in forma accessibile (non su nastro), aggregati in grandi repository di immagini e poi resi disponibili per l' analisi dell'apprendimento automatico su larga scala.

Le immagini possono essere memorizzate in forma grezza, ma i metadati vengono spesso aggiunti alla fonte. Inoltre, alcune elaborazioni possono essere eseguite alla sorgente per massimizzare i rapporti segnale/rumore.

L'architettura risultante che può supportare queste immagini è caratterizzata da la memorizzazione dei dati alla fonte, la replicazione dei dati in un repository condiviso (spesso in un cloud pubblico), l'elaborazione delle risorse per analizzare ed elaborare i dati dal repository condiviso, e la connettività in modo che i risultati possano essere restituiti ai singoli ricercatori. Questo nuovo flusso di lavoro sta guidando un'architettura dei dati che comprende più posizioni di archiviazione, con movimenti di dati secondo le necessità ed elaborazione in più posizioni.

Per i casi di utilizzo dell'IoT questo cambiamento nell'architettura è ancora più drammatico. Ad esempio in certe aziende vengono raccolti dati da tutti i siti di produzione e poi inviati a un grande archivio centrale che viene replicato in tre ubicazioni e un sottoinsieme di dati viene inserito in un database Apache Hadoop in Amazon per una rapida elaborazione analitica dei dati. I risultati sono messi a disposizione degli ingegneri di tutta l'azienda per la visualizzazione e la post-elaborazione. Viene eseguita l'elaborazione dei dati alla fonte, per migliorare il rapporto segnale/rumore su tali dati e normalizzarli. Vi è un' ulteriore elaborazione eseguita sui dati in quanto viene raccolta in un repository di archiviazione degli oggetti anche in una posizione logicamente centrale.

Poiché tali dati devono essere protetti a lungo termine, vengono cancellati e distribuiti in tre ubicazioni distinte. Infine vengono di nuovo elaborati utilizzando l'analisi una volta che sono spinti in Amazon. L'architettura che si è evoluta è un'architettura edge-to-core con dati di grandi dimensioni e rapida elaborazione dei dati in molte località e componenti che sono costruiti appositamente per il tipo di elaborazione necessaria in ogni fase del processo.

Questi casi d'uso richiedono un nuovo approccio alle architetture di dati in quanto il concetto di dati centralizzati non è più applicabile. C’è bisogno di una visione logicamente centralizzata dei dati, pur avendo la flessibilità necessaria per elaborarli in più passaggi in qualsiasi flusso di lavoro. Il volume sarà così grande che sarà proibitivo, in termini di costi e di tempo, inserire ciecamente il 100% in un archivio centrale. Occorre sviluppare architetture intelligenti che sappiano come elaborare in modo incrementale i dati tenendo conto dei compromessi in termini di dimensioni, costi di trasmissione e requisiti di elaborazione.

 

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche iscriviti alla newsletter gratuita.
CONDIVIDI

LASCIA UN COMMENTO

Please enter your comment!
Please enter your name here