Pro e contro della deduplicazione globale dei dati

Diverse aziende che già sfruttano i vantaggi della deduplicazione si stanno preoccupando per la proliferazione di dischi secondari. Vediamo come e quando la deduplicazione globale dei dati può risultare di aiuto.

Non c’è dubbio che la deduplicazione sia una delle tecnologie di
archiviazione dati su cui oggi si concentra maggiormente l’attenzione.

Ma anche
tra le organizzazioni che già sfruttano i vantaggi della deduplicazione, alcune
stanno iniziando a preoccuparsi per la proliferazione di dischi secondari. La deduplicazione
globale dei dati potrebbe migliorare il livello di efficienza anche in quelle
situazioni in cui si ha a che fare con un’enorme quantità di dati?

Per rispondere a questa domanda, cerchiamo anzitutto di definire
cosa si intende per deduplicazione dei dati e come questa si differenzia dall’ottimizzazione
dello storage primario.

La principale tecnologia per l’ottimizzazione dello
storage primario (PSO, Primary Storage Optmization) è la compressione, mentre la base per l’ottimizzazione secondaria
della capacità (SCO, Secondary Capacity Optimization) è la deduplicazione dei dati. Però, i tool di PSO riducono
lo spazio disco disponibile per lo storage secondario (backup e archiviazione).

Compressione dei dati vs deduplicazione dei dati
Le tecnologie di compressione controllano un flusso di dati e cercano
di eliminare algoritmicamente i bit non necessari in modo che nessun dato venga
perso quando è compresso. La deduplicazione dei dati a livello di file elimina
un file duplicato e lo sostituisce con un puntatore. La deduplicazione a
livello di sub-file si comporta alla stessa maniera, eccetto per il fatto che
usa una serie di puntatori, uno per ogni sub-file o chunk.

La deduplicazione
dei dati non cerca di "restringere" il file come fa la compressione, cerca invece
i duplicati all’interno di un repository a livello di file o di sub-file.

La compressione
può essere applicata anche allo storage secondario: molti dati di backup
vengono compressi prima di essere scritti su nastro e la maggior parte dei
prodotti SCO aggiunge compressione ai dati deduplicati.

Deduplicazione globale dei dati vs deduplicazione locale
Quando installate la prima soluzione di deduplicazione dati
per il backup, il sistema ha bisogno di diverso tempo per estrarre i
duplicati a livello di sub-file. Nella prima settimana, la riduzione di
capacità può raggiungere solo un fattore 2 a 1, per esempio a fronte di un
backup completo e sei incrementali. Nelle settimane successive, con il
susseguirsi dei backup completi e incrementali giornalieri, il rapporto
migliorerà, arrivando anche a un fattore 20 a 1.

Se però i backup sono fatti con intelligenza, evitando di
includere più volte gli stessi dati, non abbiamo bisogno della deduplicazione.
La deduplicazione globale entra in gioco quando un unico sistema può estendere
la duplicazione a tutta l’azienda, piuttosto che su ogni singolo computer.

Gli attuali sistemi di deduplicazione dati si differenziano per il
modo in cui eseguono la deduplicazione, per esempio inline o post-processing,
se utilizzano una virtual tape library (VTL) o un’interfaccia network-attached
storage (NAS) e così via.

Ma la principale differenza architetturale sta nel
fatto che i sistemi siano a singolo nodo o scale-out (a volte detti clustered).
Le soluzioni scale-out possono eseguire la deduplicazione dei dati semplicemente
aggiungendo nuovi nodi. Anche un sistema di soli due nodi migliora
l’affidabilità in quanto la configurazione può far fronte alla rottura di un
disco in ogni nodo o al guasto di un intero nodo. I nodi possono essere gestiti
come un unico sistema per creare una soluzione di deduplicazione globale. Un sistema
a singolo nodo non ha visibilità sugli altri nodi, quindi anche se su più nodi ci
possono essere blocchi o file identici saranno considerati come un unico dato e
memorizzati su ogni nodo.

I vantaggi della deduplicazione dati a livello globale possono
sembrare ovvi, ma in pratica le cose sono un po’ diverse. Mettereste tutti i
vostri sistemi allo stesso livello, gestendoli con un’unica soluzione per
l’intera azienda? E se avete più filiali, sarebbe auspicabile che queste condividessero
un repository di backup? Probabilmente no. Intendiamoci, non è che voglio
instillare l’idea che le soluzioni scale-out siano scadenti. Tutt’altro:
ritengo che questa sia l’architettura migliore in quanto riduce la
proliferazione e consente di decidere se creare un sistema monolitico o più
sistemi standalone.

Ma non sono convinto che la deduplicazione globale sia la ragione
principale per preferire i prodotti scale-out. La deduplicazione globale potrà
produrre rapporti di riduzione migliori, ma se confrontata con sistemi
standalone, la differenza è spesso di poco conto.

Quando la deduplicazione globale fa davvero la differenza
Tuttavia, ci sono situazioni in cui la deduplicazione globale ha
una grandissima importanza. Prendiamo come esempio NetBackup PureDisk di Symantec. Lo installate nel data center
principale, con versioni più piccole in ciascuna delle vostre sedi remote.

Tutte sono scale-out, ma è probabile che l’installazione del data center sia multi
nodo mentre quelle remote siano sistemi a singolo nodo (o dual-node).

I dati
sono suddivisi secondo precise strutture in ogni sito remoto, confrontati automaticamente
con l’unità master nel data center per verificare che non esistano già e poi
spostati o contrassegnati con un puntatore.

Poiché il data center è il punto di
riferimento, tutti i dati su tutti i siti remoti sono deduplicati e l’unità
master è davvero molto efficiente in termini di deduplicazione dei dati.

Tenete
presente che le soluzioni a singolo nodo, come per esempio EMC Data Domain, consentono
tale eliminazione tra i siti remoti. Ma in questo caso avere una grande unità
scalabile presso il data center può fare la differenza.

EMC ha a listino un sistema di Data Domain a due nodi, dove ogni nodo è “consapevole” dell’altro
e così vengono eliminati i doppioni in entrambi i nodi. Possiamo considerare
questo sistema “quasi” scale-out, il quale forse è il precursore di una prossima
vera soluzione scale-out completa.

Il prodotto di FalconStor Software è un po’ diverso architetturalmente.
La sua VTL è scale-out, ma non integra la deduplicazione dei dati. E’ un altro
prodotto scale-out di FalconStor, Single Instance Repository (SIR), a risiedere
sulla stessa rete locale (LAN) e a eseguire la deduplicazione dei dati su base
post-processo. Si potrebbe considerare questo un esempio di un sistema in grado
di fare la deduplicazione globale dei dati.

L’approccio di NetApp è unico nel settore perché offre una
funzionalità di deduplicazione gratuita (anche comunque regolata da una licenza).
Questo è un caso unico nel settore in cui la deduplicazione, come la definiamo
noi, è utilizzata per ottimizzare la capacità sia sullo storage primario sia su
quello secondario.

Si utilizza un metodo post-processo che esegue ricerche a
livello di blocco per ridurre i dati ridondanti. Quando i dati sono necessari
per un’applicazione, vengono presentati nel formato originale, magari con una
piccola latenza, in quanto il file deve essere ricostituito.

Se lo storage è
utilizzato per archiviare i backup, l’ottimizzazione della capacità è fatta
esattamente nello stesso modo.

Questa è l’unica soluzione che sinora abbiamo
visto usare una tecnica che applica la tecnologia di deduplicazione sia ai dati
primari sia a quelli secondari. Recentemente, NetApp ha aggiunto la compressione
per i dati primari e secondari. Questo rende NetApp unica nel suo approccio
all’ottimizzazione della capacità, e sfuma le linee di demarcazione che ho
definito in precedenza, ma oggi non offre la deduplicazione globale.

Permabit Technology è un altro player degno di nota. Fino a poco
tempo fa, l’azienda offriva un appliance concepito per i dati di archivio. Era
un classico scale-out e impiegava la deduplicazione e la compressione dei dati per
ottimizzare l’utilizzo della capacità.

Permabit ha recentemente isolato il
motore di deduplicazione e lo ha reso disponibile per quegli OEM che non hanno
tecnologie PSO o SCO.

Poiché il sistema di archiviazione di Permabit, Permeon,
può essere utilizzato come destinazione del backup, come archivio o come storage
primario tier 3, la società afferma che il suo motore di riduzione dei dati
combina i vantaggi di tutte le tecnologie di ottimizzazione della capacità e che
li applica equamente allo storage primario e a quello secondario. BlueArc, LSI
e Xiotech sono tra gli OEM che hanno già adottato questa tecnologia.

Da una
prospettiva di deduplicazione globale, l’architettura Permabit è effettivamente
conforme alla nostra definizione, così come lo sono HydraStor di NEC e VTL di Sepaton
con le appliance DeltaStor.

La deduplicazione globale dei dati è una caratteristica importante,
specialmente quando applicata alla gestione dei dati in siti remoti. Ed è
difficile trovare aspetti negativi quando si ha un limitato numero di sistemi
da gestire.

Anche l’essere in grado di “scalare” semplicemente aggiungendo un
altro nodo con il sistema che ridistribuisce automaticamente i dati sul
back-end rappresenta grande vantaggio e non ha molto senso diventare matti a
cercare delle alternative per ottenere pochi punti percentuali in più di
deduplicazione a livello aziendale.

Però non inseguite la deduplicazione
globale dei dati a tutti i costi. Scegliete un’architettura scalabile, ma non
solo per la possibile deduplicazione globale dei dati che è in grado di offrire.

*fondatore e presidente di Taneja Group, azienda di analisi e
di consulenza focalizzata sullo storage

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome