Tiering negli ambienti storage Raid, come farlo bene

F.L. -

6 Dicembre 2011

Pro e contro di un’organizzazione a livelli dello storage. Dove mettere i dati caldi, dove quelli freddi, con quali tecnologie disco e quali risultati. Su queste e altre questioni si propone di fare luce un’esperta della memorizzazione, Kimberly Robinson, Performance Engineer di Lsi.

Con l’arrivo dei dischi a stato solido (Ssd), l’abbattimento dei costi delle memorie volatili ad alta velocità, il basso costo delle unità Sata e l’affidabilità dei prodotti Sas, l’organizzazione ottimale e l’integrazione delle nuove tecnologie di storage sono attività diventate più complicate. Oggi, infatti, esiste l’opportunità di collocare i dati cosiddetti hot, ad accesso più frequente, su supporti più veloci e con tempi di latenza più contenuti, lasciando invece i dati a cui si accede raramente, freddi, su supporti con tempi di latenza più elevati e dai costi più bassi.

Con una tale scelta a disposizione la possibilità di utilizzare in modo innovativo metriche legate ai costi, alle prestazioni e alla capienza per determinare la collocazione ideale dei dati utente è una grande opportunità.
I server oggi mettono a disposizione numerose funzionalità di diverso tipo e ogni applicazione genera un carico di lavoro con caratteristiche univoche. Inoltre, l’esigenza di determinate prestazioni dipende dal carico di lavoro di quello specifico momento e dai requisiti di QoS (Quality Of Service). Nonostante gli ambienti di storage dispongano oggi di più opzioni di quante ne abbiano mai avute in passato, con conseguente maggiore livello di personalizzazione, sono diventati più complessi, complicando la gestione delle prestazioni dello spazio disponibile.
Questa attività, infatti, richiede una conoscenza di numerosi elementi: le caratteristiche dell’I/O applicativo, i requisiti in termini di crescita della capienza e delle prestazioni, le caratteristiche prestazionali dei dischi e delle unità di storage, le esigenze di protezione dei dati e, naturalmente, il budget aziendale.

Per chiarirci le idee su come fare, chiediamo aiuto a Kimberly Robinson, che lavora come Performance Engineer nella Storage Division di Lsi, dove si è occupata dell’ottimizzazione delle soluzioni di storage di livello enterprise per i principali Oem per oltre dieci anni.

Gli attuali controller per lo storage, per Robinson, dispongono di molte opzioni per qualsiasi livello di budget: nuove tipologie e composizioni di Raid, funzionalità evolute, opzioni di cache avanzate, oltre a diverse possibilità di riduzione dei carichi di lavoro dell’hardware.
I processori integrati avanzati disponibili attualmente hanno reso i controller “intelligenti” per lo storage ancora più ricchi di funzionalità, consentendogli di estendere le loro capacità e di adeguarsi alle nuove tecnologie emergenti.
Le tecnologie dei dischi non fanno eccezione.

Sata, Sas e Ssd
La Serial Attached Scsi (Sas) è stata progettata per integrare Sata e Sas, in modo che le due interfacce si possano unire per creare una struttura di storage personalizzata in termini di costi e prestazioni.
La popolarità della tecnologia Sata si basa soprattutto sul suo eccellente livello di costo in rapporto alla capienza, mentre per prestazioni offre solo il livello minimo disponibile.
La Sas offre prestazioni decisamente più elevate e maggiore affidabilità, ma a costi più elevati. Gli Ssd, infine, offrono prestazioni nell’accesso casuale incredibilmente più elevate rispetto a quelle dei supporti con piatti rotanti, ma in questo caso il prezzo sale notevolmente. Alla complessità si aggiungono i risultati prestazionali, che variano a seconda della tipologia Raid utilizzata.

Il Raid ideale
L’ottimizzazione dei carichi di lavoro richiede la comprensione delle specifiche caratteristiche di I/O e la conoscenza di come farle coincidere con la tipologia di Raid ideale in base alle esigenze di disponibilità.
Se ci focalizziamo sul Raid 10, per Robinson, si vede come alcune tipologie di dischi siano particolarmente adatte a specifiche applicazioni, con gli Ssd che costano in media 6,5 volte in più delle unità Sas da 6Gb/s e 15mila giri per minuto (Rpm). Eppure nel mondo reale non tutte le applicazioni offrono un incremento delle prestazioni pari a 6,5 volte.

Spesso, secondo Robinson, ci si pone una domanda: “Di quanti dischi con piatti rotanti ho bisogno per arrivare a offrire le stesse prestazioni degli Ssd?”.
Per rispondere bisogna considerare che in genere, in uno specifico momento, si accede solo a una porzione dello storage disponibile. Partendo da questo presupposto, per decenni si sono messe a punto con successo architetture basate sulla cache.
Ma che cosa accadrebbe, si chiede ancora Robinson, se fosse possibile realizzare un sistema di storage con supporti diversi e con caratteristiche di prezzo e prestazioni differenti dalle attuali?
I produttori di storage sanno che con la prevalenza di architetture basate su supporti non uniformi un’organizzazione a livelli è la migliore soluzione possibile.

Adesso tiering
Il tiering dello storage è un concetto semplice: collocate i dati utilizzati più frequentemente sulle unità disponibili più veloci, lasciando i dati consultati più raramente su supporti più lenti.
Il tiering è diverso dal caching, dato che per memorizzare i dati dell’utente può essere utilizzata la capienza di tutti i dischi logici che fanno parte del sistema.
Questo concetto non faceva parte delle strategie di gestione dello storage, ma l’arrivo di una tecnologia come quella degli Ssd ha aperto la strada a nuove opportunità.

Vediamo un esempio di come l’organizzazione a livelli dello storage possa essere d’aiuto in un ambiente database. Un’azienda sta mettendo a punto un nuovo server Sql, e in base alla sua esperienza dispone delle seguenti informazioni:
• 4 terabyte di storage
• il 3% dei dati è ad accesso frequente (circa 125 Gb) per circa il 65% del tempo
• al 6% si accede a intermittenza (circa 250 Gb) per il 25% del tempo
• il resto è costituito da dati a cui si accede raramente per circa il 10% del tempo
• al database si accede con blocchi di 8 Kb, con un rapporto di lettura/scrittura pari a circa 2:1
• per i dischi sono disponibili otto vani.

Una soluzione ideale attenta ai costi che metta a disposizione 4 Tb potrebbe essere quella di creare un dispositivo logico che offra le prestazioni richieste per ciascun livello di dati, sia in termini di velocità di I/O per secondo sia in termini di tempi di risposta.
Ci sono quindi varie alternative con dischi omogenei. L’opzione della gestione a livelli non solo offre un costo più basso per ciascuna transazione del database, ma offre anche una capacità di Iops che supera di oltre sei volte quella di una soluzione Sata e più di tre volte quella di una soluzione esclusivamente Sas, con più capienza rispetto alle altre proposte.

Le molte soluzioni disponibili possono essere realizzate sulla base delle prestazioni, del costo, della capienza o delle limitazioni legate agli immobili. Naturalmente lo stesso risultato si può ottenere con una gestione manuale, presumendo che si sappia esattamente quali sono i file che verranno utilizzati più spesso; si abbia la capacità di separarli fisicamente su supporti differenti; i dati più frequentemente utilizzati non siano transienti o dinamici

Pro e contro del tiering
L’organizzazione a livelli dello storage è la migliore soluzione possibile. Sfruttando diverse tipologie di supporto, i costi e le prestazioni possono essere ottimizzati, salvaguardando gli immobili occupati in precedenza dai server.
Bisogna considerare che, per ottenere lo stesso numero di Iops nel database raggiungibili con il tiering indicato nell’esempio, ci vorrebbero oltre 50 dischi Sata, con conseguente aumento significativo di energia e di spazi.

L’opportunità di utilizzare la gestione a livelli può far ottenere un ambiente dinamico in cui i dati ad accesso più frequente vengono continuamente e automaticamente gestiti sui supporti più veloci anche quando i dati più critici devono essere collocati su volumi a elevata disponibilità o quando l’accesso ai dati avviene da luoghi geograficamente distanti e quindi è opportuno che vengano copiati su sistemi di storage locali.

Nonostante i benefici del tiering, per Robinson ci sono alcune controindicazioni da tenere in considerazione.
Sebbene il lavoro di identificazione e adeguata memorizzazione dei dati ad accesso frequente venga fatto automaticamente, la realizzazione di un adeguato sottosistema di storage che risponda alle attuali e future esigenze è un compito che è meglio affidare a un professionista esperto nello storage.
Un altro potenziale svantaggio è che, utilizzando un modello di storage gestito a livelli, anche quando un volume logico appare unitario, in realtà potrebbe essere frammentato su gruppi di dischi fisicamente diversi.
Utilizzando la protezione Raid a livello hardware, la possibilità di perdita dei dati può comunque essere ridotta.

Oggi, secondo Robinson, ci troviamo nel mezzo di una “tempesta perfetta” tecnologica, che comprende più elementi: un drammatico incremento delle esigenze di capienza nello storage, un numero di opzioni per i dischi mai così elevato, la richiesta di prestazioni sempre più elevate a causa delle crescente diffusione delle transazioni digitali, l’aumento della densità nei sistemi di elaborazione e la necessità di una maggiore protezione del nostri asset più preziosi, ovvero i dati. La gestione a livelli consente di trarre vantaggio dai bassi costi dello storage Sata, dalla sicurezza e dall’affidabilità della tecnologia Sas e dalle elevate prestazioni degli Ssd.
Tutto in un’unica soluzione.