Manutenzione preventiva per i data center

Quando si progetta e costruisce un data center, molto tempo è dedicato alla ricerca della giusta posizione, valutazione dei modelli di progettazione, scelta dell'attrezzatura giusta e verifica della corretta costruzione dell'edificio.

Ci sono anche norme rigorose da seguire durante l'intero processo di messa in servizio, inclusi controlli come i test Ist (Integrated system testing). Gli operatori dei data center stanno però investendo meno nella manutenzione dell'infrastruttura dopo avere compiuto notevoli sforzi per perfezionarla durante le fasi iniziali.

Questo spostamento può essere descritto come un passo verso un approccio di manutenzione reattivo. Comprensibilmente, ogni data center deve cercare di ridurre il più possibile i costi e, una volta che un impianto è in funzione, la manutenzione può spesso diventare un'area su cui lavorare per quanto riguarda l'Opex.

Il data center lavora come il primo giorno

La manutenzione preventiva è una delle strategie più critiche all'interno di un data center. La garanzia che un impianto venga mantenuto conforme ai parametri di progettazione originali significa che il data center lavora esattamente come fosse il primo giorno.

Man mano che i team dei data center si orientano verso un modello di manutenzione reattiva, non comprendono i rischi che devono affrontare. Se la manutenzione non è stata eseguita correttamente, può verificarsi un guasto in cascata. In tal caso la struttura potrebbe passare rapidamente da una perdita di ridondanza a una perdita di servizio.

Il 99% dei guasti nei data center è dovuto a errori umani. La manutenzione reattiva è quindi più costosa di un modello preventivo. Quando un'apparecchiatura fallisce, la correzione sarà molto più costosa di una manutenzione preventiva.

Procedure di gestione dei rischi

Esistono due serie di documenti indispensabili per il funzionamento efficace di un data center. La prima, la procedura operativa standard, assicura che i team operativi sappiano esattamente come l'apparecchiatura deve funzionare quotidianamente. Se le squadre stanno lavorando alle loro Pos, dovrebbero essere in grado di identificare un problema e affrontarlo molto rapidamente.

La seconda serie di linee guida è costituita dalle procedure operative di emergenza. In caso di emergenza, come ad esempio una serie di guasti alle apparecchiature, gli operatori dei data center possono seguirli e sapranno cosa aspettarsi in quel particolare scenario.

Tuttavia, i rischi possono essere ridotti al minimo se il personale addetto alle operazioni dei centri di calcolo ha pienamente provato le procedure operative standard e i Pos, limitando il tempo necessario per eventuali problemi che potrebbero sorgere all' interno dello strumento.
Anche il test tattile è un' importante misura preventiva.

Ogni trimestre, i team operativi possono effettuare la revisione che valuta la loro capacità di mantenere e gestire il sito. Queste officine dal vivo sono in grado di identificare rapidamente le aree a rischio e offrono l'opportunità di aiutare i responsabili dei centri dati a personalizzare le loro procedure operative standard e i Pos da un punto di vista meccanico. Anche perché molti guasti sono dovuti anche al fatto che le persone non capiscono come funziona l'apparecchiatura o non riescono ad apportare modifiche, come lo spegnimento dei componenti.

Ottimizzazione delle infrastrutture

Gli operatori dovrebbero anche valutare i carichi di calore It. Molti data center nei loro primi giorni hanno carichi molto bassi, il che significa che l'attrezzatura non può sempre funzionare correttamente - tutto sta andando a basso regime e accendere e spegnere l'attrezzatura non è un uso sano del sistema.

In questi casi, è necessario avviare una strategia a basso carico per ottimizzare l'attrezzatura in modo da adattarla ai carichi in continua evoluzione. Ciò può aiutare a identificare dove un'apparecchiatura deve essere spenta, garantendo allo stesso tempo la resilienza e le specifiche di progettazione. Inoltre, concentrandosi sulla manutenzione preventiva è necessario documentare ogni guasto e possedee una chiara idea di quando un'apparecchiatura ha dei problemi. Utilizzando un tempo medio tra una frequenza di guasto e l'altra, è possibile misurare in quale punto del suo ciclo di vita si prevede che un componente in un data center vada in tilt.

 

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche iscriviti alla newsletter gratuita.
CONDIVIDI

LASCIA UN COMMENTO

Please enter your comment!
Please enter your name here