Come si valuta un fermo della rete

Roberto Picozzi (*) -

13 Dicembre 2007

Metodi per dare la giusta misura all’eventuale downtime della propria Wide area network.

In questo spazio (Techne – Con parole mie) i protagonisti della tecnologia raccontano e si raccontano, portando alla luce la miscela virtuosa di tecnica ed esperienza al servizio delle esigenze dell’utenza. Parlano sulla base della conoscenza, evitando di fare riferimento alla propria produzione, bensì portando il discorso su un piano generale e fruibile da tutti.

Quanto può “costare” a un’impresa il guasto di una Wide area network? Il calcolo va oltre la semplice assegnazione di un valore monetario al tempo di interruzione del funzionamento del sistema, alle potenziali transazioni perse o al valore dei beni non prodotti. Per essere davvero rappresentativa, l’analisi deve tenere conto anche dell’impatto negativo che l’interruzione del funzionamento avrà sulla fiducia dei clienti, sull’immagine aziendale e sulla brand reputation, che sono molto più difficili da quantificare, ma potenzialmente ben più distruttivi.

Negli ultimi dieci anni i datacenter e gli applicativi sono diventati sempre più centralizzati e consolidati. Come risultato, guasti in un punto singolo o interruzioni del funzionamento di una wide-area network (Wan) possono avere conseguenze di portata molto vasta. Diventa dunque obbligatoria un’appropriata attribuzione e valutazione del rischio per la formulazione dei piani di sicurezza e di backup.

Qui si evidenziano alcuni fattori coinvolti nella valutazione delle implicazioni di costo in caso di guasto della Wan, e nella pianificazione delle conseguenze determinate da tale guasto. Particolare attenzione viene dedicata allo sviluppo di una più ampia strategia di gestione del rischio che possa così formulare delle linee guida rispetto alle priorità di business, alla continuità e agli investimenti per il disaster recovery.

Attribuire un costo specifico all’interruzione del funzionamento di una rete è una sfida molto impegnativa, perché non si deve solamente quantificare la mancata produttività e i mancati ricavi, ma bisogna anche tenere conto dell’impatto su reputazione e fiducia.

Si consideri questo esempio: siete un cliente in coda alla cassa in un grande magazzino. Avete il carrello pieno di prodotti. Il sistema computerizzato della cassa si blocca e siete bloccati in coda per 30 minuti e ve ne andate senza acquistare nulla.

Da un lato (semplificando), il “costo” per il grande magazzino del malfunzionamento equivale al valore dei prodotti che erano nel vostro carrello. Ma un costo potenzialmente più significativo è rappresentato dalla vostra perdita di fiducia nei confronti di quel grande magazzino e la possibilità che la prossima volta andiate a fare acquisti altrove.

È come immaginare una piramide, in cui i costi crescono esponenzialmente dall’alto verso il basso.

Al vertice c’è il costo dell’It, ossia il costo diretto specifico per il personale di rete, l’hardware e il software utilizzati per l’identificazione e la risoluzione di un problema. Questa voce di costo può essere calcolata come: numero di persone coinvolte x numero di ore x un valore di criticità a cui viene assegnato un valore in euro.

Poi c’è il costo indiretto dell’It include il costo-opportunità, definito come i ricavi che le risorse impiegate per risolvere il problema avrebbero potuto conseguire se non fossero state allocate sul problema.

In mezzo c’è il costo interno del business, che comprende la perdita di produttività dei dipendenti dell’azienda, così come gli oneri legali o contrattuali sostenuti o le riserve finanziarie utilizzate per la gestione del rischio.

Verso il fondo c’è la perdita diretta di profitti, che misura la perdita in termini di vendite mancate o di rinunce ad effettuare acquisti da parte dei clienti, basate sul volume medio di transazioni o di vendite.

La base della piramide è la perdita indiretta di profitti del business, che si riferisce ai costi legali e agli altri costi collaterali associati alla non esecuzione di un’attività dell’azienda, nonché al danno recato alla reputazione dell’azienda (il cui costo comprende gli acquirenti che non torneranno più in quel negozio a seguito dell’esperienza negativa).

È stato rilevato che i costi legati ai tempi di arresto rappresentano una delle maggiori cause di perdita di profitti per le grandi imprese. Secondo uno studio, un’istituzione finanziaria media è soggetta a 1.180 ore all’anno di tempi di arresto, il che equivale al 16% dei profitti annuali ovvero a circa 200 milioni di euro. L’industria manifatturiera perde, in media, il 9% dei propri ricavi annui. Le aziende ospedaliere e le aziende di trasporti/logistica presentano dei risultati migliori essenzialmente perché hanno una percentuale minore di dipendenti connessa alla rete.

Gli impatti di business possono variare notevolmente a seconda dell’azienda, del settore e del tipo di malfunzionamento. Per il settore dei servizi finanziari, i costi dei tempi di arresto posso essere anche di milioni di euro al minuto.

I carrier hanno cercato di sviluppare delle linee guida standard che quantifichino i costi relativi al malfunzionamento dei servizi di telecomunicazione per specifici mercati verticali, ma questi studi non hanno evidenziato sufficienti punti comuni. I carrier sono stati riluttanti ad attuare un’analisi costi/rischi customer-by-customer, in quanto questo genere di analisi richiede un esame dettagliato delle statistiche dei tempi di arresto dei carrier stessi, e questi ultimi non sono particolarmente inclini a mettere a disposizione tali dati.

I diversi settori hanno sviluppato approcci differenti per mitigare il rischio. Nel settore della sanità, la tradizionale soluzione è stata quella di mantenere dei sistemi di back-up manuali. A Wall Street (dove i tempi di arresto sono una questione di sopravvivenza) si sono affidati a dei sistemi multipli ridondanti, senza tener conto dei costi, e ignorando generalmente la possibilità di quantificare o descrivere accuratamente i rischi.

Un’analisi dei processi di business può quantificare accuratamente il costo e il rischio associati ad un potenziale periodo di arresto, sia in termini di costi diretti e indiretti, di opportunità perse e di danno alla reputazione di una data azienda. Questo approccio vale per specifiche topologie, geografie, applicazioni centralizzate e caratteristiche di utenti finali che sono uniche per ciascuna organizzazione. Ancor più importante, una prospettiva focalizzata sul business può minimizzare i danni derivanti da un periodo di arresto.

La chiave per quantificare e mitigare in modo efficace il rischio di un periodo di arresto della rete è quello di concentrare l’attenzione sugli aspetti del business e sulle esigenze dei clienti – anziché solamente sulle soluzioni tecniche – e sviluppare sistemi e capacità ridondanti che possano efficacemente supportare e ripristinare le operazioni critiche.

Da un punto di vista più ampio, una soluzione di business è generalmente più pratica e più efficace, sotto il profilo dei costi, che non una soluzione tecnica. La maggior parte dei periodi di fuori servizio non sono il risultato di un sofisticato guasto tecnologico.

Infatti, quasi più del 85% dei casi sono dovuti a guasti “dell’ultimo minuto” e, spesso, sono dovuti a fatti molto banali come, ad esempio, il distacco accidentale di un cavo.

Sebbene una rete ridondante possa impedire il verificarsi di tempi di arresto causati da incidenti del tipo citato, una soluzione tecnologica di questi eventi ha un costo tale da renderla proibitiva per la maggior parte delle aziende.

In molti casi, un approccio più efficace dal punto di vista dei costi è quello di cercare di risolvere il problema di business che deriva dal periodo di arresto. Gli aspetti di business dovrebbero essere il punto focale del piano di recovery, anche se la pianificazione tecnica e l’attività di testing dei sistemi di disaster recovery e dei sistemi di contingency restano certamente essenziali. Per quanto concerne le priorità, i sistemi di back-up dovrebbero concentrarsi prima di tutto sui crediti commerciali e i contatti clienti; i debiti commerciali e i processi per le retribuzioni possono aspettare.

Da questa prospettiva, la domanda chiave da porsi non è tanto “Come facciamo per impedire il verificarsi di periodi di downtime della rete?” Ma piuttosto: “Quali processi e funzioni si devono proteggere durante il processo di ripristino?” Questo approccio richiede un’analisi dell’intera catena di business, così da poter distinguere i processi maggiormente sensibili al fattore tempo e le attività essenziali per il customer care e per la creazione di cash flow, assicurandosi che ciascun collegamento della catena sia adeguatamente coperto.

(*) Managing Consultant Compass Management Consulting Italia