Gli errori da evitare per non compromettere la qualità dei dati

Fernando Leoni -

24 Febbraio 2003

Scopriamo perché si ottengono risposte sbagliate quando si integrano due database operativi, anche se la qualità dei dati, originariamente, è ottima. Alla base, ci sono quattro cattive abitudini. Ci aiuta a scoprirle il responsabile dei prodotti di Ascential, Stephen Brown.

Nonostante i progressi della tecnologia, il problema della qualità dei dati è sempre diffuso.

Si può imputare la scarsa qualità dei dati alla crescita della loro quantità, oppure alla eterogeneità dei contenuti provenienti da sorgenti mal documentate, oppure, ancora, alle nuove esigenze del business che i vecchi dati devono soddisfare. Il tutto vale anche per i metadati, che non sono dati in quanto tali, ma una descrizione degli stessi: descrizione che, peraltro, spesso non è completa, affidabile o aggiornata. "I dati non hanno alcuna intrinseca realtà semantica, sono l’espressione di un’ipotesi che vuole che essi rappresentino un fatto, un oggetto, un attributo, un evento – dice Stephen Brown, direttore della divisione prodotti di Ascential -. Questa supposizione nasce dalle esigenze della comunicazione tra individui, ma è inficiata dall’ambiguità del linguaggio e dalla variabilità delle percezioni e del comportamento umano. Insomma, tendiamo a dimenticarci che i dati non coincidono con ciò che descrivono, ma ne sono solo la rappresentazione. Per questo motivo, il valore di un singolo dato può essere vero solo da un certo punto di vista, in un determinato contesto temporale e spaziale".

Il problema, dunque, è semantico. Ma la convinzione che i dati siano giusti o sbagliati è la più grande violazione delle regole della semantica generale.

"Questa convinzione errata – sostiene Brown – ancora largamente sostenuta dalle strutture It e dagli utenti finali, è responsabile di molti dei milioni di euro persi a causa del fallimento dei progetti, dei costi non previsti, del mancato ritorno sugli investimenti e della perdita della fedeltà dei clienti e quindi dei ricavi".

Da questo "peccato originale" sulla qualità dei dati nascerebbe una serie di trasgressioni commesse quotidianamente. Queste violazioni presuppongono che i dati abbiano uno stato dualistico, che possano o debbano essere standardizzati e validati e che, quando sono stati ripuliti, debbano conservare la loro qualità. Queste convinzioni errate, che originano la maggior parte dell’attività tradizionale di pulizia dei dati, alimentano un approccio che spesso tratta solo i sintomi del problema, ma che non ne identifica le cause e non permette di agire per attivare procedure e servizi che possano essere di supporto alle comunità di utenti.

"Capire l’errore di fondo consentirà un più efficiente uso delle tecnologie di data cleansing. L’assunzione che un valore è corretto o sbagliato, pulito o sporco, è una semplificazione della realtà rappresentata dai dati", sostiene Brown.

Gli errori nell’approccio alla qualità dei dati privano le aziende delle risorse per risolvere in modo adeguato il problema. Non si pone la dovuta attenzione ai costi generati dai dati scadenti e su ciò che è necessario per ottenere livelli accettabili di qualità dei dati, finchè non si manifestano problemi quali la perdita di clienti, il fallimento dei progetti It, controversie legali o costi crescenti.

I quattro errori da evitare

Gli errori più ricorrenti nell’approccio al problema della qualità dei dati, secondo Brown, sono quattro.

Primo errore: rifiutare la re-ingegnerizzazione dei dati. Spesso si pensa che i vecchi dati potranno essere utilizzati in modo adeguato senza bisogno di un processo di "re-engineering" della qualità. Solo perché i dati erano esatti per alcuni scopi precedenti, ciò non significa affatto che essi siano idonei anche per un nuovo sistema o un nuovo gruppo di utenti, soprattutto quando i dati devono essere combinati con una serie di altre fonti diverse, ognuna con le proprie caratteristiche. Secondo errore: sovrastimare le funzionalità degli applicativi. Spesso gli utenti pensano che i nuovi applicativi possano risolvere i problemi come per magia. In realtà, il fatto che un nuovo sistema Erp o Crm fornisca un modello dati e un’interfaccia progettati per supportare una visione completa di clienti, fornitori e terze parti, non significa che sia la panacea per tutte le tipologie di aziende. Attualmente a questi sistemi mancano le tecnologie per la qualità dei dati necessarie per realizzare il lavoro di reingegnerizzazione dei dati storici. In alcuni casi, poi, manca la complessità funzionale per produrre più versioni della "verità" a seconda dei contesti degli utenti.

Terzo errore: attribuire ad altri la responsabilità della qualità dei dati. Spesso la responsabilità sulla qualità rimbalza tra i dipartimenti: tutti si aspettano che la qualità dei dati sia garantita da una terza parte, un fornitore, o un system integrator.

Ultimo errore: procrastinare, cioè la strategia finalizzata a spostare la responsibilità più in là nel tempo. Questa convinzione di poter aggiustare qualcosa dopo che questo è già stato implementato è una strategia di corto respiro: le correzioni che vengono effettuate a posteriori costano dieci volte di più di quelle in fase di implementazione. C’è, allora, qualche speranza di ottenere una buona qualità dei dati? Secondo Brown, sì: "Una volta individuato il problema di fondo è relativamente facile capire cosa è necessario fare per una soluzione duratura. Innanzitutto bisogna farsi promotori del messaggio che la qualità dei dati è uno stato relativo. Ci saranno più versioni della verità. Un punto di osservazione aziendale di tutte le entità tipiche del business, come persone, luoghi e cose, non si traduce in un unico fatto, ma solo in una chiave unica che collega le rappresentazioni del passato con quelle del presente, e con i contesti nei quali i dati sono stati creati. La qualità dei dati non è un lavoro di pulizia immediato, ma un processo continuo di re-engineering". Per far ciò saranno necessari software per estrarre, profilare, trasportare, trasformare, analizzare, standardizzare, catalogare, combinare i dati e riformattarli. Sarà necessario mantenere più rappresentazioni e comprenderne il contesto, in modo che quando il sistema sarà interrogato, sarà in grado di fornire la versione più appropriata all’utente o all’utilizzo.

I costi variano a seconda della complessità dei dati e dei processi di business coinvolti. Generalmente, aumentano in proporzione al rischio e/o al beneficio nell’utilizzo delle informazioni prodotte dal processo.

I costi per le licenze software sono competitivi, rispetto al passato, ma la formazione del personale potrebbe rappresentare il costo maggiore. Ciò è vero soprattutto per i dati mai automatizzati, come i cataloghi prodotti o i dati di un fornitore esterno. È possibile minimizzare i costi di interoperabilità con componenti di fornitori di suite di integrazione dati. Non bisogna dimenticare, però, che le regole di business specifiche dell’azienda moltiplicheranno lo sforzo: una sola misura non va bene per tutte le esigenze.