La disciplina della preservazione digitale

Come si struttura l’insieme di processi, attività e tecnologie per conservare grandi quantità di oggetti digitali in formato eterogeneo per lunghi periodi di tempo.

In questo spazio (Techne – Con parole mie) i protagonisti della tecnologia raccontano e si raccontano, portando alla luce la miscela virtuosa di tecnica ed esperienza al servizio delle esigenze dell’utenza. Parlano sulla base della conoscenza, evitando di fare riferimento alla propria produzione, bensì portando il discorso su un piano generale e fruibile da tutti.

L’esigenza di conservare informazioni digitali per lunghi periodi di tempo è sempre più sentita.

Soggetta a regolamentazioni di vario tipo, si sta diffondendo in vari settori di industria, come nella sanità per cartella clinica, analisi mediche e refertazione, nella la ricerca sanitaria per risultati analisi e test farmaceutici, nella finanza per transazioni commerciali, polizze assicurative, contratti finanziari, l’industria aerospaziale e automobilistica: disegni di progetto, schema parti di ricambio, specifiche sicurezza, nella ricerca petrolifera per l’analisi terrestre, nella ricerca scientifica per dati satellitari, clima, malattie, nella cultura per biblioteche, archivi storici, musei.

La preservazione digitale (digital preservation) è quell’insieme di processi, attività e tecnologie utilizzati per conservare grandi quantità di oggetti digitali in formato eterogeneo per lunghi periodi di tempo. Questa disciplina analizza le problematiche legate alle evoluzioni delle tipologie di utenti e delle tecnologie informatiche come l’hardware, il sistema operativo e le applicazioni.

Esistono vari approcci alla preservazione digitale: a titolo di esempio ipotizziamo di voler sottoporre a preservazione un documento scritto in Word 3.0 nel 1986 su un pc Ibm At con sistema operativo Ms-Dos 3.0 e memorizzato su un floppy disk da 5.25 pollici.

Potremmo seguire l’approccio “museale”: il contenuto e lo strumento per la sua interpretazione sono conservati nel loro stato originale e mantenuti operativi. Nel nostro esempio per preservare il documento in formato Word 3.0 devo conservare perfettamente funzionanti un pc Ibm At con Ms-Dos 3.0, il software applicativo Word 3.0 e il floppy disk da 5.25” che contiene il documento. Questo approccio non consente di aggiungere nuove informazioni o applicazioni per l’interpretazione del documento in futuro e richiede la manutenzione continua dei vari elementi hardware e software.

Altro approccio è quello dell’emulazione: in questo caso una tecnologia obsoleta viene emulata tramite una tecnologia corrente. Si tratta in pratica di realizzare un emulatore in grado di simulare Word 3.0 su qualsiasi tipo di computer presente e futuro. Nel nostro esempio, oltre a conservare opportunamente i bit che compongono il documento Word 3.0 occorre riscrivere l’applicazione Word mediante un meta-linguaggio portabile su qualsiasi computer.

Migrazione: unl terzo approccio prevede di trasferire l’oggetto verso nuove tecnologie ogni volta che l’hardware, il sistema operativo, l’applicazione o il formato diventano obsoleti. Nel nostro caso il documento è stato conservato nel tempo migrandolo opportunamente in Word 4.0, poi in 5.0 e così via fino a Word 2006 in Windows Xp. L’hardware è stato nel tempo cambiato per superare l’obsolescenza tecnologica del computer e del supporto di memoria.

Infine c’è l’approccio descrittivo, che prevede che, oltre all’oggetto, siano conservate le informazioni che consentono la riproduzione del dato. Nel nostro caso si deve conservare una descrizione del contenuto in un formato non-Word. Questo approccio può non essere in grado di preservare il contenuto informativo completo dell’oggetto da conservare.

Non esiste oggi una metodologia ottimale e ogni volta si sceglie quella più adatta in base al tipo di dati, allo scopo della conservazione e alle esigenze organizzative. Sicuramente le soluzioni di storage rivestono un aspetto importante perchè nelle aziende e nelle società moderne l’informazione è sempre più creata in digitale e quindi i volumi da conservare sono sicuramente destinati a crescere notevolmente. Per esempio negli Usa il progetto Nara (National Archives and Records Administration) prevede per il 2010 di dover preservare digitalmente e per sempre 10 petabyte di dati, destinati a crescere a 230 nel 2020.

Archiviazione digitale

Normalmente si definisce archiviazione digitale la capacità di memorizzare dati digitali per accesso futuro. La preservazione è un caso particolare di archiviazione, i cui il ciclo di vita delle informazioni memorizzate è superiore a quello del programma/formato per poterlo interpretare o del supporto di memoria su cui risiede.

In generale le informazioni digitali in un sistema di preservazione hanno le seguenti caratteristiche:

– il contenuto dei dati è “read-only”

– la frequenza di accesso dei dati è molto bassa durante il ciclo di vita e decade molto rapidamente

– i metadati usati per classificare, ricercare, organizzare i dati possono essere invece molto attivi e richiedere velocità di accesso elevate e nuove informazioni al contorno possono essere aggiunte anche dopo la creazione dell’oggetto originale

– gli oggetti digitali si presentano in formati di vario tipo e dimensione e hanno un valore/importanza diversa (tra loro e nel tempo)

– i volumi di dati da gestire possono essere molto grandi e con alti tassi di crescita nel tempo

Per effetto di tali caratteristiche di solito gli oggetti non sono tutti conservati su supporti on-line ma vengono definite classi di storage differenziate per costo e per capacità: le informazioni per l’interpretazione e i metadati non sono di norma aggregati ai dati stessi perchè cambiano nel tempo e richiedono accessi frequenti e veloci per ricerche e classificazioni; i dati devono essere migrati ed eventualmente trasformati per superare l’obsolescenza dei supporti di memoria e dei formati di interpretazione.

Un sistema di preservazione digitale, allora, deve essere in grado di mettere in atto tutte le strategie e “best practice” mirate alla conservazione di lungo periodo dell’oggetto digitale. Oltre a dover gestire il processo di migrazione verso nuove tecnologie, deve assicurare anche l’integrità dei dati rilevando eventuali malfunzionamenti, degradazione dei supporti e gestire eventi disastrosi. Deve inoltre poter consentire l’aggiunta e integrazione delle informazioni di contorno (metadati).

Un tale sistema opera normalmente a due livelli: preservazione fisica a livello bit, che affronta l’esigenza di recuperare o ricostruire i dati a seguito di errori del supporto di memorizzazione, guasti del sistema o eventi di tipo disastroso come incendi o inondazioni; preservazione logica, che deve invece garantire l’interpretazione e l’usabilità futura delle informazioni conservate da parte degli utenti (detta comunità designata). La preservazione logica deve inoltre soddisfare le esigenze di provenienza del dato, autenticità, integrità, referenziabilità di informazioni collegate e consentire l’accesso agli utenti autorizzati.

Preservazione fisica

La preservazione fisica è di solito responsabilità dei sistemi storage: l’utilizzo massiccio delle tecnologie di storage fatto dalle applicazioni di information technology negli ultimi 50-60 anni ha portato allo sviluppo di diverse tecnologie per la protezione dei dati.

Nel caso dei sistemi storage a disco magnetico (nati nel 1956) le protezioni più diffuse sono il Raid (Redundant Array of Independent Disk) in grado di sopportare uno o più dischi guasti, l’Ecc (Error Correction Code) cioè il controllo integrità delle informazioni durante il trasferimento, il Pfa (Preventive Failure Analysis) in grado di intervenire prima del guasto e la ridondanza dei componenti: di solito tutti gli elementi sono ridondati per consentire l’accesso al sistema anche in caso di un malfunzionamento.

I sistemi storage a disco hanno un ciclo di vita di 3-5 anni, dovuto principalmente alla obsolescenza tecnologica ovvero alla disponibilità nel tempo di sistemi di capacità e prestazioni sempre maggiori e con un costo per unità di memoria notevolmente inferiore.
Non ha senso in questo caso parlare di degradazione del media in quanto i dischi sono sottoposti a diagnosi continua e in caso di guasto vengono sostituiti. I sistemi storage a nastro hanno un ciclo di vita di 5-10 anni, anch’esso dovuto alla evoluzione tecnologica e alla disponibilità di dispositivi più capienti e meno costosi. Anche nel caso dei sistemi storage a nastro (nati nel 1951) si utilizzano svariate metodologie di protezione dei dati.

La tecnologia magnetica è per sua natura riscrivibile: la non modificabilità dei dischi magnetici viene di solito realizzata con software “esterno” o “interno” al sistema storage che inibisce l’aggiornamento degli oggetti e la cancellazione prima della scadenza. Per la tecnologia a nastro magnetico la non modificabilità viene ottenuta anche mediante cartucce speciali “Worm” dotate di microchip e realizzate in modo tale che il drive di lettura/scrittura viene inibito delle funzioni di scrittura.

La protezione dei dati da eventi disastrosi ed esterni al sistema storage (crolli, incendi, inondazioni, etc.) si realizza invece tramite replica degli oggetti in una o più copie su sistemi storage di vario tipo a seconda del livello/velocità di ripristino richiesta. Si parla di “data back-up” quando un dato viene duplicato su un altro supporto di memoria, di solito di classe inferiore (per esempio disk to tape), che può essere utilizzato successivamente per il restore. Il back-up può essere completo (tutti gli oggetti) oppure incrementale (solo nuovi oggetti non ancora salvati). Si parla invece di “remote mirroring“ quando un sistema storage è abbinato ad uno o più sistemi dello stesso tipo (disk to disk) e i dati sono replicati in tempo reale tra i vari sistemi. Il sistema remoto è in grado, in caso di necessità, di sostituirsi a quello principale rendendo di solito una ripartenza molto veloce del servizio.

Dal punto di vista del costo di memorizzazione mensile un sistema storage a disco di capacità ha di solito un costo totale (acquisizione + gestione mensile) 8 volte superiore a quello di un sistema storage a nastro. Per quanto riguarda la componente alimentazione e consumi energetici il nastro consuma 25 volte meno energia (2). In pratica, per una preservazione digitale “sostenibile” si utilizzano configurazioni storage ibride con dischi di prestazione per i metadati (indici, termini di ricerca, informazioni di controllo, etc.), dischi di capacità per gli oggetti dati con maggiore frequenza di accesso e librerie a nastro magnetico per oggetti dati con bassa frequenza di accesso per le copie di back-up e di disaster protection.

La preservazione logica, invece, deve garantire l’interpretazione e l’usabilità futura delle informazioni conservate da parte degli utenti e deve soddisfare le esigenze di provenienza del dato, autenticità, integrità, referenziabilità di informazioni collegate e consentire l’accesso agli utenti autorizzati. La preservazione logica è tuttora un aspetto di difficile gestione: in pratica è un problema ricorrente in quanto per una corretta interpretazione degli oggetti dati i metadati devono continuamente essere aggiornati e sono anch’essi informazioni digitali che devono essere a loro volta interpretate nel tempo.

Il modello Oasis per un Sistema di preservazione digitale

Il modello di riferimento Open Archival Information System (Oasis) è uno standard Iso dal 2003 e definisce una schema ad alto livello e una metodologia di preservazione di oggetti digitali per una comunità di utenti dal momento della acquisizione del materiale digitale nel sistema alla conservazione e alla distribuzione controllata agli utenti stessi.

Le componenti funzionali del modello di riferimento Oasis sono le seguenti:

– Producer: è l’originatore dell’oggetto da preservare in forma di SIP (Submission Information Package)

– Ingest: accetta l’informazione e la prepara per la conservazione. Genera un Aip (Archival Information Package) completo di dati e metadati. Di solito i metadati contengono un identificatore univoco dell’oggetto dati, storia e origine dell’oggetto, relazioni con altri oggetti, informazioni per stabilire l’autenticità dell’oggetto ed elementi utili per l’interpretazione dell’oggetto da parte degli utenti (formato, struttura, codifica, informazioni semantiche).

– Archival Storage: si occupa della Preservazione Fisica degli oggetti mediante error recovery, migrazione dati, back-up e disaster protection.

– Data Management: è il database che contiene le informazioni di contorno (metadati) degli oggetti dati archiviati. Supporta la ricerca e l’estrazione degli oggetti dati richiesti.

– Preservation Planning: piano di conservazione con le policy e le procedure di gestione.

– Administration: responsabile per la gestione operativa del sistema.

– Consumer: detta “comunitàdesignata” all’accesso delle informazioni.

– Access: interfaccia l’utente per le attività di ricerca e distribuzione delle informazioni in forma di Dip (Dissemination Information Package) che contiene i dati richiesti e i metadati rilevanti per l’interpretazione. In base alle caratteristiche della comunità designata il Dip può differire dall’Aip originale nel formato, dimensioni e quantità di metadati associati.

In un sistema di preservazione digitale è dunque molto importante documentare la provenienza e la storia dell’oggetto dati: l’origine documenta il processo di creazione, proprietà, il pre-ingest definisce come è stato trattato prima della acquisizione, l’ingest è il processo di acquisizione con data di arrivo nel sistema, l’archival retention si occupa di migrazioni e media refresh e i diritti di accesso trattano le autorizzazioni necessarie e il valore legale.

(*) System Storage Business Development Manager Ibm Italia

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome