Comments
Description
Transcript
ARCHIVISTICA GENERALE
LA CONSERVAZIONE DEI DOCUMENTI INFORMATICI - stato dell’arte e prospettive generali - le criticità organizzative e tecniche - da dove cominciare Maria Guercio Università degli studi di Urbino maggio 2005 I TEMI Conservare oggetti digitali: stato dell’arte e prospettive generali Le criticità tecniche: ricerca e formazione Le criticità organizzative nella normativa di settore Da che parte cominciare… Studi di casi: 1. Il progetto ERA (Electronic Records Archives Program) sviluppato dall’amministrazione archivistica degli Stati Uniti 2. Il progetto SDSC-Uniurb-Agenzia delle entrate CONSERVARE OGGETTI DIGITALI: STATO DELL’ARTE E PROSPETTIVE GENERALI L’EMERGENZA E’ DIGITALE. QUALCHE DATO SIGNIFICATIVO Secondo una ricerca dell’Università di Berkeley nel 2000 si sono prodotti 250 megabyte (194 riguardano documentazione d’archivio) per abitante della terra di informazione digitale di cui solo lo 0,003% su supporto cartaceo Il mezzo predominante è quello magnetico anche se l’informazione su carta continua ad avere dovunque un ruolo qualitativo preminente Il 55% dell’informazione su PC appartiene ai singoli individui (anche se operano all’interno delle organizzazioni): è a rischio la memoria stessa delle organizzazioni: vedi Studio di caso ERPANET sull’archivio dell’AIPA, www.erpanet.org PERCHÉ LA CONSERVAZIONE È UN PROBLEMA URGENTE ED EMERGENTE La conservazione in ambiente digitale richiede un cambiamento significativo di natura organizzativa per numerose ragioni: non è compatibile con la trascuratezza che ha caratterizzato il sistema conservativo tradizionale è di necessità una funzione attiva e continua nel tempo per la quale non ci sono ancora esperienza e consapevolezza sufficienti oltre a un’adeguata analisi concettuale. i tempi degli interventi per il mantenimento della memoria si sono accorciati. la diversificazione dei prodotti non consente soluzioni univoche le responsabilità specifiche sono di necessità molteplici, condivise, integrate e precoci . CRESCITA DEL DIGITAL DIVIDE SE LE MEMORIE SONO A RISCHIO Il processo di “democratizzazione” apparente dell’informazione non implica necessariamente condivisione di informazione rilevante (in particolare dei documenti archivistici, records in quanto testimonianze stabili di eventi e atti giuridicamente rilevanti) né, quindi, crescita di conoscenza. L’assenza di criteri di qualità nella formazione, nella selezione e nel recupero dei documenti a fronte dell’esplosione dell’informazione disponibile producono ridondanza e confusione, impoverimento dei contenuti, perdita di riferimenti e, in prospettiva, impossibilità a identificare e quindi conservare le memorie e le testimonianze significative del presente CRESCITA DEL DIGITAL DIVIDE SE LE MEMORIE SONO A RISCHIO: LE LINEE GUIDA UNESCO L’Unesco ha sottolineato in un documento di raccomandazioni e definizione di priorità il rischio crescente di digital divide connesso proprio sul problema della conservazione delle memorie delle comunità (Charter on the Preservation of the Digital Heritage). In particolare ha sottolineato la necessità di promuovere: attività di sensibilizzazione nel campo specifico formazione di specialisti sviluppo di progetti internazionali di cooperazione e ricerca Le linee guida si rivolgono a tutti gli interlocutori interessati e prevedono due possibili ambiti di iniziativa per affrontare la questione conservativa: la definizione di concetti base della conservazione digitale (definizioni di patrimonio digitale, conservazione digitale, programmi di conservazione, responsabilità, gestione e cooperazione) la descrizione delle procedure e delle decisioni relative alle diverse fasi del ciclo di gestione dell’oggetto digitale L’INIZIATIVA DELL’UNESCO. I PRINCIPI –1 (Corso ICCU – Paul Weston) 1. Non tutti i materiali digitali debbono essere conservati; soltanto quelli dei quali è accertato un valore permanente costituiscono il patrimonio digitale 3. Non si possono ritenere conservati quei materiali digitali a cui non è più possibile accedere. Lo scopo della conservazione è mantenere la capacità di presentare gli elementi essenziali di materiali digitali autentici 4. La conservazione digitale deve contrastare ogni minaccia nei confronti di tutti i livelli dell’oggetto digitale: fisico, logico, concettuale e sostanziale 5. La conservazione digitale ha successo soltanto se le istituzioni e gli individui se ne assumono la responsabilità. Punto di inizio dell’azione è la decisione riguardante le responsabilità 6. Nessuno deve fare tutto. Niente deve essere fatto in una sola volta 7. Programmi di conservazione affidabili ed esaustivi sono fortemente auspicabili, ma non sempre possono essere realizzati quando vi sia una situazione critica. E’ opportuno pertanto procedere gradualmente, in modo limitato, piuttosto che non procedere affatto L’INIZIATIVA DELL’UNESCO. I PRINCIPI –2 (Corso ICCU – Paul Weston) 8. Nell’agire gli amministratori debbono essere consapevoli della complessità delle questioni. Poiché è fondamentale non provocare danni, essi dovrebbero adoperarsi a comprendere l’intero processo e i suoi obiettivi, evitando le decisioni che potrebbero compromettere futuri interventi per la conservazione 15. I programmi di conservazione debbono esplicitare il diritto di raccogliere, copiare, denominare, modificare, archiviare e fornire l’accesso ai materiali digitali dei quali si assumono la responsabilità 24. L’autenticità è protetta meglio da misure che assicurino che l’integrità dei dati non sia compromessa e da documentazione che dimostri chiaramente l’identità del materiale 26. L’obiettivo di garantire l’accessibilità consiste nel trovare modalità economiche di fornire l’accesso in qualunque momento sia necessario, sia nel breve, che nel lungo termine 27. Gli standard sono un fondamento della conservazione digitale, ma occorre trovare il modo di conservare anche materiali poco aderenti agli standard, in un ambiente di standard in costante cambiamento 28. La conservazione non deve essere procrastinata in attesa dello “standard della conservazione digitale” L’INIZIATIVA DELL’UNESCO. I PRINCIPI –3 (Corso ICCU – Paul Weston) 29. I dati digitali dipendono sempre da una combinazione di hardware e software. Dalla proporzione tra le due componenti dipendono le strategie fra le quali scegliere ai fini della conservazione 30. E’ buona norma che si diversifichino le strategie per la conservazione, specialmente nel caso di collezioni eterogenee 32. I programmi di conservazione debbono talvolta definire un livello accettabile di perdita in termini di oggetti, elementi e bisogni degli utenti 33. Attendere la disponibilità di soluzioni affidabili e omnicomprensive prima di intraprendere qualunque tipo di intervento probabilmente comporta che del materiale vada perso 34. I programmi di conservazione richiedono buone capacità gestionali, le quali implicano una conoscenza delle questioni connesse al trattamento del materiale digitale adeguata alle decisioni da prendere al momento giusto 35. La conservazione digitale implica l’individuazione e la gestione dei rischi 39. Sebbene i service provider spesso prevedano una limitata funzione di conservazione, la responsabilità principale ricade sui programmi di conservazione specificamente realizzati e su coloro che li sovrintendono e li supportano CHE COSA NON E’ LA CONSERVAZIONE DIGITALE Non consiste nella semplice conservazione del flusso di bit originario: implica infatti anche il mantenimento di informazioni in grado di assicurare la possibilità di interpretazione futura del flusso medesimo (contenuto strutturato, configurazione degli elementi, contesti multipli, comportamenti) Non è riducibile a procedure e comportamenti omologati all’ambiente tradizionale Non è riducibile a procedure uniformi Non si identifica con la conversione su supporti ottici o, comunque, su supporti di maggiore durata e affidabilità, che consiste solo di uno dei tanti possibili strumenti o metodi al servizio della conservazione. LA CONSERVAZIONE DIGITALE E’ UN PROCESSO COMPLESSO Per conservare i documenti digitali non è sufficiente mantenerne il contenuto poiché contenuto e struttura sono ormai del tutto separati e il contesto dell’informazione è vitale alla sua comprensione Il paradosso riguarda la duplicità contraddittoria delle richieste degli utenti: il mantenimento della forma originaria, dell’integrità e dell’affidabilità ma anche la garanzia di un accesso dinamico e interattivo che inevitabilmente introduce cambiamenti nei documenti, nella loro struttura e nelle relative informazioni descrittive. CHE COS’E’ LA CONSERVAZIONE DIGITALE L’insieme delle attività e degli strumenti che assicurano che i documenti informatici siano mantenuti accessibili, utilizzabili (leggibili e intelligibili) e autentici (univocamente identificabili e integri) nel medio e nel lungo periodo, in un ambiente tecnologico presumibilmente diverso da quello originario. SI RICHIEDONO NUOVI PARADIGMI DI INTERVENTO CONSERVATIVO…. E’ necessario (per contenere i costi e garantire i risultati) intervenire precocemente sin dalla formazione dei documenti e sulle modalità di conservazione e accesso e sulla documentazione dei programmi: gran parte delle informazioni che garantiscono l’accesso all’archivio e la verifica dell’autenticità sono disponibili solo nella fase attiva della gestione documentaria, ad esempio i dati e le informazioni: sulle responsabilità amministrative, sull’organizzazione del sistema documentario e dell’archivio e sui criteri di classificazione e acquisizione dei documenti, sul contesto tecnologico, incluse le informazioni sui formati e la documentazione di gestione e modifica dei sistemi (schemi logici dei db, documentazione sulle applicazioni). … E SOPRATTUTTO RESPONSABILITA’ PRECOCI La progettazione dei sistemi informatici documentari deve essere affidata sempre a personale esperto e consapevole: (comunque in stretto rapporto con il personale interno alle strutture) Nel caso dei sistemi documentari pubblici il responsabile del servizio per la gestione dei documenti previsto nel dpr 445/2000 deve coincidere o comunque integrare il suo operato e le sue procedure con il responsabile per la conservazione previsto dalla delibera 11/2004 (al quale anche devono essere riconosciute competenze tecniche adeguate) In ogni caso le responsabilità devono essere sempre individuate con chiarezza e rispondere a esigenze di qualità anche in caso di esternalizzazione QUALCHE INDICAZIONE DI MERITO. IL NODO DELL’AUTENTICITÀ La produzione di documenti informatici si traduce nella conservazione a lungo termine esclusivamente di copie autentiche di componenti digitali in grado di riprodurre (a richiesta dell’utente) copie autentiche di documenti informatici Il problema dell’autenticità è centrale ma implica scelte organizzative distinte: per i documenti attivi oggetto di migrazione tecnologica nell’archivio corrente per il mantenimento dei documenti versati negli istituti di conservazione: le condizioni di autenticità devono essere verificabili per i documenti nella fase critica di trasferimento dall’ambiente di produzione originario a quello di conservazione e consultazione a fini di ricerca QUALCHE INDICAZIONE DI MERITO. GLI STRUMENTI DI VERIFICA La verifica dell’autenticità di un documento è possibile solo ricostruendo la storia (anche gestionale) del documento medesimo a condizione, quindi, che il documento ne abbia mantenuto le tracce (come avviene nel caso di documenti cartacei durevoli e stabili). E’ indispensabile perciò mantenere anche la documentazione (ad esempio parti consistenti del manuale di gestione) relativa agli interventi di migrazione effettuati nel tempo e ai trattamenti subiti e stabilire quali componenti del documento e del contesto siano essenziali per la conservazione di documenti autentici (audit trail, backup, copie conservate altrove, ecc.). QUALCHE INDICAZIONE DI MERITO. LA GARANZIA DELL’ACCESSIBILITÀ Mantenere, a costi accettabili, la possibilità di accesso e la fruizione efficiente implica la definizione di metodi per affrontare l’evoluzione delle tecnologie Non ci sono metodi oggi accettati e fattibili che non implichino (sia pure con frequenza diversificata) modifiche al flusso di bit dei documenti Diversi approcci sono possibili e spesso complementari nelle diverse fasi di tenuta di una risorsa digitale: emulazione, incapsulamento, virtual machine software, migrazione evolutiva o in formati standard persistenti (es. XML) La fattibilità della tenuta delle fonti digitali nel tempo costituisce un parametro molto significativo e di difficile valutazione (in tempi utili). E’ indispensabile; preparare per tempo la transizione utilizzare gli standard per gestire formati dei dati compatibili con l’interoperabilità e la conservazione, escludendo formati binari, formati proprietari, formati orientati all’applicazione AUTENTICITA' E CONTROLLO DEL PROCESSO DI FORMAZIONE DEL DOCUMENTO L’autenticità di un documento non è mai limitata all’entità documentaria, ma si estende al sistema documentario e si collega quindi al concetto di affidabilità, cioè al controllo sul processo di formazione del documento. Per verificare l’autenticità di un documento, è necessario verificare sia l’integrità del documento che la sua identità: se il sistema documentario è affidabile, l’autenticità potrà essere accertata con maggiore certezza e minore impegno. AUTENTICITA' vs VALIDAZIONE L’autenticità è una caratteristica del documento che ha mantenuto intatta la sua identità e integrità. E’ il risultato di procedure, tra cui riveste importanza anche l’inserimento del documento nello specifico contesto archivistico: classificazione, fascicolazione, annotazioni (Consiglio di Stato, sezione IV, sentenze 4.2.1907, n. 89 e 26.1.1998, n. 66: rilevanza dei documenti precedenti per integrare il difetto di motivazione dell’atto amministrativo) La validazione è uno degli strumenti utilizzati per provare l’autenticità e consiste, in genere, nell’aggiunta al documento di un elemento (es. firma digitale) o di una dichiarazione (autenticazione notarile). E’ disciplinata da norme comunitarie e nazionali. SOTTOSCRIZIONE DIGITALE E AUTENTICITA’ DEI DOCUMENTI La firma digitale/elettronica è uno strumento di validazione del documento in time, ma non consente a costi accettabili la verifica dell’autenticità dell’archivio over time (se non come strumento utilizzato dall’organizzazione e dai suoi dipendenti in termini di assunzione certa di responsabilità): gli elementi per la verifica (la coppia di chiavi e il registro dei certificati) hanno durata limitata (3 e 10 anni) la sottoscrizione non assicura il mantenimento dei dati di contesto in caso di migrazioni che modifichino il flusso di bit dei documenti, è necessario rinnovare la firma (non più dell’autore del documento, ma del responsabile della tenuta) È uno strumento che produce complessità e superfetazioni nel caso di documenti dinamici (ad esempio gli atti di stato civile) CONSIDERAZIONI PRELIMINARI ALLA DEFINIZIONE DI UN METODO I controlli possono essere realizzati tecnologicamente, ma devono essere determinati sulla base di principi e criteri definiti in base alla natura dei documenti medesimi E’ impossibile mantenere letteralmente inalterato un documento elettronico L’unico modo di provare che un documento elettronico è autentico è quello di assicurare la riproduzione di una copia autentica (conservando quindi le componenti digitali che la costituiscono e la capacità di riprodurre il documento in forme leggibili e intelligibili) La tecnologia non è quindi autosufficiente nell’individuare la soluzione al problema della conservazione permanente dei documenti elettronici Le esigenze determinate dalla natura degli oggetti digitali trattati (funzioni e caratteristiche) definiscono il problema e i principi per valutare la correttezza e adeguatezza di ogni soluzione tecnica Le soluzioni al problema della conservazione sono inevitabilmente dinamiche: implicano ricerca continua, competenze aggiornate, responsabilità e depositi qualificati. LE CRITICITA’ TECNICHE. RICERCA E FORMAZIONE LO STATO DELLA RICERCA La cooperazione internazionale è un requisito per sviluppare e diffondere linee guida, raccomandazioni e soluzioni tecniche idonee (vedi indicazioni dell’Unesco) Le ricerche e le sperimentazioni in corso non hanno dato ancora risultati univoci e operativi con alcune promettenti eccezioni (l’analisi concettuale di InterPARES, lo standard OAIS, il progetto Persistent Digital Object del SDSC e il progetto US ERA PROGRAM) L’Italia è sostanzialmente estranea ai progetti di maggior rilievo per mancanza di risorse, ma ancor più per la disattenzione delle istituzioni pubbliche competenti (inclusi importanti istituti di ricerca universitari) LA RICERCA INTERNAZIONALE IN PARTICOLARE La letteratura di riferimento è sovrabbondante, ma di difficile valutazione e quindi dispersiva Le ricerche e le sperimentazioni promettenti fanno fatica a tradursi in indicazioni chiare per chi opera oppure si limitano a qualche elementare indicazione pratica sul monitoraggio dei supporti, dei depositi digitali, del livello di obsolescenza. E’ ormai riconosciuta (per contenere i costi e mantenere la qualità degli oggetti) la necessità di una approfondita e continua riflessione concettuale dei principi, degli strumenti e dei metodi per il trattamento documentario, ma anche di un’analisi critica degli interventi e dei metodi di conservazione finora proposti (emulazione, migrazione in formati standard, ecc.) I FILONI IN CORSO DI SVILUPPO Discussione e approfondimento delle basi teoriche e metodologiche per la formazione e conservazione permanente dei documenti informatici (ad esempio, il progetto InterPARES, <www.interpares.org> ) Ricerca e sperimentazione (in ambiente cooperativo) di metodi avanzati (ad esempio, il progetto del Supercomputer Center di S.Diego (SDSC) in collaborazione con US NARA: <www.npaci.edu.DICE/Pubs> che sta sperimentando un’ipotesi proposta di laboratorio virtuale di sperimentazione per gli Archivi nazionali di Washington). Ma anche il progetto relativo alla conservazione dei siti web che ha recentemente portato alla creazione dell’International Internet Preservation Consortium (Biblioteche nazionali di Australia, Canada, Danimarca, Finlandia, Islanda, Italia, Norvegia, Svezia, UK, Library of Congress e Internet Archive:http://netpreserve.org, vedi appendice 3) Analisi, valutazione e comunicazione delle fonti informative, degli standard e dei risultati utili ai responsabili per la conservazione (ad esempio, il progetto ERPANET <www.erpanet.org>) Una rete di istituzioni per la ricerca nel campo delle digital libraries (DELOS, workpackage 6 e in prospettiva la creazione di una rete di istituzioni europee di ricerca) I NODI DELLA RICERCA DI SETTORE E’ indispensabile promuovere: lo sviluppo di metodi scientifici rigorosi la identificazione di soluzioni innovative basate sul coordinamento e sull’integrazione programmi di formazione/riqualificazione la creazione di infrastrutture adeguate, che includano in particolare: • risorse dedicate, • laboratori permanenti e centri di competenza di livello internazionale al fine di promuovere una reale e concreta sperimentazione, • strumenti per la condivisione delle esperienze di ricerca e delle soluzioni applicative, • la continuità degli investimenti, • strategie di ricerca capaci di adattarsi all’evoluzione tecnologica ALCUNI RISCHI DA EVITARE la duplicazione/ridondanza delle iniziative di ricerca la sottovalutazione delle conoscenze acquisite dalle comunità scientifiche tradizionali, che tuttavia devono essere opportunamente valorizzate la dispersione dei risultati per l’incapacità/l’impossibilità di convogliare soluzioni e materiali in canali di comunicazione efficaci che implicano un uso avanzato della rete e di e-services DELOS-NOE (NETWORK OF EXCELLENCE FOR DIGITAL LIBRARIES): UN PROGETTO PER LA RICERCA La rete (finanziata nell’ambito dei progetti IST-FP5) nasce con la finalità generale di promuovere la ricerca e lo sviluppo nel settore delle digital library in Europa. Obiettivi specifici sono: contribuire all’efficacia della ricerca in questo settore emergente fornire un forum dove ricercatori, operatori e comunità di professionisti e di imprese possano scambiare idee ed esperienze e dove si possano presentare e discutere progetti di cooperazione formare giovani ricercatori contribuire alla definizione di politiche europee per la ricerca cooperare nelle attività di normalizzazione in corso favorire la cooperazione europea, nazionale e internazionale ERPANET: un’infrastruttura per la comunicazione e l’apprendimento per la conservazione digitale “Learning by monitoring” Electronic Resource Preservation and Access NETwork www.erpanet.org LE FINALITÀ DI ERPANET superare l’isolamento (soprattutto delle istituzioni di piccole dimensioni) e garantire la multidisciplinarietà delle iniziative coinvolgere come nodi di una rete europea: • i centri di ricerca • le istituzioni che conservano il patrimonio culturale digitale • le società di informatica • il mondo economico • la pubblica amministrazione promuovere lo sviluppo e l’uso di standard e best practice I CONTENUTI CONCRETI DI ERPANET rendere disponibili documenti di ricerca, linee guida, standard significativi mediante schede descrittive anche di sintesi individuare i nuovi sviluppi del settore informatico utili ai fini della conservazione digitale sviluppare e mettere a disposizione 60 studi di casi di best practice sviluppare schemi di metadati e insiemi di requisiti funzionali sviluppare strumenti e linee guida per almeno quattro aspetti principali: gestione del rischio, analisi dei costi, selezione di tecnologie e metodi, definizione di politiche generali e istituzionali organizzare workshop per esperti e seminari di aggiornamento, tra cui: Toledo (22-23 giugno 2002) sulla digitalizzazione, Urbino (9-11 ottobre 2002) sui metodi per la conservazione di documenti Kerkira (maggio 2003) sulla conservazione di documenti dinamici e interattivi con particolare riferimento al web-archiving, Roma (17-19 novembre 2003) sui depositi certificati per la conservazione digitale IL RUOLO DELL’UNIONE EUROPEA Nel rapporto conclusivo del meeting di esperti della conservazione digitale (Bruxelles, 1 marzo 2002) poi ripreso dal Consiglio dei ministri della cultura (giugno 2002) si ritengono centrali: la definizione di piattaforme di coordinamento (gruppi di lavoro, procedure) lo sviluppo o la creazione di strumenti di coordinamento e di reti per sostenere la partecipazione ai progetti di ricerca internazionale lo scambio di informazioni e di esperienze la promozione di competenze specialistiche adeguate (aggiornamento, sensibilizzazione, programmi di scambio) l’identificazione di requisiti professionali emergenti e lo sviluppo di programmi di formazione il sostegno alla realizzazione e condivisione di best practice LE PROSPETTIVE E INIZIATIVE CONCRETE A LIVELLO EUROPEO Conferenza di Firenze (12-13 ottobre 2003) per la creazione di una rete di istituzioni e per il coordinamento dei progetti di ricerca e di sensibilizzazione e formazione (alla Firenze Agenda hanno aderito i progetti europei DELOS, ERPANET E PRESTOSPACE) Identificazione di una linea di finanziamento europeo: “Access to and preservation of cultural and scientific resources' in the 5th IST call (May-September 2005)” Necessità di costruire una rete europea di ricerca integrata con obiettivi di: sensibilizzare e coinvolgere i centri di eccellenza nel campo della ricerca avanzata (tecnologica e documentaria) e dei produttori di risorse digitali nelle diverse comunità di appartenenza promuovere investimenti nel campo: • della ricerca di base e avanzata (modelli concettuali e quadro teorico condivisi a livello internazionale e interdisciplinare) • degli sviluppi applicativi favorire la formazione di tecnici specialisti nel campo della conservazione LE CRITICITA’ ORGANIZZATIVE NELLA NORMATIVA DI SETTORE LE NORME NAZIONALI PER CONSERVARE I DOCUMENTI PER L’E-GOVERNMENT Dpr 445/2000 Dpcm 31 0ttobre 2000 Delibera Cnipa 11/2004 Codice dell’amministrazione digitale, marzo 2005 (vedi osservazioni ANAI) IL DPR 445/2000: CRITICITÀ POSITIVE - 1 Definizione in un testo di riferimento normativo generale (adatto a qualunque tipo di archivio e in grado di gestire anche sistemi documentari ibridi) e autorevole di responsabilità chiare e ben definite dal punto di vista delle competenze tecniche (archivistiche e informatiche): istituzione di una struttura dedicata e responsabile, oltre che competente sul piano tecnico, il Servizio per la gestione informatica dei documenti e degli archivi definizione di compiti organizzativi e di governo del sistema documentario in grado di gestire con coerenza e correttezza l’intero ciclo di vita del documento e del sistema IL DPR 445/2000 – CRITICITA’ POSITIVE - 2 Abrogazione delle norme sugli archivi contenute nel rd 35/1900 e definizione di principi generali per la gestione del ciclo di vita dei documenti (orientati alla loro corretta formazione e tenuta anche di lungo periodo): negli articoli 67-69 si prevede • il versamento periodico (su base annuale) della documentazione e degli strumenti di ricerca e indicizzazione relativi (dati di protocollazione, classificazione, ecc.) non più corrente negli archivi di deposito e poi negli archivi storici • il mantenimento (naturalmente nelle forme consentite dai processi inevitabili di migrazione) della struttura originaria degli archivi • il controllo della movimentazione che in ambienti digitali implica un serio e mirato controllo degli accessi IL DPR 445/2000 – CRITICITA’ NEGATIVE Il problema della conservazione è accennato brevemente e non risolto Si mantiene il doppio binario tra archiviazione e conservazione Non si stabiliscono collegamenti tra il responsabile del Servizio documentario e il responsabile della conservazione LE REGOLE TECNICHE DEL DPCM 31.10.2000 - 1 E’ prevista l’approvazione di un manuale di gestione del sistema documentario che include un capitolo dedicato agli aspetti conservativi Sono previste operazioni di salvataggio periodiche su supporti removibili che devono essere conservati in duplice copia in luoghi remoti e sicuri; Le informazioni rimosse dal sistema devono essere sempre leggibili Nel caso della conservazione sostitutiva le informazioni relative alla gestione informatica dei documenti costituiscono parte integrante del sistema di indicizzazione e di organizzazione dei documenti oggetto delle procedure di conservazione sostitutiva LE REGOLE TECNICHE DEL DPCM 31.10.2000 - 2 E’ obbligatorio il log di sistema (registrazione e verifica retroattiva degli utenti e di tutti gli interventi effettuati) oltre alla gestione conservativa delle informazioni con riferimento alle modifiche effettuate sui singoli campi del database relativo alla registrazione di protocollo Deve essere garantita la leggibilità nel tempo (senza limiti? con quali garanzie di integrità?) di tutti i documenti trasmessi con specifico riferimento agli allegati I dati della segnatura di protocollo sono contenuti nel messaggio stesso in un file conforme allo standard XML LA DELIBERA 11/2004 SULLA RIPRODUZIONE SOSTITUTIVA – CRITICITA’ - 1 Il sistema di conservazione sembra fondarsi (in realtà esistono indicazioni più complesse, ma non coordinate) sulla definizione di responsabilità senza ulteriori vincoli. Le definizioni di documento e, soprattutto di documento originale unico e non unico sono ambigue e inutili, quindi fuorvianti Si prevede la possibilità di delega e di esternalizzazione senza LA DELIBERA 11/2004 SULLA RIPRODUZIONE SOSTITUTIVA – CRITICITA’ - 2 eccesso di ruolo del responsabile della conservazione non identificato sul piano tecnico Definisce le caratteristiche e i requisiti del sistema di conservazione in funzione della tipologia dei documenti (analogici o digitali) Gestisce le procedure di sicurezza e tracciabilità anche per garantire l’esibizione dei documenti Archivia e rende disponibili: la descrizione del contenuto dell’insieme (quale?) dei documenti gli estremi identificativi del responsabile della conservazione l’indicazione delle copie di sicurezza Mantiene e rende accessibile un archivio del software dei programmi (a che scopo dato che la migrazione è un processo inevitabile?) Verifica la corretta funzionalità del sistema Adotta le misure necessarie per la sicurezza fisica e logica del sistema Richiede la presenza di un pubblico ufficiale Definisce e documenta le procedure di sicurezza Verifica periodicamente con cadenza non superiore ai 5 anni l’effettiva leggibilità dei documenti conservati CRITICITA’ COMPLESSIVE DELLA NORMATIVA NAZIONALE Ambiguità e insufficienza della distinzione tra archiviazione (conservazione di breve-medio periodo?) e conservazione: la mancanza di chiarezza rischia di determinare confusione nelle soluzioni organizzative e tecnologiche, ma ancor prima negli stessi principi della produzione documentaria Assenza di un efficace sforzo di coordinamento tra le norme in materia di gestione dei documenti e quelle specifiche dedicate alla riproduzione sostitutiva/archiviazione/conservazione (che il codice accentua non governando la gestione di sistemi ibridi) L’incertezza che ne deriva ha implicato: che le amministrazioni abbiano optato per la ridondanza (cartaceo-digitale) che siano mancate soluzioni infrastrutturali di livello adeguato (almeno regionale) che si siano scarsamente sviluppati processi formativi specifici che l’amministrazione archivistica abbia sollevato dubbi sulla incapacità di garantire l’integrità nel lungo periodo DA CHE PARTE COMINCIARE… LE DIFFICOLTÀ Non siamo sufficientemente preparati, nonostante gli obblighi (o auspici?) del legislatore) a questa nuova realtà che a sua volta muta in continuazione proponendoci sfide sempre più impegnative. La tentazione alla rinuncia è fortissima e il ritardo di molte istituzioni è un segno di difficoltà, certamente non di disinteresse. La cooperazione interdisciplinare presenta costi notevoli, richiede tempi adeguati (al fine di integrare le diverse competenze ma soprattutto è scarsamente riconosciuta come un fattore critico di successo) I NODI DA SCIOGLIERE Il ritardo nel riconoscimento della centralità del problema è grave in tutti gli ambienti Il legislatore nazionale ha emanato disposizioni che mancano di coerenza interna e comunque non affrontano il problema nella sua reale dimensione tecnica e organizzativa E’ indispensabile definire presto linee d’azione e infrastrutture commisurate alle dimensioni e ai mezzi delle diverse istituzioni di conservazione e delle diverse della produzione documentaria DA CHE PARTE COMINCIARE …SUL PIANO TEORICO: Dall’analisi della natura e dalla funzione dei documenti, dalla identificazione degli elementi che ne garantiscono l’autenticità, cioè identità e integrità (ad esempio nel caso degli archivi dal progetto InterPARES: www.interpares.org) dai metodi e dalle architetture già sviluppati in ambienti di mercato o in altri progetti internazionali per assicurare, gestire e recuperare (nonostante l’obsolescenza e la frammentazione delle soluzioni applicative) contenuti, strutture formali, relazioni documentarie e di contesto che assicurano alle fonti documentarie significato e valore di testimonianza senza rinunciare all’efficiente ed efficace gestione e uso delle risorse digitali nell’attività corrente di chi le produce e le utilizza (ad esempio il progetto ERA sviluppato dagli Archivi nazionali di Washington: http://www.npaci.edu/DICE/Pubs, vedi studio di caso in appendice) …SUL PIANO NORMATIVO dall’applicazione mirata della normativa di riferimento con attenzione ad alcune importanti indicazioni generali e di principio che esistono (manuale di gestione inclusivo di parti dedicate alla conservazione, figure tecniche di riferimento e strutture dedicate: il Servizio per il sistema documentario, regole per l’interoperabilità nello spazio) ma che il legislatore ha annegato all’interno di una serie complessa di disposizioni tecniche orientate all’informatizzazione e poco propense a sottolineare e risolvere criticità specifiche (organizzative) in materia di conservazione. dalla revisione delle norme esistenti: integrando e qualificando ulteriormente (contrariamente a quanto propone irresponsabilmente il Codice per l’amministrazione digitale) le responsabilità previste (responsabile per il Servizio documentario e responsabile per la conservazione) anticipando i tempi del versamento nell’archivio storico (di Stato e della Sezione separata d’archivio), creando perciò archivi intermedi nella forma di depositi digitali certificati adeguati nelle risorse umane e finanziarie, quindi rivisitando l’attuale modello nazionale (frammentario e dispersivo) e favorendo la costruzione di consorzi pubblici finalizzati a condividere soluzioni e strumenti anche in contesti nazionali, europei e internazionali …SUL PIANO ORGANIZZATIVO E POLITICO: da iniziative “politiche” di sensibilizzazione indirizzate al legislatore medesimo, ai produttori, all’opinione pubblica,che si traducano in raccomandazioni, in linee guida, in normativa oltre che in consapevolezza diffusa dal riconoscimento da parte degli istituti di produzione e conservazione delle risorse digitali della centralità dei problemi organizzativi: adozione di procedure adeguate e di standard definizione di regole condivise individuazione di responsabilità certe e riconosciute dalla valutazione, analisi e contenimento dei costi in relazione agli obiettivi e ai metodi possibili o necessari dalla riqualificazione “di massa” del personale tecnico mediante programmi di formazione permanente a distanza che includano aggiornamento dei contenuti e della didattica La conservazione digitale lungi dal caratterizzarsi come un processo ad esclusivo carattere tecnico dimostra sempre più la sua natura politica: La misura e l’attenzione con cui una comunità saprà e vorrà investire nella conservazione delle memorie (digitali) del presente costituiranno un segno rilevante di civiltà o un’altra significativa prova di inconsapevolezza e ignoranza di cui faremo mostra nei decenni (e, ancor prima, nei mesi e negli anni) che abbiamo di fronte. QUALCHE INDIRIZZO http://www.si.umich.edu/CAMILEON/ Camileon (Creative archiving at Michigan and Leeds emulating the old on the new) http://www.interpares.org (progetto InterPARES) http://ccsds.org/RP9905/RP9905.html (standard OAIS) http://www.sdsc.edu/NARA http://www.npaci.edu/DICE/Pubs (progetto del National Archives di Washington e del Supercomputer Center di S.Diego) http://www.erpanet.org (Erpanet) http ://www.dpconline.org (Digital preservation coalition, UK) http://www.digitaleduurwaamheid.nl (Digital preservation testbed, NL) INDICAZIONI BIBLIOGRAFICHE DI APPROFONDIMENTO - 1 “Archivi per la storia”, 1999, n. 1-2, Gli archivi del futuro. Il futuro degli archivi. Cagliari, 1998 (numero monografico) Day M., Issues and Approaches to Preservation Metadata: Joint RLG and NPO Preservation Conference: Guidelines for Digital Imaging, Coventry (USA), Scarman House, University of Warwick, 28-30 September 1998, <http://www.ukoln.ac.uk/metadata/presentations/rlg-npo/warwick.html> Friedlander A., The National Digital Information Infrastructure Preservation Program: expectations, realities, choices and progress to date, in “D-Lib Magazine”, 2002, 4, <www.dlib.org/dlib/april02/firedlander/04firedlander.html> Guercio M., La conservazione a lungo termine di documenti elettronici: la partecipazione italiana al progetto InterPARES, in XXVI Congresso internazionale ANAI. Trento, 24-26 novembre 1999 , 2000, 1-2 Guercio M., Archivistica informatica, Roma, Carocci, 2002, capitolo 3 Guercio M.- Lograno L., Normative e linee d’azione per la conservazione delle memorie digitali. Un’indagine conoscitiva. (Legislation, rules and policies for the preservation of digital resources: A survey), Firenze, Istituto centrale per il catalogo unico, Università degli studi di Urbino-ERPANET, 2003 INDICAZIONI BIBLIOGRAFICHE DI APPROFONDIMENTO - 2 Guerrini M., Gambari S., Sardo L. (a cura di), Le risorse elettroniche. Definizione. Selezione e catalogazione. Atti del convegno internazionale, Roma 26-28 novembre 2001, Milano, Editrice bibliografica, 2002, http://w3.uniroma.it/ssab/er/. Interpares, Rapporto dell’Authenticity task force, traduzione a cura di Monica Grossi, in “Archivi & Computer”, 2002, 3 Interpares, Rapporto dell’Appraisal task force, traduzione a cura di Maria Guercio, in “Archivi & Computer”, 2003, 1-2 Interpares, Rapporto della Preservation task force, traduzione a cura di Maria Guercio, in “Archivi & Computer”, 2003, 1-2 MacNeil H., Trusting Records. Legal, historical and diplomatic perspectives, Dordrecht, Kluwer Academic Publishers, 2000. Metadata in preservation. Selected papers from an Erpanet Seminar. Archives School Marburg. 3-5 September 2003, Marburg 2004 Michetti G., Standard e metadati: concetti nuovi per l’archivistica?, in “Nuovi Annali della Scuola Speciale per Archivisti e Bibliotecari”, XIV (2000), pp. 229-253 INDICAZIONI BIBLIOGRAFICHE DI APPROFONDIMENTO - 3 Moore R., Baru C., Rajasekar A., Ludaescher B., Marciano R., Wan M., Schroeder W. e Gupta A., Collection-Based Persistent Digital Archives. Part I, in "D-Lib Magazine", 6 (2000), n. 3, http://www.dlib.org/march00/moore Olivia M.a. Madison, Conservazione delle risorse elettroniche per garantire il pubblico accesso, in Guerrini M., Gambari S., Sardo L. (a cura di), Le risorse elettroniche. Definizione. Selezione e catalogazione. Atti del convegno internazionale, Roma 26-28 novembre 2001, Milano, Editrice bibliografica, 2002, http://w3.uniroma.it/ssab/er/relazioni/madison_eng.pdf Rosenzweig, Scarcity or abundance? Preserving the past in a digital era, in “Te American historical review”, 108 (2003), 3, pp. 735-762 (anche online: <http://www.historycooperative.org/journals/ahr/108.3/rosenzweig.html>) Ross S., A. Gow, Digital archaeology: rescuing neglected or damaged data resources, London 1999. Rothenberg J., Preservation of the Times, in “The Information Management”, 2 (March/April 2002), p. 38 Thibodeau K., Building the Archives of the future: advances in preserving electronic records at the NARA, in “D-Lib” 2001, 2, http://www.dlib.org/dlib/february01/thibodeay/02thibodeay.html STUDI DI CASI IL PROGRAMMA ERA-ELECTRONIC RECORDS ARCHIVES PROGRAM (US NARA) QUANTO COSTA FARE SUL SERIO XML PER LA CONSERVAZIONE DEGLI ARCHIVI INFORMATICI: LE PREMESSE Il progetto avviato nella primavera 2000 (con una prima fase relativa agli anni 1996-1999) e finanziato dal NHPRC statunitense (300.000 dollari) è fondato sui risultati ottenuti nel corso delle precedenti indagini condotte dalla Università della California relative a sistemi di wrapper-mediator (cioè componenti software che operano come traduttori tra i formati nativi di una fonte informativa e un protocollo comune) anch'essi basati su XML. All’origine dei notevoli investimenti la consapevolezza che: “Il governo federale sta perdendo ogni giorni preziose informazioni digitali” Non esistono per ora sistemi in grado di conservare i documenti digitali nel lungo periodo” XML PER LA CONSERVAZIONE DEGLI ARCHIVI INFORMATICI: LA TEMPISTICA 1996-1999: le premesse partecipazione al progetto InterPARES 1 per la definizione di un quadro teorico chiaro e condiviso sul piano internazionale progetto di ricerca SDSC per la creazione di “persistent archives” 2000-2011: il progetto ERA (Electronic Records Archives) 2000-2006: partecipazione al progetto interPARES 2 per la conservazione degli archivi dinamici e interattivi 2004: sostegno a due progetti alternativi affidati alla Harris Corporation e alla Lockeed) per lo sviluppo del disegno di sistema e di un prototipo operativo per la conservazione permanente degli archivi digitali 2005: selezione del disegno di sistema più convincente e sviluppo del team incaricato della fase realizzativa e di produzione 2006: sviluppo di una versione di prova 2007-2011: sviluppo graduale di tutte le funzionalità previste (implementazioni su base annuale) XML PER LA CONSERVAZIONE DEGLI ARCHIVI INFORMATICI: IL PROGETTO NARA-SDSC Il progetto si è occupato di tre grandi classi di documenti elettronici (documenti testuali, documenti composti, documenti GIS) il cui accesso richieda l'uso di strumenti software. Il nodo centrale della ricerca, che corrisponde alla questione di fondo della conservazione delle memorie digitali, è quello di: definire un meccanismo per la creazione parzialmente automatica della rappresentazione digitale dei documenti in forme indipendenti dal software e sostitutive di originali, predisporre un prototipo di strumento software indipendente dalle piattaforme, sufficientemente robusto, flessibile e scalabile basato sull'utilizzo di XML in quanto standard emergente (e promettente) per la rappresentazione e lo scambio informatico sul web. La scalabilità dei prodotti riguarda la capacità di rispondere anche alle esigenze di depositi archivistici di medie e piccole dimensioni. IL PROGETTO NARA-SDSC. I PRESUPPOSTI TEORICI E TECNOLOGICI DELLA RICERCA All'origine c'è la convinzione che i documenti elettronici possano essere considerati come fonti distribuite di informazione semi-strutturata, costituite da uno schema definito di componenti informative interne ed esterne al documento e da una serie di elementi passibili di variazione (il supporto, il contesto tecnologico, ecc.). Il progetto americano si basa su una serie di presupposti e pre-condizioni: • la codifica ASCII o Unicode per le informazioni testuali e la codifica bitmap per le immagini sOno indipendenti da infrastrutture tecnologiche, la rappresentazione di informazione strutturata mediante linguaggi di marcatura (XML) è indipendente, di facile accesso e consente l'auto-descrizione di docc., la definizione di una metodologia per la creazione di fonti informative sostitutive degli originali è basata sullo sviluppo di "contenitori" (wrapper) di prodotti software strutturati in modo che: tutti i metadati che descrivono i contesti documentari abbiano la forma di documenti XML forniti di specifiche DTD, tutte le informazioni testuali siano convertite in documenti XML e le immagini in bitmap, • tutti i riferimenti a immagini e ad altri documenti all'interno di un documento archivistico siano convertiti in collegamenti permanenti a loro volta rappresentati in un formato XML compatibile. GLI OBIETTIVI DELLA RICERCA Identificare gli attributi/metadati relativi al documento e alle aggregazioni archivistiche e definire i pacchetti per il loro trattamento Descrivere i metadati per ciascun oggetto digitale (tipologia, formati, protocolli di acquisizione, metadati specifici di dominio, informazioni di presentazione), a livello di sistema (caratteristiche del sistema di memorizzazione, controlli di accesso e di audit, localizzazione, autenticazioni e cifrature) LE FASI DELLA RICERCA Procedura di acquisizione: definizione di schemi di metadati (XML/DTD) per oggetto digitale (documento, serie, archivio), per le interrelazioni tra oggetti, per la creazione di contenitori che incapsulino i metadati negli oggetti digitali Procedura per la generazione automatica di interventi di conservazione: creazione di DTD, verifica delle DTD in relazione agli attributi standard, produzione di strumenti e modalità di ricerca Dalla conservazione basata su XML (Collection based persistent archive) alla conservazione basata sulla conoscenza archivistica (utilizzo e sviluppo del modello OAIS utilizzando linguaggi avanzati di marcatura quali XTM) (Knowledge based persistent archive): si definiscono relazioni tra gli attributi di diversa natura (procedurali/temporali, strutturali/spaziali, concettuali/semantici) UTILIZZO DI STANDARD DI MARKUP Rappresentazione XML degli attributi dei metadati (DTD) Rappresentazione XML della struttura delle aggregazioni archivistiche Database XML (Excelon, Tamino, Oracle8i) XML Topic Map (XTM) (ISO/IEC 13222250, gen. 2000): standard basato sull’uso di XML con lo scopo di rappresentare le relazioni fra concetti e attributi associarle con fonti informative (documenti, archivi) individuare soluzioni per organizzare (accedere e navigare anche a distanza di tempo e senza interventi espliciti) quantità sempre maggiori di informazioni, documenti, archivi sulla base di un’analisi semantica che identifichi in modo complesso la natura degli oggetti, modelli concettuali, relazioni logiche IL PROGETTO ERA (US): RISULTATI E SVILUPPI Il progetto ha finora identificato almeno tre nuclei di elementi che devono essere mantenuti nel sistema (simultaneamente alle singole entità documentarie) secondo il modello dati basato sullo standard OAIS e implementato dal Supercomputer Centre nella forma di un Extensible Metadata Catalog che include lo schema logico che organizza gli attributi essenziali (definiti secondo il progetto InterPARES 1 e 2), ovvero metadati relativi ai documenti singoli (digital object representation) che ne definiscono la struttura, il contesto fisico e la provenienza, metadati relativi alla organizzazione dell'archivio e includono diverse informazioni di contesto (data collection representation), organizzate in sotto-insiemi, metadati di presentazione (presentation representation), che consentono la conservazione di interfaccia utente, in particolare dell'interfaccia originaria, la descrizione fisica degli attributi all'interno del database del deposito archivistico, un dizionario dei dati per le definizioni semantiche degli attributi. IL PROGETTO ERA (US): I REQUISITI DI UN PERSISTENT ARCHIVE Con riferimento ai requisiti funzionali si sono individuate cinque funzionalità necessarie a garantire nel lungo periodo l’interoperabilità tra sistema eterogenei ad accesso distribuito e trasparenza: name transparency: possibilità di recuperare una risorsa senza conoscerne la denominazione identificativa location transparency: possibilità di recuperare una risorsa senza conoscerne la collocazione platform implementation transparency: possibilità di recuperare una risorsa a prescindere dalla piattaforma e dal deposito in cui è archiviata encoding standard transparency. Possibilità di recuperare una risorsa mediante lo standard di codifica e il modello dati authentication transparency: possibilità di assicurare un accreditamento unico anche in domini diversamente amministrati mediante l’utilizzo di GSI Grid Security Infrastructure IL PROGETTO ERA (US): IL PROTOTIPO SUL PIANO TECNICO Il prototipo in corso di sviluppo si avvale di tecnologie abilitanti (software middleware) in grado di garantire l’interoperabilità interna al sistema anche nel caso di componenti eterogenee. Il sistema prevede anche l’utilizzo di prodotti di mercato in grado di assicurare la qualità, la scalabilità e la rapidità delle funzioni di archiviazione Dal punto di vista operativo, i complessi documentari sono acquisiti nel deposito digitale attraverso un primo spazio di lavoro virtuale (accessioning workbench), cui segue una seconda fase identificata come il vero e proprio archival repository finalizzato alla conservazione a lungo termine delle risorse. Il terzo ambito è quello destinato a trattare le attività di ricerca e assicurare la fruizione, il reference workbench. Per ciascun ambito il modello identifica specifiche attività ricorrenti. Il sistema deve tra l’altro: verificare che i soggetti che depositano i materiali documentari siano autorizzati a farlo (verify) preparare i materiali e presentarli nel rispetto della struttura originaria anche con riferimento alle aggregazioni di cui ciascuna risorsa è parte (rebuild) IL PROGETTO ERA (US): PROBLEMI APERTI Nel corso del progetto sono emerse una serie di osservazioni basate sulla considerazione della insufficienza – ai fini di una corretta ed esaustiva procedura di conservazione a lungo termine – del semplice trattamento XML che si limita a includere: – la separazione del contenuto informativo dalla sua presentazione – la marcatura dei dati (definendo una gerarchia) – l’utilizzo di un formato di dati semi-strutturato e auto-descrittivo, mentre a fini di conservazione permanente di risorse digitali complesse si richiedono ulteriori elementi che sembrano garantiti dall’utilizzo a fianco di XML di strumenti di XTM con particolare riferimento alla necessità di includere almeno: – informazioni di natura concettuale rilevanti per la conservazione – vincoli di integrità – regole di descrizione integrativa e utilizzo di linguaggi di rappresentazione (fogli stile per la presentazione). IL PROGETTO ERA (US): PRIME CONCLUSIONI Utilizzando le tecnologie di data grid i ricercatori hanno elaborato un modello che in relazione alle specifiche attività di archiviazione e conservazione individua le componenti descrittive specifiche, a loro volta collegate alle funzioni OAIS: Si tratta di elementi ancora di fase di analisi e prototipazione Si sottolinea che le operazioni e manipolazioni necessarie in ogni processo di conservazione permanente debbano essere effettuate senza incidere – possibilmente – sull’entità digitale che viene perciò mantenuta nel formato originario, con particolare attenzione all’esigenza di garantirne l’integrità e l’autenticità. Si agisce cioè sulle relazioni e sugli elementi dell’ontologia con particolare riferimento al sistema di metadati che vengono importati ed esportati tramite file XML. Il processo consiste nella trasformazione dell’oggetto da conservare in una forma persistente identificando innanzi tutte le proprietà significative che devono essere mantenute e che vengono perciò espresse in modelli formali XML FINALITÀ IMPLICITE Mantenere gli oggetti digitali e gli strumenti di ricerca Fornire la capacità di utilizzare l’archivio in nuovi ambienti tecnologici Conservare per sempre l’archivio nell’istituto di conservazione e garantire l’accesso in qualunque momento LA SPERIMENTAZIONE SUI DOCUMENTI DEL SENATO E’ un progetto finalizzato allo sviluppo di strumenti applicativi basati sullo standard XML per la migrazione di documenti informatici e alla definizione dei metadati necessari a garantirne l'accessibilità e a provarne l'integrità nel lungo periodo Una delle sperimentazioni di maggior rilievo è stata condotta sui documenti normativi del Senato US e ha avuto l’obiettivo specifico di: definire un meccanismo per la creazione parzialmente automatica della rappresentazione digitale dei documenti in forme indipendenti dal software e sostitutive di originali che non possono essere conservati a lungo termine per ragioni di obsolescenza, predisporre un prototipo di strumento software indipendente dalle piattaforme, sufficientemente robusto, flessibile e scalabile (Archivists' Workbench Software Package), basato sull'utilizzo di XML in quanto standard emergente (e promettente) per la rappresentazione e lo scambio informatico sul web e fondato sui risultati ottenuti nel corso delle precedenti indagini condotte dalla Università della California relative a sistemi di wrapper-mediator (cioè componenti software che operano come traduttori tra i formati nativi di una fonte informativa e un protocollo comune), anch'essi basati su XML. UNO STUDIO DI CASI: LA SERIE DEGLI ATTI NORMATIVI DEL SENATO USA Quel che vediamo (in ambiente word): **** S. 345 DATE INTRODUCED: 02/03/1999 SPONSOR: Allard OFFICIAL TITLE A bill to amend the Animal Welfare Act to remove the limitation that permits interstate movement of live birds, for the purpose of fighting, to States in which animal fighting is lawful. LATEST STATUS Feb 3, 1999 Read twice and referred to the Committee on Agriculture. … forse non corrisponde a quel che otteniamo (in un formato non adeguato: RTF): ^@^@y^K^@^@\206^K^@^@Ê^K^@^@Ô^K^@^@^@^L^@^@^N^L^@^@u^L^@^@\202^L^@^@È^L^@^@Ò^L^@^@ÿ\ ^L^@^@^M^M^@^@j^M^@^@w^M^@^@»^M^@^@Æ^M^@^@ô^M^@^@^B^N^@^@\203^N^@^@÷ëßÓëßǹ¹®¨®Â\ Â\230Â\230 Â\230Â\230®¨®Â Â\230Â\230 Â\230Â\230 Â\230Â\230 Â\230Â\230 Â\230Â\ ^N6^H\201OJ^C^@QJ^C^@]^H\201^@^N5^H\201OJ^C^@QJ^C^@\^H\201^@^K^B^H\201OJ^C^@QJ^C^@^\ ... ^ ction sent to the House.^M^M**** S. 345^MDATE INTRODUCED: 02/03/1999^MSPONSOR: Alla\ rd^MOFFICIAL TITLE^MA bill to amend the Animal Welfare Act to remove the limitation\ that permits interstate movement of live birds, for the purpose of fighting, to St\ ates in which animal fighting is lawful.^MLATEST STATUS^MFeb 3, 1999 Read twice \ and referred to the Committee on Agriculture.^M^M**** S. 387^MDATE INTRODUCED: 02/0\ 8/1999^MSPONSOR: McConnell^MOFFICIAL TITLE^MA bill to amend the Internal Revenue Co\ d L’ESEMPIO DEL SENATO Rich Text Format (un formato Microsoft documentato) : \pard\par^M \pard\b **** S. 345\b0\par^M \pard\qr DATE INTRODUCED: 02/03/1999\par^M \pard SPONSOR: Allard\par^M \i\qc OFFICIAL TITLE\i0\par^M \pard A bill to amend the Animal Welfare Act to remove the limitation that permits \ interstate movement of live birds, for the purpose of fighting, to States in which \ animal fighting is lawful.\par^M \i\qc LATEST STATUS\i0\par\pard^M \pard\plain \fi-1900\li1900\nowidctlpar\adjustright{Feb 3, 1999\tab Read twice and\ referred to the Committee on Agriculture.\par}^M \pard^M …può essere imbustato in un formato XML: <p bold="off">**** S. 345</p> <p align="right" bold="off">DATE INTRODUCED: 02/03/1999</p> <p bold="off">SPONSOR: Allard</p> <p align="center" bold="off" italic="off">OFFICIAL TITLE</p> <p bold="off" italic="off">A bill to amend the Animal Welfare Act to remove the lim\ itation that permits interstate movement of live birds, for the purpose of fighting\ , to States in which animal fighting is lawful.</p> <p align="center" bold="off" italic="off">LATEST STATUS</p> <p><string>Feb 3, 1999&tab;Read twice and referred to the Committee on Agriculture\ .</string></p> <p></p> … L’ESEMPIO DEL SENATO …il formato XML può essere spostato dal livello di presentazione: <p bold="off">**** S. 345</p> <p align="right" bold="off">DATE INTRODUCED: 02/03/1999</p> <p bold="off">SPONSOR: Allard</p> <p align="center" bold="off" italic="off">OFFICIAL TITLE</p> <p bold="off" italic="off">A bill to amend the Animal Welfare Act to remove the lim\ itation that permits interstate movement of live birds, for the purpose of fighting\ , to States in which animal fighting is lawful.</p> <p align="center" bold="off" italic="off">LATEST STATUS</p> <p><string>Feb 3, 1999&tab;Read twice and referred to the Committee on Agriculture\ .</string></p> <p></p> …al livello di informazione <bill name="S.345"> <committees> <committee>SENATE: AGRICULTURE</committee> </committees> <date_introduced>02/03/1999</date_introduced> <latest_status_list> <latest_status> <ls_date>Feb 3, 1999</ls_date> <ls_txt>Read twice and referred to the Committee on Agriculture</ls_txt> </latest_status> </latest_status_list> <official_title>A bill to amend the Animal Welfare Act to remove the limitation that permits interstate movement of live birds, for the purpose of fighting, to States in which animal fighting is lawful.</official_title> <sponsor>Allard, Wayne [CO]</sponsor> </bill> XML COME UN FORMATO DI CONSERVAZIONE Tradurre lo schema in una DTD XML: <?xml version="1.0" encoding="UTF-8"?> <!ELEMENT bills (bill*)> <!ELEMENT bill ( abstract?, committees?, congressional_record?, cosponsors?, date_introduced?, digest?, latest_status_list?, official_title?, sponsor?, statement_of_purpose?, submitted_by?, submitted_for?)> <!ATTLIST bill_name CDATA #REQUIRED> <!ELEMENT committees (committee*)> <!ELEMENT cosponsors (cosponsor*)> <!ELEMENT digest (#PCDATA)> <!ELEMENT latest_status_list (latest_status*)> <!ELEMENT latest_status (ls_date, ls_txt)> <!ELEMENT abstract (#PCDATA)> <!ELEMENT committee (#PCDATA)> <!ELEMENT congressional_record (#PCDATA)> <!ELEMENT cosponsor (co_name)> <!ELEMENT co_name (#PCDATA)> <!ATTLIST co_name a-date CDATA #IMPLIED> <!ELEMENT date_introduced (#PCDATA)> … <!ELEMENT statement_of_purpose (#PCDATA)> <!ELEMENT submitted_by (#PCDATA)> <!ELEMENT submitted_for (#PCDATA)> UTILIZZARE IL MODELLO OAIS (come XTM) Un AIP (archival information package) contiene content information (CI) (rappresentato come info_objects), and preservation description information (PDI) (A)IP (archival) information package = [DI descriptive information [PI packaging information (ISO-9660 for CD directories) [ CI content information PDI preservation description information = [ PR provenance (origin, processing history) CON context (relation to external information) REF reference (identifies the CI, e.g., ISBN, URI) FIX fixity (e.g., checksum over CI) ]]]] L’ESEMPIO DEL SENATO: l’acquisizione .TM S7 generate generate .XML S2 S6 .HTML save-as save-as .DOC consolidate S5 archive Perl OmniMark .RTF .XML .XML .OAV decompose S0 S1 S3 Legend (stages): S4 SIP DIP AIP IL PASSO SUCCESSIVO. DAL TRATTAMENTO XML ALL’USO DI XTM Il semplice trattamento XML implica: la separazione del contenuto informativo dalla sua presentazione la marcatura dei dati (definendo una gerarchia) l’utilizzo di un formato di dati semistrutturato e auto-descrittivo Il trattamento che impiega XTM aggiunge: informazioni di natura concettuale rilevanti per la conservazione vincoli di integrità regole di descrizione integrativa e utilizzo di linguaggi di rappresentazione (fogli stile per la presentazione) IL PROGETTO SDSC-UNIURB-AGENZIA DELLE ENTRATE IL PROGETTO DELL’UNIVERSITA’ DI URBINO IN RELAZIONE ALLA RICERCA NARA-SDSC (2001-2002) Nell’ambito di una partnership internazionale con il Supercomputer center di S.Diego in relazione alla ricerca sulla conservazione della memoria digitale condotta con il NARA, il progetto finanziato ha avuto l’obiettivo di: approfondire l’analisi della struttura dei metadati (attributi, relazioni tra attributi, vincoli e regole di integrità) discutere il progetto e i suoi risultati nella comunità nazionale (4-5 giugno 2001: seminario ristretto per la definizione delle modalità di cooperazione) sperimentare il prototipo SRB utilizzando un campione delle denunce dei redditi 1995 (formato VSAM) Realizzare un workshop sul ruolo di XML per la conservazione digitale (9-11 ottobre 2002) CHE COSA È IL VSAM (M.RENDINA) VSAM - Virtual Storage Access Method è un sistema di gestione dei dati introdotto dall’IBM nel 1970 come parte dei sistemi operativi OS/VS1 e OS/VS2 VSAM definisce modalità specifiche di organizzazione e accesso ai dati oltre che di mantenimento delle informazioni relative. I set di dati VSAM possono essere utilizzati mediante applicazioni scritte in COBOL o Assembler IL GRUPPO DI DATI VSAM SELEZIONATI (M.RENDINA) Dati codificati in EBCDIC Struttura dei dati espressa in COBOL (copybook) Complessità significativa della struttura (gerarchie, tipi di dati, ridefinizioni) 2. CREARE UNA RAPPRESENTAZIONE XML DEI DATI (M.RENDINA) • Definire uno schema XML dal manuale COBOL • Convertire i dati EBCDIC in dati ASCII utilizzando le informazioni del manuale • Trasformare i dati ASCII in dati marcati XML (validati dallo schema predefinito) COBOL copybook XML Schema (M.Rendina) EBCDIC data ASCII data (M.Rendina) ASCII data XML marked data (M.Rendina) 3. INSERIRE I DATI XML NEL SISTEMA SRB (M.RENDINA) • Generare una struttura dei dati relazionale a partire dallo schema XML • Inserire i dati XML nel database relazionale SDSC • Preparare un’interfaccia specifica per la ricerca e la presentazione dei dati contenuti nel sistema SRB nelle forme desiderate (in corso) …IL RISULTATO (M.RENDINA) QUEL CHE MANCA (M.RENDINA) Le relazioni di conoscenza • logiche (relazioni con le altre fonti di dati) • funzionali e algoritmiche (analisi dei dati ed elaborazioni) • procedurali (workflow) ALCUNE QUESTIONI APERTE • A quale livello si deve fermare la conservazione? E’ necessario conservare la conoscenza di un sistema? • A quali costi? • XML è in grado di sostenere il processo di definizione e rappresentazione delle relazioni di conoscenza? Sono necessari altri prodotti e soluzioni (non ancora maturi come standard)?