Comments
Description
Transcript
ADAT - Archivi Digitali Antico Testo
Trinacria Grid Virtual Laboratory ADAT Salvatore Scifo ([email protected]) INFN Catania Catania, 23.10.2006 University of Coimbra www.trigrid.it FESR Partnership • Titolo del Progetto: “Archivi Digitali Antico Testo (ADAT): Realizzazione di un Laboratorio integrato per il restauro, conservazione, valorizzazione e fruizione di documenti antichi”. • Progetto di Ricerca presentato, insieme ad altre PMI, alla Fondazione Diocesana dei Beni Culturali e l’Università degli Studi di Catania, nell’ambito del bando POR Sicilia 2000/2006 misura 3.14. – Resources INFN • S. Scifo ([email protected]) IR&T engineering • V. Milazzo ([email protected]) • G. Arcidiacono ([email protected]) Catania, 23.10.2006 2 Esigenza Beni Culturali • La conservazione dei beni culturali è diventata una esigenza fortemente sentita da amministrazioni e ambienti culturali. • Sfortunatamente, nel corso della storia diversi patrimoni sono stati distrutti a causa di agenti atmosferici, guerre, disastri naturali e/o errori umani. • La digitalizzazione è una delle risposte al problema della conservazione e soprattutto della preservazione da ogni tipo di alterazione comprese quelle derivate dal restauro fisico. – Attività di restauro possono essere invasive e arrecare danni. Catania, 23.10.2006 3 Infrastruttura e Tecnologia • L’incremento e lo sviluppo delle reti di comunicazione ad alte prestazioni permettono adesso la realizzazione di piattaforme software orientate all’archiviazione e fruizione di contenuti culturali di notevole rilevanza storico artistica. • Attraverso il web, per esempio, documenti storici di inestimabile valore quanto estremamente fragili possono essere aperti al mondo e fruibili in ogni momento senza comprometterne l’integrità. • È possibile ipotizzare soluzioni e servizi On Demand basati anche su tecnologia GRID. Catania, 23.10.2006 4 Il modello ADAT • Si tratta di un Modello di Processo basato su – – – – Metodologie Tecnologie Procedure Hardware e Software • Il modello è orientato alla conservazione del bene reale in se ed alla divulgazione del suo valore intrinseco anche tramite la sua rappresentazione virtuale. Restoration/ Preservation Acquisition / Digital Restoration Cataloguing/ Archiving Publishing Catania, 23.10.2006 5 Restauro Digitale • Oggetto della ricerca – Forme sperimentali di ricostruzione virtuale dei documenti La rimozione di difetti meccanici (crepe, graffi, strappi) La rimozione di difetti chimici (macchie di ruggine, ossidazione della cellulosa, macchie di muffa, …) Il riconoscimento di caratteri manoscritti (ICR) – Integrazione degli algoritmi propriamente di restauro in modelli avanzati di calcolo parallelo, basati sui paradigmi della programmazione genetica ed evolutiva – Orientamento verso un’automazione spinta ed una elaborazione in massa di oggetti digitali – Porting di tali algoritmi (costosissimi dal punto di vista della computazione), su GRID Computing. Catania, 23.10.2006 6 Difetti Meccanici Crepe (Cracks) Questo genere di difetto può deteriorare in maniera pesante il documento, perché può essere di grandi dimensioni. Di solito una crepa non ha un particolare orientamento. Tuttavia, una singola crepa segue quasi sempre un’unica direzione. Strappi (Torn Papers) Graffi (Scratches) Gli strappi possono lasciare grandi vuoti all’interno del documento. Se l’entità dello strappo è sufficientemente grande è impossibile ricostruire le parti mancanti in maniera automatica. I graffi, spesso numerosi, sono sottili linee rette anch’esse di direzione arbitraria. Sono rilevabili specialmente nelle foto e nelle figure. Catania, 23.10.2006 7 Difetti Chimici Ossidazione della cellulosa (Cellulose Oxidation) Questo fenomeno è dovuto all’ossidazione della cellulosa catalizzata da metalli. E’ importante rimuovere questo genere di difetto, poiché gli algoritmi di riconoscimento dei caratteri danno i loro migliori risultati se il testo presenta un fondo più chiaro ed uniforme possibile. Macchie Semitrasparenti (Water blotches) Macchie di ruggine “Foxing” Sono originate tipicamente da acqua e umidità. In questo caso, ogni pixel della macchia contiene sia informazioni sul dato reale che rumore. Sono macchie di colore rosso-marrone (colore della volpe, da cui Foxing), dovute al risultato di reazioni chimiche tra la carta ed alcuni microorganismi. Catania, 23.10.2006 8 Archivio Digitale • STORAGE – L’archivio digitale ospiterà e gestirà 5 Tera Byte di dati distribuiti su Storage GRID. • METADATI – I servizi di catalogazione, indicizzazione e ricerca standard usati in ambiti relativi alle biblioteche digitali verranno “portati” ed “integrati” con i GRID Data Management Services. – Gli schemi di metadati standard utilizzati per catalogare le risorse digitali verranno “tradotti” per Grid Metadata Service (AMGA). • SERVIZIO – L’archivio verrà utilizzato attraverso una applicazione web la cui Business Logic si interfaccia ai servizi di Data Grid mediante un apposito framework sviluppato ad hoc. Catania, 23.10.2006 9 I Requisiti • Contenere e gestire enormi quantità di dati (ordine di Tera Byte) • Storage Distribuito Geograficamente • Fornire accessibilità via rete (web oriented) delle sue funzionalità (amministrative, operative, consultative) • Fornire un meccaniscmo per il Controllo d’Accesso centralizzato basato sui ruoli utente relativi alla Virtualo Organization di appartenenza. • Fornire servizi di indicizzazione e catalogazione • Delegare tutti gli aspetti di gestione dell’infrastruttura di storage al Grid Site Management Catania, 23.10.2006 10 Architettura Distribuita • L’idea base è realizzare una architettura distribuita e aperta, per garantire l’interoperabilità tra i servizi di gestione dei dati e metadati della infrastruttura GRID e le diverse applicazioni. • Tale architettura incoraggia l’implementazione di “federazioni di archivi digitali” che possano condividere la stessa base di dati pur mantenendo la propria autonomia e indipendenza. Archive Application1 Archive Application2 Archive Application3 Grid Data Access Framework GRID Metadata Service GRID File Service GRID FARM (Redundancy, High Availability, Data Backup&Recovery, High Storage Capability, Net Access Security) Catania, 23.10.2006 11 Grid Data Access Framework • GRID Services coinvolti – Metadata Service: è il servizio GRID che gestisce il catalogo dei metadati. – File Catalogue Service: è il servizio GRID che gestisce la localizzazione dei file e delle repliche all’interno dello storage distribuito. – Storage Element: è il servizio GRID che gestisce i file digitali fisicamente conservati nello storage. – AA Service: è il servizio GRID che implementa l’infrastruttura di Autorizzazione e Autenticazione. • Grid Data Access Framework – Nasconde la complessità e la frammentazione delle API dei servizi sottostanti. – I Data Management Services vengono visti come un servizio unico e le differenti operazioni vengono eseguite in modalità coerente. Catania, 23.10.2006 12 Networking GRID Authentication/Authorization Service Archive Users GRID Metadata Service Internet GRID Archive Application GRID Network GRID File Service GRID Data Access Framework GRID Storage (Redundancy, High Availability, Data Backup&Recovery, High Storage Capability, Net Access Security) Catania, 23.10.2006 13 Architettura Software Digital Archive Archive Application Grid Security Grid Access Framework VOMS API VOMS API VOMS/PROXY Search Engine File Manager Metadata Manager GFAL API LFC API AMGA API GFAL API LFC API AMGA API Storage Element File Catalog Service Metadata catalog Service Grid DMS Catania, 23.10.2006 14 Utilizzo dei Metadati Catania, 23.10.2006 15