Sistemi informativi statistici per la conoscenza della realtà
by user
Comments
Transcript
Sistemi informativi statistici per la conoscenza della realtà
Sistemi Informativi Statistici per la conoscenza della realtà socio-economica della città di Milano: il progetto AMeRIcA Mario Mezzanzanica Biancamaria Zavanella [email protected] [email protected] Flavio Necchi [email protected] Dipartimento di scienze statistiche, Comune di Milano Facoltà di scienze statistiche Settore Statistica Università di Milano Bicocca Servizio Statistiche Economiche Via Bicocca degli Arcimboldi, 8 via Duccio di Boninsegna, 21 20126 Milano 20145 Milano Abstract Nel presente lavoro viene presentato un approccio metodologico per lo sviluppo di un Sistema informativo Statistico-SIS alimentato da dati provenienti da archivi amministrativi di Pubbliche Amministrazioni. Tali archivi costituiscono una ricca sorgente di informazioni, ma per renderli utili quali dati statistici al fine di realizzare analisi di supporto decisionale devono essere “messi in qualità” e riorganizzati. Gli errori e le incompatibilità dei dati amministrativi sono abitualmente non evidenziati nell’uso amministrativo quotidiano effettuato dagli operatori dei servizi amministrativi delle Pubbliche Amministrazioni e devono essere identificati e gestiti prima di procedere ad analisi aggregate. L’approccio metodologico della proposta evidenzia gli aspetti di base per la costruzione di un SIS che utilizza come fonti sorgenti dati amministrativi: disegno di un modello integrato per la gestione di differenti e eterogenee basi di dati amministrative, implementazione di un modello per la qualità dei dati, rimozione di errori che potrebbero avere impatto negativo sulle analisi statistiche, disegno del data warehouse per le analisi statistiche, disegno del modello multidimensionale del data base da utilizzarsi per lo sviluppo di indicatori di supporto decisionale. Viene presentato uno studio di caso, il progetto AMeRIcA, dove l’approccio metodologico è applicato alle basi di dati amministrative dell’anagrafe del Comune di Milano e degli archivi fiscali della Agenzia delle Entrate del Ministero delle Finanze. Si mostra inoltre un primo approccio all’integrazione degli archivi dei Centri per l’Impiego della Provincia di Milano Il progetto AMeRIcA1 Il progetto AMeRIcA rappresenta un esempio di Sistema informativo statistico, nel quale si sperimenta l’estensione al settore amministrativo delle tecniche di analisi dei dati a fini decisionali, con la possibilità di integrare ed analizzare diversi archivi, provenienti da database di enti amministrativi e tributari. I risultati del progetto dimostrano un elevato potenziale informativo, sia a livello descrittivo del contesto milanese sia come supporto delle politiche decisionali comunali. Il progetto AMeRIcA nasce dall’esigenza del comune di Milano di ricavare informazioni relative alle condizioni reddituali dei suoi cittadini, al fine di supportare decisioni politico-amministrative riguardanti il contesto socio-economico milanese; esperienze estere hanno dimostrato che l’utilizzo di banche dati di tipo fiscale e anagrafico, opportunamente integrate, possono consentire di ottenere informazioni molto ricche su tale argomento. Per rispondere alle richieste del Comune di Milano, il Dipartimento di Statistica dell’Università di Milano Bicocca ha gettato le basi di un datawarehouse, nel quale sono stati integrati i dati degli archivi dell’Anagrafe comunale milanese e dell’Agenzia delle Entrate relativi ai medesimi soggetti. Grazie all’integrazione di questi dati, è ora possibile, nel pieno rispetto della privacy, avere informazioni dettagliate e precise sul reddito dichiarato dai cittadini, accompagnate da informazioni sulle variabili anagrafiche che li caratterizzano. Fino ad ora, gli unici dati a disposizione in tale ambito provenivano da indagini campionarie, la cui significatività si abbassa notevolmente quando vengono indagati ambiti territoriali piccoli; pertanto questo progetto è in grado di fornire dati di interesse, sia dal punto di vista delle politiche amministrative sia da quello delle analisi statistiche rese in tal modo possibili. Anagrafe del Comune di Milano I dati anagrafici estratti dal Comune di Milano si riferiscono sia ai cittadini residenti, successivamente identificati come “attivi”, che ai cittadini iscritti alla lista AIRE2. Allo stato attuale dei lavori, il Data Warehouse contiene i dati relativi agli anni 2000, 2001, 2002 e 2003, ma si prevede un continuo aggiornamento della base di dati anche per gli anni successivi. Per ciascun anno, l’estrazione dall’Anagrafe di Milano avviene in data 31 dicembre e rappresenta una fotografia dello stock dei cittadini residenti a tale data. Operando in questo modo vengono 1 Anagrafe Milanese e Redditi Individuali con Archivio 2 L’AIRE (Anagrafe degli Italiani Residenti all’Estero) è l’anagrafe della popolazione italiana residenti all’estero selezionati solo i cittadini presenti, tralasciando così tutti i movimenti demografici avvenuti durante il corso dell’anno. Un confronto fra le diverse fotografie fornisce comunque la possibilità di ricavare dati anche su coloro che, durante il corso dell’anno in esame, sono usciti perché emigrati o perché deceduti. Considerazione analoga può essere fatta anche per i cittadini in entrata. Agenzia delle Entrate I dati forniti dall’Agenzia delle Entrate ed estratti a partire dalla lista dei residenti nel Comune di Milano fanno riferimento solo alle persone fisiche; i modelli fiscali presenti sono quindi il Modello Unico, il Modello 730 e i quadri SA, per la maggior parte estrapolati dal Modello 770. Gli anni a disposizione sono il 2000, 2001, 2002 e 2003, caricati e puliti nel Data Warehouse AMeRIcA. Il Modello 730 Il requisito fondamentale per poter compilare il Modello 730 è quello di non possedere redditi provenienti da lavoro autonomo o redditi da imprese. Generalmente è quindi compilato da coloro che possiedono un lavoro dipendente. Il 730 è preferito per la maggiore semplicità di compilazione e per la possibilità di ricevere in tempi più brevi eventuali crediti d’imposta. Il Modello Unico Il Modello di dichiarazione UNICO viene presentato da coloro che hanno prodotto: • redditi da lavoro autonomo perché possessori di partita IVA; • redditi d’impresa, anche in forma di partecipazione; • redditi derivanti dall’esercizio di arti e professioni abituali, anche in forma associata; • solo redditi patrimoniali e non percepiscono un reddito da lavoro dipendente. Modello 770 - Quadro SA Il Quadro SA si trova all’interno del modello 770. Viene compilato dai sostituti d’imposta, ovvero da coloro che hanno corrisposto somme o valori soggetti a ritenuta alla fonte e/o contributi previdenziali e assistenziali dovuti all’INPS e/o premi assicurativi dovuti all’INAIL. Il Quadro SA viene quindi utilizzato per indicare l’elenco dei soggetti ai quali sono stati corrisposti, nell’anno di imposta considerato, redditi da lavoro dipendente e assimilati. In particolare, il sostituto d’imposta (datore di lavoro, ente pensionistico, etc.) è chi, per legge, sostituisce in tutto o in parte il contribuente (sostituito) nei rapporti con l’Amministrazione finanziaria, trattenendo le imposte dovute dai compensi, salari, pensioni o altri redditi erogati e versandole successivamente allo Stato. Sistemi informativi statistici e uso statistico dei dati amministrativi Come si è detto, il progetto AMeRIcA è nato dall’iniziativa del Comune di Milano; infatti, la pubblica amministrazione, in un momento di profondi cambiamenti istituzionali e organizzativi, ha bisogno di un sistema informativo che permetta di prendere decisioni con rapidità, basandosi sulla conoscenza approfondita dei fenomeni di interesse. In tale contesto assume un ruolo determinante la creazione di un Sistema Informativo Statistico (SIS), orientato alla raccolta, all’archiviazione, alla trasformazione ed alla distribuzione dell’informazione statistica. Gli archivi amministrativi costituiscono lo schema di memoria dei processi attuati da sistemi gestionali amministrativi e sono caratterizzati in modo diverso in funzione del contenuto informativo gestito, a seconda del grado di strutturazione interna, delle modalità di gestione e delle motivazioni che hanno portato alla loro formazione. Il sistema informativo statistico recupera i dati in uscita da quello amministrativo-gestionale e li rielabora con finalità di tipo conoscitivo, esplorativo, di controllo e valutazione. Il sistema informativo ha quindi due finalità principali: • supportare i processi decisionali attraverso la raccolta, l’analisi e l’elaborazione delle informazioni e la costruzione di indicatori direzionali; • ritornare le informazioni al sistema gestionale per consentire l’aggiornamento e l’evoluzione nel tempo. Un sistema informativo statistico deve rispondere ad esigenze di affidabilità, imparzialità, pertinenza, tempestività, tutela delle riservatezza, trasparenza ed efficienza. Tuttavia, le finalità di un SIS possono andare anche molto al di la dei citati scopi di supporto alle politiche. Infatti, se l’integrazione viene effettuata con modalità non puramente informatiche, ma in un ottica di vera e propria formazione di dati statistici, le informazioni provenienti da un SIS possono rendere possibili analisi statistiche prima impossibili. Ad esempio, i dati contenuti in AMeRIcA sono di grande interesse per l’analisi dei redditi a livello comunale, ossia a un livello di granularità territoriale non raggiungibile utilizzando le fonti campionarie prima disponibili. Inoltre, i dati di AMeRIcA rendono possibile studiare sia i redditi individuali che quelli familiari, infatti tramite le informazioni dell’anagrafe si possono ricostruire le famiglie, delle quali si conoscono tutte le caratteristiche anagrafiche (composizione, età e genere dei componenti, nazionalità, ecc.). Ma ciò non basta, in AMeRIcA si trovano anche informazioni sulle tipologie di reddito percepite dai cittadini (redditi da lavoro dipendente, redditi patrimoniali ecc.), accoppiate con le caratteristiche di coloro che percepiscono i diversi tipi di reddito. Si deve anche notare, che per ora si dispone già di quattro anni di dati, ma la serie storica iniziata crescerà nel tempo, rendendo possibili anche analisi di tipo dinamico. Infine, si deve sottolineare che le possibilità di analisi statistiche aumentano a dismisura se si formula l’ipotesi di integrare ulteriormente AMeRIcA con dati provenienti da altre fonti (INPS, INAIL; Centri per l’impiego, ecc.), in tal modo si disporrebbe, infatti, di un quadro economicosociale dei cittadini milanesi, che renderebbe possibili analisi prima impensabili e interventi di politica sociale estremamente mirate ed efficaci. Sistema Informativo Statistico per il supporto decisionale Come già detto, le basi dati dei sistemi di gestione di servizi amministrativi sono utilizzate come fonti sorgenti nei sistemi informativi statistici. Le informazioni in essi contenute, dopo una fase di estrazione, pulizia e controllo, vengono integrate e riorganizzate all’interno di un datawarehouse, in modo che siano effettuabili attività di analisi finalizzate in particolare a migliorare la conoscenza della realtà ed il supporto alle decisioni. Il sistema informativo così ottenuto acquisisce da un lato la funzione di sistema di “retroazione e controllo” rispetto al sistema amministrativo, cioè suggerisce delle regole di organizzazione delle informazioni e dei dati utili al miglioramento del sistema amministrativo e dall’altro diventa uno strumento di rilevanza per i decisori in quanto contiene volumi di dati con livelli di copertura molto elevata o “totale” della popolazione di riferimento. Questo fatto costituisce una risposta per i decisori (responsabili e dirigenti di istituzioni) che, in un momento di profondi cambiamenti istituzionali e organizzativi, hanno bisogno di migliorare puntualmente la conoscenza della realtà per intervenire nel prendere decisioni con rapidità in merito a politiche di sviluppo degli interventi di natura economica e sociale. In tale contesto assume un ruolo determinante la creazione di un Sistema Informativo Statistico (SIS) inteso come un sistema informativo di tipo non gestionale a supporto di decisioni, monitoraggio e controllo; è quindi un sistema informativo orientato alla raccolta, all’archiviazione, alla trasformazione ed alla distribuzione dell’informazione statistica. Un requisito essenziale del sistema informativo statistico è rappresentato dalla capacità di rispondere ad esigenze di affidabilità, imparzialità, pertinenza, tempestività, tutela della riservatezza, trasparenza ed efficienza. Metodologia e modellazione di un SIS La metodologia di progettazione di un SIS prevede fasi distinte e indipendenti: dalla raccolta e analisi dei requisiti utente alla definizione degli indicatori statistici, passando per l’analisi delle fonti informative, la progettazione delle basi dati, il processo di trasformazione e trattamento delle informazioni, la definizione di un modello multidimensionale per l’analisi dei dati per il supporto direzionale. Un’importante caratteristica del SIS consiste nella sua capacità di evolvere dinamicamente nel tempo al momento dell’integrazione della base dati con una nuova fonte informativa, sia essa un aggiornamento di un archivio già integrato o un nuovo insieme di dati. Le informazioni che alimentano un SIS sono raccolte e acquisite tramite un tracciato record prestabilito ma del tutto destrutturato; tale fatto introduce ridondanza all’interno dei dati e implica una difficile integrazione data anche dalla diversa formattazione degli stessi dati. Si procede pertanto ad una operazione preliminare che consiste in una accurata analisi dei dati forniti finalizzata a ristrutturare e riorganizzane il modello dati. Si possono presentare due situazioni: la prima, rappresentata in figura 1 in cui si tratta di aggiornamento della base dati negli anni: è necessario progettare la riorganizzazione dei dati per renderli compatibili con il modello preesistente, passando da un formato destrutturato ad uno strutturato. Occorre, inoltre, ricondurre i dati di partenza agli standard classificatori adottati attraverso l’utilizzo di metadati, minimizzando così la perdita di informazione. Tabelle di transcodifica Tabella Tabella Classificazioni adottate Tabella Tabella Transcodifica Metadati Mapping Caricamento Tabella Tabella Tabella Modello destrutturato Modello entità relazioni Figura 1 - Aggiornamento della base dati La seconda situazione ( in figura 2) è rappresentata da dati provenienti da un archivio di prima adozione; in tale caso è necessaria una fase di analisi più approfondita per la progettazione del modello dei dati, che consenta, normalizzazione delle informazioni, minimizzazione delle ridondanze, definizione delle entità coinvolte e delle relazioni che intercorrono tra esse e con le entità già presenti nel modello di base. Figura 2 - Integrazione di un nuovo archivio Nel progettare il modello dati devono essere considerati due aspetti: le esigenze di integrazione, per le quali occorre prevedere i possibili punti di integrazione tra le diverse banche dati, predisponendo i dati in modo da risultare successivamente compatibili e confrontabili; le esigenze di analisi, registrando le informazioni in modo che possano essere facilmente accessibili e fruibili nel corso delle successive fasi di elaborazione. In questa fase si cercano di massimizzare le informazioni registrate e solo successivamente verranno distinte le informazioni utili fine dell’analisi e quelle accessorie, che rimangono disponibili per successive integrazioni o analisi di dettaglio. Una volta predisposto il modello dati, prima del caricamento, i dati vengono “trattati” al fine di migliorarne la qualità e l’affidabilità e per ricondurli a classificazioni standard. I processi a cui vengono sottoposti sono la pulizia semantica, riguardante la correttezza formale del dato, e la pulizia sintattica, caratteristica del dominio da cui proviene l’informazione. Qualità dei dati Come accennato in precedenza, gli archivi amministrativi generalmente non sono in uno stato qualitativo sufficiente per svolgere correttamente delle analisi, sono infatti presenti errori e inconsistenze i quali, sebbene non influiscano sull’uso “normale” degli archivi, possono condizionare pesantemente il risultato delle operazioni di analisi aggregate. Prima di procedere a qualsiasi analisi è necessario quindi verificare lo “stato qualitativo” degli archivi. Strumentale a questa fase è l’attività di analisi della struttura e del contenuto dei database di origine. In generale la qualità dell’informazione si articola su tre aspetti principali: la qualità del modello concettuale con cui è organizzata l’informazione all’interno degli archivi, la qualità dei valori dei dati presenti negli archivi e la qualità con la quale l’informazione viene rappresentata esternamente. Le principali analisi di qualità degli archivi amministrativi riguardano i primi due aspetti. L’analisi di qualità viene svolta sia a livello di singolo archivio, sia confrontando il contenuto di diversi archivi; naturalmente il confronto di dati simili proveniente da archivi diversi permette di svolgere operazioni di valutazione altrimenti non possibili a livello di singolo archivio. Con riferimento alla qualità del modello concettuale riportiamo alcune delle dimensioni di qualità di maggior interesse per gli archivi amministrativi: • rilevanza, ottenibilità e chiarezza della definizione del contenuto. La rilevanza indica in che misura i dati sono rilevanti per gli scopi di analisi, l’ottenibilità è una misura della facilità con cui le informazioni necessarie per l’analisi sono ottenibili dagli schemi a disposizione e la chiarezza indica se ogni termine nella definizione del modello è chiaramente definito o meno. • scopo, definito come il grado con cui il modello comprende i dati necessari per soddisfare le necessità di analisi. • granularità degli attributi e precisione dei domini rappresentati. La granularità indica il numero di possibili valori utilizzabili per rappresentare un concetto (maggiore è il numero di attributi, più finemente un concetto può essere rappresentato), la precisione dei domini rappresentati è il livello di dettaglio delle misure o dello schema di classificazione che definiscono il dominio o i domini di riferimento. In merito alla qualità del valore dei dati, possiamo considerare le seguenti dimensioni di analisi: • Accuratezza: è la vicinanza del valore di un dato memorizzato negli archivi al valore effettivamente descrittivo della situazione reale. • Currency: misura l’adeguatezza della rapidità di aggiornamento dei dati memorizzati negli archivi, nel contesto di realtà mutevoli nel tempo. • Completezza: indica in che misura un dato previsto a livello di schema è effettivamente presente all’interno dell’archivio; una possibile misura della completezza di un attributo può essere data dalla percentuale di valori nulli che l’attributo assume nell’archivio. In generale un attributo non dovrebbe mai assumere un valore nullo, salvo che il valore nullo non abbia un significato. • Consistenza. L’inconsistenza tra i valori si ha quando due attributi, tra i quali esiste una forma di dipendenza, presentano valori non compatibili. Scopo dell’analisi di qualità degli archivi è stabilire se i dati contenuti negli archivi presentano un livello qualitativo sufficiente per lo svolgimento delle analisi preposte oppure se è necessario svolgere delle operazioni di messa in qualità al fine di raggiungere un livello qualitativo sufficiente per lo svolgimento delle analisi. La scarsa qualità degli archivi amministrativi è spesso causata da una conformazione non appropriata dei processi amministrativi che alimentano gli archivi stessi. Le attività di messa in qualità degli archivi hanno un effetto che non perdura nel tempo se non si interviene sulle cause sistemiche che causano l’introduzione di nuovi errori negli archivi. L’attività di revisione dei processi può essere efficacemente guidata dall’attività di analisi della qualità degli archivi, in quanto consente di far emergere quali sono i processi che necessitano di una revisione, senza dover procedere ad un’analisi approfondita di tutti i processi amministrativi coinvolti. In figura 3 viene rappresentato il processo complessivo di caricamento, trattamento e definizione delle strutture dati utilizzato nel progetto AMeRIcA: Figura 3 - Il processo complessivo di estrazione, trasformazione e caricamento Data Warehouse L’archivio prodotto come risultato delle attività di integrazione di archivi differenti e di messa in qualità dei dati costituisce il punto di partenza per le successive attività di analisi. Tuttavia, tale archivio, così come è strutturato, non permette di svolgere analisi in modo efficiente, pertanto si rende necessaria una riorganizzazione dei dati. La riorganizzazione dei dati deve facilitare per quanto possibile l’integrazione di nuove forniture di dati, riguardanti sia archivi precedentemente integrati, sia nuovi archivi che si rendono disponibili nel tempo. Nell’ambito delle tecnologie informatiche, lo strumento tradizionalmente impiegato per questi scopi è il data warehouse. Un data warehouse è una soluzione informatica per la memorizzazione, gestione e l’analisi di grandi volumi di dati che viene impiegato con il fine di produrre informazione sintetica per il supporto alle decisioni. Il datawarehouse AMeRIcA si basa, dal punto di vista architetturale, su tre livelli. • Il livello di archivio: ogni archivio può essere considerato separatamente dagli altri presenti all’interno del Data Warehouse e le analisi condotte su di esso non vengono influenzate dai valori caricati nei rimanenti archivi; • Il livello annuale: gli archivi vengono aggregati in base all’anno a cui fanno riferimento; ciascun archivio annuale prevede informazioni riguardanti l’anagrafe milanese, i dati fiscali ed eventuali altri dati derivanti da archivi correlati; al suo interno possono essere condotte analisi riguardanti le informazioni aggregate relative a ciascun anno; • Il livello globale: gli archivi vengono aggregati in un unico modello, che consente di analizzare l’andamento delle variabili lungo tutto il periodo preso in considerazione, tanto per i dati anagrafici quanto per quelli fiscali o combinazioni di essi, identificando entrate, uscite e variazioni nel flusso complessivo. Figura 4 - Architettura del Data Warehouse AMeRIcA Un datawarehouse richiede di riorganizzare il contenuto informativo secondo uno schema opportuno (schema a stella o a fiocco di neve) per poter svolgere velocemente ed efficacemente le analisi richieste. Le informazioni risultanti al termine del processo di estrazione, trattamento e caricamento sono state riorganizzate secondo un modello multidimensionale, in modo da agevolare le successive operazioni di analisi, predisponendo una struttura che comprenda: • Fatti: le principali entità oggetto delle analisi; • Misure: le variabili riferite ai fatti che determinano gli indicatori di analisi; • Dimensioni: le direzioni lungo cui si intende operare l’analisi, esaminandole nel dettaglio (calcolando ad esempio un indicatore in base all’età del cittadino) o eventualmente aggregandole (ad esempio calcolando l’indicatore sulla base delle fasce di età) e combinandole (aggiungendo ad esempio la dimensione del genere del cittadino insieme a quella dell’età). Nella Figura 5 viene rappresentato schematicamente lo schema descrittivo degli elementi principali (fatti misure e dimensioni) su cui è progettato il data warehouse AMeRIcA. Figura 5 - Schema descrittivo di fatti misure e dimensioni su cui è articolato DWH America I principali fatti individuati all’interno del datawarehuose AMeRIcA riguardano individui e famiglie: nella figura di seguito riportata è illustrato lo schema del modello multidimensionale relativo al fatto Individuo. Figura 6 - Il fatto "individuo" Per utilizzare un data warehouse è necessario definire sin dal primo momento i fatti e le dimensioni di analisi, pertanto è necessario che sia già delineato il “fil rouge” lungo il quale dovranno essere svolte le attività di analisi. Una volta che un data warehouse sia stato costruito attorno a certi fatti e dimensioni di analisi, successive forniture di dati possono essere integrate facilmente, facilitando la continuazione dell’attività di analisi e permettendo in questo modo di monitorare nel tempo l’evoluzione dei fenomeni di interesse. La progettazione e realizzazione di un data warehouse che veda come principali fonti informative gli archivi dei sistemi di gestione amministrativa può risultare uno strumento efficace per l’analisi di fenomeni, in particolare territoriali e settoriali, per diverse considerazioni: puntualità dell’analisi, incrementalità delle basi dati nel tempo, accelerazione del “time to market decisionale”, cioè la possibilità di ridurre i tempi di analisi dei fenomeni e di mettere velocemente in circolo informazioni per i decisori. L’ipotesi esposta presuppone lo svolgimento di un lavoro e l’investimento in attività di ricerca per la messa a punto dei modelli di integrazione, messa in qualità e progettazione di un sistema informativo basato su data warehouse che integri le diverse sorgenti informative. Queste attività prevedono la partecipazione di soggetti con competenze differenti: statistica, informatica, giuridica ed economica. Inoltre risulta fondamentale la creazione di partnership fortemente motivate tra istituzioni, in primis, e operatori privati per la messa a disposizione tempestiva delle fonti dati sorgenti. Esempi di analisi basate sul datawarehouse AMeRIcA Si riportano, in questo paragrafo, alcuni esempi delle possibili analisi basate sulle informazioni conservate nel datawarehouse AMeRIcA. In Figura 3 viene rappresentato l’andamento della popolazione milanese, soggetto principale di tutte le analisi, nel quadriennio caricato fino ad ora, stratificato per genere. Come si può notare l’andamento è sostanzialmente costante, anche se analisi più approfondite mostrano come il fenomeno sia frutto di un equilibrio dinamico tra un flusso uscente dei cittadini di nazionalità italiana, soprattutto nelle fasce più giovani, ed un flusso entrante dovuto all’immigrazione straniera. 800.000 700.000 600.000 500.000 400.000 300.000 200.000 100.000 0 2000 2001 2002 2003 Femmine 676.112 674.068 671.824 676.303 Maschi 600.708 599.028 596.198 602.879 Femmine Maschi Figura 3 - Popolazione milanese nel quadriennio 2000 - 2003 stratificata per genere In Figura 4 viene invece rappresentata la distribuzione per genere e classe d’età della popolazione milanese nell’anno 2003; ad arricchire il dato numerico contribuisce l’indicazione del tasso medio di incremento annuo nel quadriennio che consente di fornire considerazioni in merito al flusso nel corso degli anni della popolazione oltre che alla situazione annuale. 4% 3% 2% 15% 1% 0% 10% -1% -2% 5% -3% -4% 0% -5% 0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 2003 Femmine 10,5% 2003 M aschi 12,6% 3,7% 4,7% 3,1% 3,9% 6,1% 8,2% 15,6% 12,4% 14,1% 13,3% 12,8% 7,2% 9,4% 17,7% 12,8% 13,3% 11,3% 7,4% Tasso di Incremento Femmine 2,2% -1,4% -3,2% -4,5% 0,5% 2,9% -2,3% -0,7% 0,2% Tasso di Incremento M aschi 75+ Tasso di incremento medio annuo 00-03 20% 2,2% -0,9% -2,9% -4,3% -0,4% 2,8% -1,4% -1,1% 1,3% 0,6% 2,9% 2003 Femmine 2003 Maschi Tasso di Incremento Femmine Tasso di Incremento Maschi Figura 4 - Popolazione milanese nell'anno 2003 stratificata per genere e per classe d'età La Figura 5 introduce il dato fiscale all’interno delle analisi descrivendo la composizione dei cittadini milanesi di nazionalità italiana che hanno presentato dichiarazione fiscale nel corso dell’anno 2003 e stratificandoli per genere e classe d’età. L’indicazione del tasso di incremento facilita la comprensione dell’andamento nel corso degli anni evidenziando un sostanziale calo dei dichiaranti, in particolar modo nella classi d’età inferiori, ad eccezione della classe che va dai 35 ai 80.000 4% 70.000 2% 60.000 0% 50.000 -2% 40.000 -4% 30.000 -6% 20.000 -8% 10.000 0 -10% 0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 75 o + Femmine Maschi Tasso incremento femmine Tasso incremento Maschi Figura 5 - Dichiaranti milanesi di nazionalità italiana suddivisi per sesso e per classi d’età Tasso di incremento medio annuo 00-03 44 anni. In Figura 6 viene invece indicato il reddito imponibile medio dichiarato dai cittadini milanesi nel corso dell’anno 2003. Da sottolineare la profonda differenza di reddito tra i due generi a partire dai 45.000 5% 40.000 0% 35.000 30.000 -5% 25.000 20.000 -10% 15.000 -15% 10.000 -20% 5.000 0 -25% 0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 75 o + Femmine 2.423 3.190 7.721 12.83517.88020.81621.52516.363 12.45013.415 Maschi 2.446 3.955 8.666 15.56423.69435.62341.54640.316 32.34724.825 Tasso di incremento medio annuo 00-03 30 anni ed il differente andamento del tasso di incremento, in particolare per le classi più giovani. Tasso incremento femmine 3,5% -19,2 -12,4 -12,9 -9,4% -1,0% 0,3% 1,9% -2,4% -0,3% Tasso incremento maschi -0,1% -5,1% -12,4 -2,0% -2,4% -0,4% -2,4% 1,8% 2,3% 3,0% Femmine Maschi Tasso incremento femmine Tasso incremento maschi 600.000 500.000 400.000 300.000 200.000 Tipologie di reddito Solo redditi patrimoniali Altre tipologie di reddito positivi- prevalenti Redditi da impresa o da lavoro autonomo negativi Redditi -positivi- da impresa Redditi -positivi- da lavoro autonomo Redditi solo da lavoro dipendente Redditi da lavoro dipendente 0 Redditi nulli 100.000 30% 20% 10% 0% -10% -20% -30% -40% Tasso di incremento medio annuo 00-03 Figura 6 - Reddito medio dei cittadini milanesi stratificato per sesso e per classi d'età Tasso di crescita medio annuo Figura 7 - Tipologie di reddito prevalenti La Errore. L'origine riferimento non è stata trovata. indaga la composizione dei redditi dichiarati dai cittadini milanesi indicando per ciascuno di essi la fonte di reddito prevalente. Da notare la prevalenza del reddito da lavoro dipendente, nella maggior parte dei casi addirittura presente come unica voce di reddito. 1400000 1276819 1273095 1279182 1268022 1200000 1000000 800000 712523 705725 663651 692247 600000 400000 200000 53674 54446 52284 60793 73825 0 0 0 2000 2001 Popolazione milanese 2002 2003 2004 Dichiaranti reddito dipendente Individui avviati Figura 12 - Popolazione milanese, lavoro dipendente e avviamenti al lavoro In Figura 2 la popolazione milanese negli anni in esame viene confrontata con la porzione dichiarante reddito da lavoro dipendente e con i cittadini soggetti, estratti dalla base dati degli avviamenti dei centri per l’impiego della provincia di Milano, che hanno avuto avviamenti nel corso degli anni di riferimento. 16861,44 16342,71 12692,00 12349,00 10182,84 8735,00 9086,48 7745,00 6956,00 6183,35 6979,91 Media Lavoro interinale Lavoro a tempo indeterminato Lavoro a tempo determinato Avviamento di una giornata Apprendistato 5151,40 Altro rapporto 18000,00 16000,00 14000,00 12000,00 10000,00 8000,00 6000,00 4000,00 2000,00 0,00 Mediana Figura 83 - Reddito medio e mediano dei cittadini milanesi avviati stratificati per tipologia di rapporto La Figura 83 focalizza l’attenzione sui cittadini milanesi soggetti ad avviamento che vengono stratificati sulla base della tipologia di rapporto instaurato: la differenza tra i redditi medi e mediani sottolinea l’asimmetria delle distribuzioni, particolarmente accentuata nel caso di lavoro a tempo indeterminato. 20000,00 18381,61 18000,00 15865,85 16000,00 15693,57 16355,83 13663,45 14000,00 12230,25 10989,60 12000,00 11167,00 11331,00 10586,00 8658,47 10000,00 7543,00 8000,00 6000,00 4000,00 4294,32 3008,00 2000,00 0,00 Da 16 a 19 Da 20 a 25 Da 26 a 30 Da 31 a 40 Da 41 a 50 Da 51 a 60 Da 61 a 65 Media Mediana Figura 9 - Reddito medio e mediano dei cittadini milanesi avviati stratificati per classi d’età La medesima analisi, stratificata in Figura 9 per classi d’età, evidenzia da un lato l’asimmetria tra redditi medi e mediani in tutte le classi d’età, con particolare accentuazioni per le età maggiori, e le forti differenze di retribuzione tra le classi giovanili e le rimanenti. 39000 34000 29000 24000 19000 14000 9000 4000 Reddito imponibile mediano 1 2 3 4 5 6+ 14,450 22,958 33,023 37,187 34,502 29,158 Numero Componenti Reddito imponibile mediano Figura 10 - Reddito imponibile mediano delle famiglie milanesi stratificato per numero di componenti Infine la Figura 10 introduce un’ulteriore potenzialità del DW AMeRIcA: la possibilità di aggregare i dai individuali fino a ricostruire le famiglie milanesi ed i rispettivi redditi; nel caso in esame viene analizzato il reddito imponibile mediano stratificato per numero di componenti delle famiglie. Conclusioni In questo lavoro è stato descritta la metodologia seguita per lo sviluppo di un sistema informativo statistico alimentato da archivi amministrativi, il quale permette di fornire informazioni utili per il supporto alle attività decisionali. L’integrazione dei dati e gli aspetti connessi alla qualità degli stessi costituiscono le problematiche principali da affrontare per poter trasferire il contenuto di archivi eterogenei verso un sistema di supporto alle decisioni. Il data warehouse risultante (che costituisce il cuore del sistema per il supporto alle decisioni) permette sia di svolgere analisi dettagliate su tutta la popolazione sia di focalizzare le ricerche su specifiche classi di persone, in entrambi i casi la varietà delle fonti informative che alimentano il sistema informativo statistico permette di analizzare in modo esauriente e completo i diversi aspetti della realtà di interesse (sono stati riportati in questo articolo esempi di analisi svolte in termini sia di età, sia di distribuzione territoriale, sia di suddivisione in classi reddituali, sia in base alla tipologia di contratto lavorativo). L’enorme patrimonio informativo risultante si rivela, nello specifico caso preso in esame, una preziosa fonte di informazioni per i soggetti responsabili di promuovere politiche attive a sostegno del mercato del lavoro. Infine esiste la possibilità di instaurare una forte sinergia tra archivi amministrativi e sistemi informativi statistici per il supporto alle decisioni, tuttavia questa possibilità non è usualmente sfruttata in modo adeguato. Il rapporto di utilità tra le due entità è bidirezionale: gli archivi amministrativi forniscono dati al sistema informativo statistico, mentre quest’ultimo fornisce indicazioni su come può essere migliorata la qualità dei dati degli archivi e il modello di servizio con cui sono erogati i servizi delle pubbliche amministrazioni. Iniziare a sfruttare questo rapporto di utilità reciproca può innestare un circolo virtuoso capace di produrre notevoli benefici agli utenti finali dei due sistemi. Bibliografia B. Zavanella “Verso Architetture Integrate di Sistemi Informativi Amministrativi: Nuove Opportunità per l’Analisi Statistica Territoriale”, Atti della XLI Riunione Scientifica della SIS, Milano, giugno 2002. AA. VV. “Qualità degli archivi amministrativi e qualità dell’informazione statistica”, Spunti tratti dalla riflessione di Marco Martini per un nuovo modello di relazione tra sistemi amministrativi e sistema statistico. A cura di P. Aimetti e B. Zavanella, Franco Angeli, Milano luglio 2004. B. Zavanella, “Nuovi dati per l’analisi statistica territoriale: le opportunità offerte dai sistemi informativi della pubblica amministrazione”, in “Qualità degli archivi amministrativi e qualità dell’informazione statistica”, Franco Angeli, Milano luglio 2004. M. Martini, “Qualità degli archivi amministrativi: aspetti teorici e ipotesi di miglioramento degli archivi degli agenti economici in Italia”, in “Qualità degli archivi amministrativi e qualità dell’informazione statistica”, Franco Angeli, Milano luglio 2004. L. Buzzigoli, “The new role of statistics in local public administrations”, atti della conferenza “Quantitative methods in economics (multiple criteria decision making xi)”, svolta presso la Faculty of Economics and Management, Slovak Agricultural University, Nitra (SK), 2002 M. Denk, K. Froeschl, “The IDARESA data mediation architecture for statistical aggregates”, “Research in Official Statistics”, 3(1), 2000, p.7-38. M. Eppler, “Managing information quality”; Springer Verlag, 2003 E. Hoffmann, “We must use administrative data for official statistics - but how should we use them?”, “Statistical Journal of the United Nations/ECE”, 12, 1995, pp. 41-48. Information Quality I, “Principles and foundation, the MIT total data quality management program”, Ottobre-Novembre 2005, http://web.mit.edu/tdqm/www/index.shtml. H. Papageorgiou, F. Pentaris, E. Theodorou, M. Vardaki, M. Petrakos, “A statistical metadata model for simultaneous manipulation of both data and metadata”. Journal of Intelligent Information Systems, 17(2-3), pp. 169-192, 2001. Statistics Denmark, “The use of administrative sources for statistics and international comparabilità”, invited paper a”Conference of european statisticians, 48th plenary session”, Paris (FR), giugno 2000 B. Sundgren, “Making statistical data more available”, “International Statistical Review”, 64(1), pp. 23-38, 1996 I. Thomson, A. Holmy, “Combining data from surveys and administrative record systems - the norwegian experience”, “International Statistical Review”, 66(2), pp. 201-221, 1998 R. Wang, “A product perspective on total data quality management”, “Communication of the ACM”, 41(2), 1998 P. Mariani, M. Mezzanzanica, B. Zavanella, “Statistical Information Systems and Data Warehouses for Job Marketplaces”, Atti della XLIII Riunione Scientifica della SIS, Torino, luglio 2002.