Sistemi informativi statistici per la conoscenza della realtà

by user

on 06 июля 2016

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download Sistemi informativi statistici per la conoscenza della realtà

Transcript

Sistemi informativi statistici per la conoscenza della realtà

Sistemi Informativi Statistici per la conoscenza della
realtà socio-economica della città di Milano:
il progetto AMeRIcA
Mario Mezzanzanica
Biancamaria Zavanella
[email protected]
[email protected]
Flavio Necchi
[email protected]
Dipartimento di scienze statistiche,
Comune di Milano
Facoltà di scienze statistiche
Settore Statistica
Università di Milano Bicocca
Servizio Statistiche Economiche
Via Bicocca degli Arcimboldi, 8
via Duccio di Boninsegna, 21
20126 Milano
20145 Milano
Abstract
Nel presente lavoro viene presentato un approccio metodologico per lo sviluppo di un Sistema
informativo Statistico-SIS alimentato da dati provenienti da archivi amministrativi di Pubbliche
Amministrazioni. Tali archivi costituiscono una ricca sorgente di informazioni, ma per renderli utili
quali dati statistici al fine di realizzare analisi di supporto decisionale devono essere “messi in
qualità” e riorganizzati. Gli errori e le incompatibilità dei dati amministrativi sono abitualmente non
evidenziati nell’uso amministrativo quotidiano effettuato dagli operatori dei servizi amministrativi
delle Pubbliche Amministrazioni e devono essere identificati e gestiti prima di procedere ad analisi
aggregate. L’approccio metodologico della proposta evidenzia gli aspetti di base per la costruzione
di un SIS che utilizza come fonti sorgenti dati amministrativi: disegno di un modello integrato per la
gestione di differenti e eterogenee basi di dati amministrative, implementazione di un modello per
la qualità dei dati, rimozione di errori che potrebbero avere impatto negativo sulle analisi statistiche,
disegno del data warehouse per le analisi statistiche, disegno del modello multidimensionale del
data base da utilizzarsi per lo sviluppo di indicatori di supporto decisionale. Viene presentato uno
studio di caso, il progetto AMeRIcA, dove l’approccio metodologico è applicato alle basi di dati
amministrative dell’anagrafe del Comune di Milano e degli archivi fiscali della Agenzia delle
Entrate del Ministero delle Finanze. Si mostra inoltre un primo approccio all’integrazione degli
archivi dei Centri per l’Impiego della Provincia di Milano
Il progetto AMeRIcA1
Il progetto AMeRIcA rappresenta un esempio di Sistema informativo statistico, nel quale si
sperimenta l’estensione al settore amministrativo delle tecniche di analisi dei dati a fini decisionali,
con la possibilità di integrare ed analizzare diversi archivi, provenienti da database di enti
amministrativi e tributari. I risultati del progetto dimostrano un elevato potenziale informativo, sia a
livello descrittivo del contesto milanese sia come supporto delle politiche decisionali comunali.
Il progetto AMeRIcA nasce dall’esigenza del comune di Milano di ricavare informazioni relative
alle condizioni reddituali dei suoi cittadini, al fine di supportare decisioni politico-amministrative
riguardanti il contesto socio-economico milanese; esperienze estere hanno dimostrato che l’utilizzo
di banche dati di tipo fiscale e anagrafico, opportunamente integrate, possono consentire di ottenere
informazioni molto ricche su tale argomento. Per rispondere alle richieste del Comune di Milano, il
Dipartimento di Statistica dell’Università di Milano Bicocca ha gettato le basi di un datawarehouse,
nel quale sono stati integrati i dati degli archivi dell’Anagrafe comunale milanese e dell’Agenzia
delle Entrate relativi ai medesimi soggetti.
Grazie all’integrazione di questi dati, è ora possibile, nel pieno rispetto della privacy, avere
informazioni dettagliate e precise sul reddito dichiarato dai cittadini, accompagnate da informazioni
sulle variabili anagrafiche che li caratterizzano. Fino ad ora, gli unici dati a disposizione in tale
ambito provenivano da indagini campionarie, la cui significatività si abbassa notevolmente quando
vengono indagati ambiti territoriali piccoli; pertanto questo progetto è in grado di fornire dati di
interesse, sia dal punto di vista delle politiche amministrative sia da quello delle analisi statistiche
rese in tal modo possibili.
Anagrafe del Comune di Milano
I dati anagrafici estratti dal Comune di Milano si riferiscono sia ai cittadini residenti,
successivamente identificati come “attivi”, che ai cittadini iscritti alla lista AIRE2. Allo stato attuale
dei lavori, il Data Warehouse contiene i dati relativi agli anni 2000, 2001, 2002 e 2003, ma si
prevede un continuo aggiornamento della base di dati anche per gli anni successivi.
Per ciascun anno, l’estrazione dall’Anagrafe di Milano avviene in data 31 dicembre e rappresenta
una fotografia dello stock dei cittadini residenti a tale data. Operando in questo modo vengono
1
Anagrafe Milanese e Redditi Individuali con Archivio
2
L’AIRE (Anagrafe degli Italiani Residenti all’Estero) è l’anagrafe della popolazione italiana residenti all’estero
selezionati solo i cittadini presenti, tralasciando così tutti i movimenti demografici avvenuti durante
il corso dell’anno. Un confronto fra le diverse fotografie fornisce comunque la possibilità di
ricavare dati anche su coloro che, durante il corso dell’anno in esame, sono usciti perché emigrati o
perché deceduti. Considerazione analoga può essere fatta anche per i cittadini in entrata.
Agenzia delle Entrate
I dati forniti dall’Agenzia delle Entrate ed estratti a partire dalla lista dei residenti nel Comune di
Milano fanno riferimento solo alle persone fisiche; i modelli fiscali presenti sono quindi il Modello
Unico, il Modello 730 e i quadri SA, per la maggior parte estrapolati dal Modello 770.
Gli anni a disposizione sono il 2000, 2001, 2002 e 2003, caricati e puliti nel Data Warehouse
AMeRIcA.
Il Modello 730
Il requisito fondamentale per poter compilare il Modello 730 è quello di non possedere redditi
provenienti da lavoro autonomo o redditi da imprese. Generalmente è quindi compilato da coloro
che possiedono un lavoro dipendente. Il 730 è preferito per la maggiore semplicità di compilazione
e per la possibilità di ricevere in tempi più brevi eventuali crediti d’imposta.
Il Modello Unico
Il Modello di dichiarazione UNICO viene presentato da coloro che hanno prodotto:
•
redditi da lavoro autonomo perché possessori di partita IVA;
•
redditi d’impresa, anche in forma di partecipazione;
•
redditi derivanti dall’esercizio di arti e professioni abituali, anche in forma associata;
•
solo redditi patrimoniali e non percepiscono un reddito da lavoro dipendente.
Modello 770 - Quadro SA
Il Quadro SA si trova all’interno del modello 770. Viene compilato dai sostituti d’imposta, ovvero
da coloro che hanno corrisposto somme o valori soggetti a ritenuta alla fonte e/o contributi
previdenziali e assistenziali dovuti all’INPS e/o premi assicurativi dovuti all’INAIL. Il Quadro SA
viene quindi utilizzato per indicare l’elenco dei soggetti ai quali sono stati corrisposti, nell’anno di
imposta considerato, redditi da lavoro dipendente e assimilati. In particolare, il sostituto d’imposta
(datore di lavoro, ente pensionistico, etc.) è chi, per legge, sostituisce in tutto o in parte il
contribuente (sostituito) nei rapporti con l’Amministrazione finanziaria, trattenendo le imposte
dovute dai compensi, salari, pensioni o altri redditi erogati e versandole successivamente allo Stato.
Sistemi informativi statistici e uso statistico dei dati amministrativi
Come si è detto, il progetto AMeRIcA è nato dall’iniziativa del Comune di Milano; infatti, la
pubblica amministrazione, in un momento di profondi cambiamenti istituzionali e organizzativi, ha
bisogno di un sistema informativo che permetta di prendere decisioni con rapidità, basandosi sulla
conoscenza approfondita dei fenomeni di interesse. In tale contesto assume un ruolo determinante la
creazione di un Sistema Informativo Statistico (SIS), orientato alla raccolta, all’archiviazione, alla
trasformazione ed alla distribuzione dell’informazione statistica.
Gli archivi amministrativi costituiscono lo schema di memoria dei processi attuati da sistemi
gestionali amministrativi e sono caratterizzati in modo diverso in funzione del contenuto
informativo gestito, a seconda del grado di strutturazione interna, delle modalità di gestione e delle
motivazioni che hanno portato alla loro formazione. Il sistema informativo statistico recupera i dati
in uscita da quello amministrativo-gestionale e li rielabora con finalità di tipo conoscitivo,
esplorativo, di controllo e valutazione.
Il sistema informativo ha quindi due finalità principali:
•
supportare i processi decisionali attraverso la raccolta, l’analisi e l’elaborazione delle
informazioni e la costruzione di indicatori direzionali;
•
ritornare le informazioni al sistema gestionale per consentire l’aggiornamento e l’evoluzione
nel tempo.
Un sistema informativo statistico deve rispondere ad esigenze di affidabilità, imparzialità,
pertinenza, tempestività, tutela delle riservatezza, trasparenza ed efficienza.
Tuttavia, le finalità di un SIS possono andare anche molto al di la dei citati scopi di supporto alle
politiche. Infatti, se l’integrazione viene effettuata con modalità non puramente informatiche, ma in
un ottica di vera e propria formazione di dati statistici, le informazioni provenienti da un SIS
possono rendere possibili analisi statistiche prima impossibili.
Ad esempio, i dati contenuti in AMeRIcA sono di grande interesse per l’analisi dei redditi a livello
comunale, ossia a un livello di granularità territoriale non raggiungibile utilizzando le fonti
campionarie prima disponibili. Inoltre, i dati di AMeRIcA rendono possibile studiare sia i redditi
individuali che quelli familiari, infatti tramite le informazioni dell’anagrafe si possono ricostruire le
famiglie, delle quali si conoscono tutte le caratteristiche anagrafiche (composizione, età e genere dei
componenti, nazionalità, ecc.). Ma ciò non basta, in AMeRIcA si trovano anche informazioni sulle
tipologie di reddito percepite dai cittadini (redditi da lavoro dipendente, redditi patrimoniali ecc.),
accoppiate con le caratteristiche di coloro che percepiscono i diversi tipi di reddito. Si deve anche
notare, che per ora si dispone già di quattro anni di dati, ma la serie storica iniziata crescerà nel
tempo, rendendo possibili anche analisi di tipo dinamico.
Infine, si deve sottolineare che le possibilità di analisi statistiche aumentano a dismisura se si
formula l’ipotesi di integrare ulteriormente AMeRIcA con dati provenienti da altre fonti (INPS,
INAIL; Centri per l’impiego, ecc.), in tal modo si disporrebbe, infatti, di un quadro economicosociale dei cittadini milanesi, che renderebbe possibili analisi prima impensabili e interventi di
politica sociale estremamente mirate ed efficaci.
Sistema Informativo Statistico per il supporto decisionale
Come già detto, le basi dati dei sistemi di gestione di servizi amministrativi sono utilizzate come
fonti sorgenti nei sistemi informativi statistici. Le informazioni in essi contenute, dopo una fase di
estrazione, pulizia e controllo, vengono integrate e riorganizzate all’interno di un datawarehouse, in
modo che siano effettuabili attività di analisi finalizzate in particolare a migliorare la conoscenza
della realtà ed il supporto alle decisioni. Il sistema informativo così ottenuto acquisisce da un lato la
funzione di sistema di “retroazione e controllo” rispetto al sistema amministrativo, cioè suggerisce
delle regole di organizzazione delle informazioni e dei dati utili al miglioramento del sistema
amministrativo e dall’altro diventa uno strumento di rilevanza per i decisori in quanto contiene
volumi di dati con livelli di copertura molto elevata o “totale” della popolazione di riferimento.
Questo fatto costituisce una risposta per i decisori (responsabili e dirigenti di istituzioni) che, in un
momento di profondi cambiamenti istituzionali e organizzativi, hanno bisogno di migliorare
puntualmente la conoscenza della realtà per intervenire nel prendere decisioni con rapidità in merito
a politiche di sviluppo degli interventi di natura economica e sociale.
In tale contesto assume un ruolo determinante la creazione di un Sistema Informativo Statistico
(SIS) inteso come un sistema informativo di tipo non gestionale a supporto di decisioni,
monitoraggio e controllo; è quindi un sistema informativo orientato alla raccolta, all’archiviazione,
alla trasformazione ed alla distribuzione dell’informazione statistica.
Un requisito essenziale del sistema informativo statistico è rappresentato dalla capacità di
rispondere ad esigenze di affidabilità, imparzialità, pertinenza, tempestività, tutela della
riservatezza, trasparenza ed efficienza.
Metodologia e modellazione di un SIS
La metodologia di progettazione di un SIS prevede fasi distinte e indipendenti: dalla raccolta e
analisi dei requisiti utente alla definizione degli indicatori statistici, passando per l’analisi delle fonti
informative, la progettazione delle basi dati, il processo di trasformazione e trattamento delle
informazioni, la definizione di un modello multidimensionale per l’analisi dei dati per il supporto
direzionale. Un’importante caratteristica del SIS consiste nella sua capacità di evolvere
dinamicamente nel tempo al momento dell’integrazione della base dati con una nuova fonte
informativa, sia essa un aggiornamento di un archivio già integrato o un nuovo insieme di dati.
Le informazioni che alimentano un SIS sono raccolte e acquisite tramite un tracciato record
prestabilito ma del tutto destrutturato; tale fatto introduce ridondanza all’interno dei dati e implica
una difficile integrazione data anche dalla diversa formattazione degli stessi dati. Si procede
pertanto ad una operazione preliminare che consiste in una accurata analisi dei dati forniti
finalizzata a ristrutturare e riorganizzane il modello dati.
Si possono presentare due situazioni: la prima, rappresentata in figura 1 in cui si tratta di
aggiornamento della base dati negli anni: è necessario progettare la riorganizzazione dei dati per
renderli compatibili con il modello preesistente, passando da un formato destrutturato ad uno
strutturato. Occorre, inoltre, ricondurre i dati di partenza agli standard classificatori adottati
attraverso l’utilizzo di metadati, minimizzando così la perdita di informazione.
Tabelle di
transcodifica
Tabella
Tabella
Classificazioni
adottate
Tabella
Tabella
Transcodifica
Metadati
Mapping
Caricamento
Tabella
Tabella
Tabella
Modello
destrutturato
Modello entità
relazioni
Figura 1 - Aggiornamento della base dati
La seconda situazione ( in figura 2) è rappresentata da dati provenienti da un archivio di prima
adozione; in tale caso è necessaria una fase di analisi più approfondita per la progettazione del
modello dei dati, che consenta, normalizzazione delle informazioni, minimizzazione delle
ridondanze, definizione delle entità coinvolte e delle relazioni che intercorrono tra esse e con le
entità già presenti nel modello di base.
Figura 2 - Integrazione di un nuovo archivio
Nel progettare il modello dati devono essere considerati due aspetti: le esigenze di integrazione, per
le quali occorre prevedere i possibili punti di integrazione tra le diverse banche dati, predisponendo
i dati in modo da risultare successivamente compatibili e confrontabili; le esigenze di analisi,
registrando le informazioni in modo che possano essere facilmente accessibili e fruibili nel corso
delle successive fasi di elaborazione. In questa fase si cercano di massimizzare le informazioni
registrate e solo successivamente verranno distinte le informazioni utili fine dell’analisi e quelle
accessorie, che rimangono disponibili per successive integrazioni o analisi di dettaglio.
Una volta predisposto il modello dati, prima del caricamento, i dati vengono “trattati” al fine di
migliorarne la qualità e l’affidabilità e per ricondurli a classificazioni standard. I processi a cui
vengono sottoposti sono la pulizia semantica, riguardante la correttezza formale del dato, e la
pulizia sintattica, caratteristica del dominio da cui proviene l’informazione.
Qualità dei dati
Come accennato in precedenza, gli archivi amministrativi generalmente non sono in uno stato
qualitativo sufficiente per svolgere correttamente delle analisi, sono infatti presenti errori e
inconsistenze i quali, sebbene non influiscano sull’uso “normale” degli archivi, possono
condizionare pesantemente il risultato delle operazioni di analisi aggregate. Prima di procedere a
qualsiasi analisi è necessario quindi verificare lo “stato qualitativo” degli archivi. Strumentale a
questa fase è l’attività di analisi della struttura e del contenuto dei database di origine. In generale la
qualità dell’informazione si articola su tre aspetti principali: la qualità del modello concettuale con
cui è organizzata l’informazione all’interno degli archivi, la qualità dei valori dei dati presenti negli
archivi e la qualità con la quale l’informazione viene rappresentata esternamente. Le principali
analisi di qualità degli archivi amministrativi riguardano i primi due aspetti. L’analisi di qualità
viene svolta sia a livello di singolo archivio, sia confrontando il contenuto di diversi archivi;
naturalmente il confronto di dati simili proveniente da archivi diversi permette di svolgere
operazioni di valutazione altrimenti non possibili a livello di singolo archivio.
Con riferimento alla qualità del modello concettuale riportiamo alcune delle dimensioni di qualità di
maggior interesse per gli archivi amministrativi:
•
rilevanza, ottenibilità e chiarezza della definizione del contenuto. La rilevanza indica in che
misura i dati sono rilevanti per gli scopi di analisi, l’ottenibilità è una misura della facilità
con cui le informazioni necessarie per l’analisi sono ottenibili dagli schemi a disposizione e
la chiarezza indica se ogni termine nella definizione del modello è chiaramente definito o
meno.
•
scopo, definito come il grado con cui il modello comprende i dati necessari per soddisfare le
necessità di analisi.
•
granularità degli attributi e precisione dei domini rappresentati. La granularità indica il
numero di possibili valori utilizzabili per rappresentare un concetto (maggiore è il numero di
attributi, più finemente un concetto può essere rappresentato), la precisione dei domini
rappresentati è il livello di dettaglio delle misure o dello schema di classificazione che
definiscono il dominio o i domini di riferimento.
In merito alla qualità del valore dei dati, possiamo considerare le seguenti dimensioni di analisi:
•
Accuratezza: è la vicinanza del valore di un dato memorizzato negli archivi al valore
effettivamente descrittivo della situazione reale.
•
Currency: misura l’adeguatezza della rapidità di aggiornamento dei dati memorizzati negli
archivi, nel contesto di realtà mutevoli nel tempo.
•
Completezza: indica in che misura un dato previsto a livello di schema è effettivamente
presente all’interno dell’archivio; una possibile misura della completezza di un attributo può
essere data dalla percentuale di valori nulli che l’attributo assume nell’archivio. In generale
un attributo non dovrebbe mai assumere un valore nullo, salvo che il valore nullo non abbia
un significato.
•
Consistenza. L’inconsistenza tra i valori si ha quando due attributi, tra i quali esiste una
forma di dipendenza, presentano valori non compatibili.
Scopo dell’analisi di qualità degli archivi è stabilire se i dati contenuti negli archivi presentano un
livello qualitativo sufficiente per lo svolgimento delle analisi preposte oppure se è necessario
svolgere delle operazioni di messa in qualità al fine di raggiungere un livello qualitativo sufficiente
per lo svolgimento delle analisi.
La scarsa qualità degli archivi amministrativi è spesso causata da una conformazione non
appropriata dei processi amministrativi che alimentano gli archivi stessi. Le attività di messa in
qualità degli archivi hanno un effetto che non perdura nel tempo se non si interviene sulle cause
sistemiche che causano l’introduzione di nuovi errori negli archivi. L’attività di revisione dei
processi può essere efficacemente guidata dall’attività di analisi della qualità degli archivi, in
quanto consente di far emergere quali sono i processi che necessitano di una revisione, senza dover
procedere ad un’analisi approfondita di tutti i processi amministrativi coinvolti.
In figura 3 viene rappresentato il processo complessivo di caricamento, trattamento e definizione
delle strutture dati utilizzato nel progetto AMeRIcA:
Figura 3 - Il processo complessivo di estrazione, trasformazione e caricamento
Data Warehouse
L’archivio prodotto come risultato delle attività di integrazione di archivi differenti e di messa in
qualità dei dati costituisce il punto di partenza per le successive attività di analisi. Tuttavia, tale
archivio, così come è strutturato, non permette di svolgere analisi in modo efficiente, pertanto si
rende necessaria una riorganizzazione dei dati. La riorganizzazione dei dati deve facilitare per
quanto possibile l’integrazione di nuove forniture di dati, riguardanti sia archivi precedentemente
integrati, sia nuovi archivi che si rendono disponibili nel tempo. Nell’ambito delle tecnologie
informatiche, lo strumento tradizionalmente impiegato per questi scopi è il data warehouse. Un data
warehouse è una soluzione informatica per la memorizzazione, gestione e l’analisi di grandi volumi
di dati che viene impiegato con il fine di produrre informazione sintetica per il supporto alle
decisioni.
Il datawarehouse AMeRIcA si basa, dal punto di vista architetturale, su tre livelli.
•
Il livello di archivio: ogni archivio può essere considerato separatamente dagli altri presenti
all’interno del Data Warehouse e le analisi condotte su di esso non vengono influenzate dai
valori caricati nei rimanenti archivi;
•
Il livello annuale: gli archivi vengono aggregati in base all’anno a cui fanno riferimento;
ciascun archivio annuale prevede informazioni riguardanti l’anagrafe milanese, i dati fiscali
ed eventuali altri dati derivanti da archivi correlati; al suo interno possono essere condotte
analisi riguardanti le informazioni aggregate relative a ciascun anno;
•
Il livello globale: gli archivi vengono aggregati in un unico modello, che consente di
analizzare l’andamento delle variabili lungo tutto il periodo preso in considerazione, tanto
per i dati anagrafici quanto per quelli fiscali o combinazioni di essi, identificando entrate,
uscite e variazioni nel flusso complessivo.
Figura 4 - Architettura del Data Warehouse AMeRIcA
Un datawarehouse richiede di riorganizzare il contenuto informativo secondo uno schema
opportuno (schema a stella o a fiocco di neve) per poter svolgere velocemente ed efficacemente le
analisi richieste. Le informazioni risultanti al termine del processo di estrazione, trattamento e
caricamento sono state riorganizzate secondo un modello multidimensionale, in modo da agevolare
le successive operazioni di analisi, predisponendo una struttura che comprenda:
•
Fatti: le principali entità oggetto delle analisi;
•
Misure: le variabili riferite ai fatti che determinano gli indicatori di analisi;
•
Dimensioni: le direzioni lungo cui si intende operare l’analisi, esaminandole nel dettaglio
(calcolando ad esempio
un indicatore in base all’età del cittadino)
o eventualmente
aggregandole (ad esempio calcolando l’indicatore sulla base delle fasce di età) e
combinandole (aggiungendo ad esempio la dimensione del genere del cittadino insieme a
quella dell’età).
Nella Figura 5 viene rappresentato schematicamente lo schema descrittivo degli elementi principali
(fatti misure e dimensioni) su cui è progettato il data warehouse AMeRIcA.
Figura 5 - Schema descrittivo di fatti misure e dimensioni su cui è articolato DWH America
I principali fatti individuati all’interno del datawarehuose AMeRIcA riguardano individui e
famiglie: nella figura di seguito riportata è illustrato lo schema del modello multidimensionale
relativo al fatto Individuo.
Figura 6 - Il fatto "individuo"
Per utilizzare un data warehouse è necessario definire sin dal primo momento i fatti e le dimensioni
di analisi, pertanto è necessario che sia già delineato il “fil rouge” lungo il quale dovranno essere
svolte le attività di analisi.
Una volta che un data warehouse sia stato costruito attorno a certi fatti e dimensioni di analisi,
successive forniture di dati possono essere integrate facilmente, facilitando la continuazione
dell’attività di analisi e permettendo in questo modo di monitorare nel tempo l’evoluzione dei
fenomeni di interesse.
La progettazione e realizzazione di un data warehouse che veda come principali fonti informative
gli archivi dei sistemi di gestione amministrativa può risultare uno strumento efficace per l’analisi
di fenomeni, in particolare territoriali e settoriali, per diverse considerazioni: puntualità dell’analisi,
incrementalità delle basi dati nel tempo, accelerazione del “time to market decisionale”, cioè la
possibilità di ridurre i tempi di analisi dei fenomeni e di mettere velocemente in circolo
informazioni per i decisori.
L’ipotesi esposta presuppone lo svolgimento di un lavoro e l’investimento in attività di ricerca per
la messa a punto dei modelli di integrazione, messa in qualità e progettazione di un sistema
informativo basato su data warehouse che integri le diverse sorgenti informative. Queste attività
prevedono la partecipazione di soggetti con competenze differenti: statistica, informatica, giuridica
ed economica. Inoltre risulta fondamentale la creazione di partnership fortemente motivate tra
istituzioni, in primis, e operatori privati per la messa a disposizione tempestiva delle fonti dati
sorgenti.
Esempi di analisi basate sul datawarehouse AMeRIcA
Si riportano, in questo paragrafo, alcuni esempi delle possibili analisi basate sulle informazioni
conservate nel datawarehouse AMeRIcA. In Figura 3 viene rappresentato l’andamento della
popolazione milanese, soggetto principale di tutte le analisi, nel quadriennio caricato fino ad ora,
stratificato per genere. Come si può notare l’andamento è sostanzialmente costante, anche se analisi
più approfondite mostrano come il fenomeno sia frutto di un equilibrio dinamico tra un flusso
uscente dei cittadini di nazionalità italiana, soprattutto nelle fasce più giovani, ed un flusso entrante
dovuto all’immigrazione straniera.
800.000
700.000
600.000
500.000
400.000
300.000
200.000
100.000
0
2000
2001
2002
2003
Femmine
676.112
674.068
671.824
676.303
Maschi
600.708
599.028
596.198
602.879
Femmine
Maschi
Figura 3 - Popolazione milanese nel quadriennio 2000 - 2003 stratificata per genere
In Figura 4 viene invece rappresentata la distribuzione per genere e classe d’età della popolazione
milanese nell’anno 2003; ad arricchire il dato numerico contribuisce l’indicazione del tasso medio
di incremento annuo nel quadriennio che consente di fornire considerazioni in merito al flusso nel
corso degli anni della popolazione oltre che alla situazione annuale.
4%
3%
2%
15%
1%
0%
10%
-1%
-2%
5%
-3%
-4%
0%
-5%
0-14
15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74
2003 Femmine
10,5%
2003 M aschi
12,6% 3,7% 4,7%
3,1% 3,9%
6,1%
8,2% 15,6% 12,4% 14,1% 13,3% 12,8%
7,2% 9,4% 17,7% 12,8% 13,3% 11,3% 7,4%
Tasso di Incremento Femmine 2,2% -1,4% -3,2% -4,5% 0,5% 2,9% -2,3% -0,7% 0,2%
Tasso di Incremento M aschi
75+
Tasso di incremento medio annuo 00-03
20%
2,2% -0,9% -2,9% -4,3% -0,4% 2,8% -1,4%
-1,1%
1,3%
0,6% 2,9%
2003 Femmine
2003 Maschi
Tasso di Incremento Femmine
Tasso di Incremento Maschi
Figura 4 - Popolazione milanese nell'anno 2003 stratificata per genere e per classe d'età
La Figura 5 introduce il dato fiscale all’interno delle analisi descrivendo la composizione dei
cittadini milanesi di nazionalità italiana che hanno presentato dichiarazione fiscale nel corso
dell’anno 2003 e stratificandoli per genere e classe d’età. L’indicazione del tasso di incremento
facilita la comprensione dell’andamento nel corso degli anni evidenziando un sostanziale calo dei
dichiaranti, in particolar modo nella classi d’età inferiori, ad eccezione della classe che va dai 35 ai
80.000
4%
70.000
2%
60.000
0%
50.000
-2%
40.000
-4%
30.000
-6%
20.000
-8%
10.000
0
-10%
0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 75 o +
Femmine
Maschi
Tasso incremento femmine
Tasso incremento Maschi
Figura 5 - Dichiaranti milanesi di nazionalità italiana suddivisi per sesso e per classi d’età
Tasso di incremento medio annuo 00-03
44 anni.
In Figura 6 viene invece indicato il reddito imponibile medio dichiarato dai cittadini milanesi nel
corso dell’anno 2003. Da sottolineare la profonda differenza di reddito tra i due generi a partire dai
45.000
5%
40.000
0%
35.000
30.000
-5%
25.000
20.000
-10%
15.000
-15%
10.000
-20%
5.000
0
-25%
0-14 15-19 20-24 25-29 30-34 35-44 45-54 55-64 65-74 75 o +
Femmine
2.423 3.190 7.721 12.83517.88020.81621.52516.363 12.45013.415
Maschi
2.446 3.955 8.666 15.56423.69435.62341.54640.316 32.34724.825
Tasso di incremento medio annuo 00-03
30 anni ed il differente andamento del tasso di incremento, in particolare per le classi più giovani.
Tasso incremento femmine 3,5% -19,2 -12,4 -12,9 -9,4% -1,0% 0,3% 1,9% -2,4% -0,3%
Tasso incremento maschi
-0,1% -5,1% -12,4 -2,0% -2,4% -0,4% -2,4% 1,8% 2,3% 3,0%
Femmine
Maschi
Tasso incremento femmine
Tasso incremento maschi
600.000
500.000
400.000
300.000
200.000
Tipologie di reddito
Solo redditi patrimoniali
Altre tipologie di reddito positivi- prevalenti
Redditi da impresa o da lavoro
autonomo negativi
Redditi -positivi- da impresa
Redditi -positivi- da lavoro
autonomo
Redditi solo da lavoro
dipendente
Redditi da lavoro dipendente
0
Redditi nulli
100.000
30%
20%
10%
0%
-10%
-20%
-30%
-40%
Tasso di incremento medio annuo 00-03
Figura 6 - Reddito medio dei cittadini milanesi stratificato per sesso e per classi d'età
Tasso di crescita medio annuo
Figura 7 - Tipologie di reddito prevalenti
La Errore. L'origine riferimento non è stata trovata. indaga la composizione dei redditi
dichiarati dai cittadini milanesi indicando per ciascuno di essi la fonte di reddito prevalente. Da
notare la prevalenza del reddito da lavoro dipendente, nella maggior parte dei casi addirittura
presente come unica voce di reddito.
1400000
1276819
1273095
1279182
1268022
1200000
1000000
800000
712523
705725
663651
692247
600000
400000
200000
53674
54446
52284
60793
73825
0
0
0
2000
2001
Popolazione milanese
2002
2003
2004
Dichiaranti reddito dipendente
Individui avviati
Figura 12 - Popolazione milanese, lavoro dipendente e avviamenti al lavoro
In Figura 2 la popolazione milanese negli anni in esame viene confrontata con la porzione
dichiarante reddito da lavoro dipendente e con i cittadini soggetti, estratti dalla base dati degli
avviamenti dei centri per l’impiego della provincia di Milano, che hanno avuto avviamenti nel corso
degli anni di riferimento.
16861,44
16342,71
12692,00
12349,00
10182,84
8735,00
9086,48
7745,00 6956,00
6183,35
6979,91
Media
Lavoro
interinale
Lavoro a
tempo
indeterminato
Lavoro a
tempo
determinato
Avviamento di
una giornata
Apprendistato
5151,40
Altro rapporto
18000,00
16000,00
14000,00
12000,00
10000,00
8000,00
6000,00
4000,00
2000,00
0,00
Mediana
Figura 83 - Reddito medio e mediano dei cittadini milanesi avviati stratificati per tipologia di rapporto
La Figura 83 focalizza l’attenzione sui cittadini milanesi soggetti ad avviamento che vengono
stratificati sulla base della tipologia di rapporto instaurato: la differenza tra i redditi medi e mediani
sottolinea l’asimmetria delle distribuzioni, particolarmente accentuata nel caso di lavoro a tempo
indeterminato.
20000,00
18381,61
18000,00
15865,85
16000,00
15693,57
16355,83
13663,45
14000,00
12230,25
10989,60
12000,00
11167,00
11331,00
10586,00
8658,47
10000,00
7543,00
8000,00
6000,00
4000,00
4294,32
3008,00
2000,00
0,00
Da 16 a 19 Da 20 a 25 Da 26 a 30 Da 31 a 40 Da 41 a 50 Da 51 a 60 Da 61 a 65
Media
Mediana
Figura 9 - Reddito medio e mediano dei cittadini milanesi avviati stratificati per classi d’età
La medesima analisi, stratificata in Figura 9 per classi d’età, evidenzia da un lato l’asimmetria tra
redditi medi e mediani in tutte le classi d’età, con particolare accentuazioni per le età maggiori, e le
forti differenze di retribuzione tra le classi giovanili e le rimanenti.
39000
34000
29000
24000
19000
14000
9000
4000
Reddito imponibile mediano
1
2
3
4
5
6+
14,450
22,958
33,023
37,187
34,502
29,158
Numero Componenti
Reddito imponibile mediano
Figura 10 - Reddito imponibile mediano delle famiglie milanesi stratificato per numero di componenti
Infine la Figura 10 introduce un’ulteriore potenzialità del DW AMeRIcA: la possibilità di aggregare
i dai individuali fino a ricostruire le famiglie milanesi ed i rispettivi redditi; nel caso in esame viene
analizzato il reddito imponibile mediano stratificato per numero di componenti delle famiglie.
Conclusioni
In questo lavoro è stato descritta la metodologia seguita per lo sviluppo di un sistema informativo
statistico alimentato da archivi amministrativi, il quale permette di fornire informazioni utili per il
supporto alle attività decisionali. L’integrazione dei dati e gli aspetti connessi alla qualità degli
stessi costituiscono le problematiche principali da affrontare per poter trasferire il contenuto di
archivi eterogenei verso un sistema di supporto alle decisioni. Il data warehouse risultante (che
costituisce il cuore del sistema per il supporto alle decisioni) permette sia di svolgere analisi
dettagliate su tutta la popolazione sia di focalizzare le ricerche su specifiche classi di persone, in
entrambi i casi la varietà delle fonti informative che alimentano il sistema informativo statistico
permette di analizzare in modo esauriente e completo i diversi aspetti della realtà di interesse (sono
stati riportati in questo articolo esempi di analisi svolte in termini sia di età, sia di distribuzione
territoriale, sia di suddivisione in classi reddituali, sia in base alla tipologia di contratto lavorativo).
L’enorme patrimonio informativo risultante si rivela, nello specifico caso preso in esame, una
preziosa fonte di informazioni per i soggetti responsabili di promuovere politiche attive a sostegno
del mercato del lavoro.
Infine esiste la possibilità di instaurare una forte sinergia tra archivi amministrativi e sistemi
informativi statistici per il supporto alle decisioni, tuttavia questa possibilità non è usualmente
sfruttata in modo adeguato. Il rapporto di utilità tra le due entità è bidirezionale: gli archivi
amministrativi forniscono dati al sistema informativo statistico, mentre quest’ultimo fornisce
indicazioni su come può essere migliorata la qualità dei dati degli archivi e il modello di servizio
con cui sono erogati i servizi delle pubbliche amministrazioni. Iniziare a sfruttare questo rapporto di
utilità reciproca può innestare un circolo virtuoso capace di produrre notevoli benefici agli utenti
finali dei due sistemi.
Bibliografia
B. Zavanella “Verso Architetture Integrate di Sistemi Informativi Amministrativi: Nuove
Opportunità per l’Analisi Statistica Territoriale”, Atti della XLI Riunione Scientifica della SIS,
Milano, giugno 2002.
AA. VV. “Qualità degli archivi amministrativi e qualità dell’informazione statistica”, Spunti tratti
dalla riflessione di Marco Martini per un nuovo modello di relazione tra sistemi amministrativi e
sistema statistico. A cura di P. Aimetti e B. Zavanella, Franco Angeli, Milano luglio 2004.
B. Zavanella, “Nuovi dati per l’analisi statistica territoriale: le opportunità offerte dai sistemi
informativi della pubblica amministrazione”, in “Qualità degli archivi amministrativi e qualità
dell’informazione statistica”, Franco Angeli, Milano luglio 2004.
M. Martini, “Qualità degli archivi amministrativi: aspetti teorici e ipotesi di miglioramento degli
archivi degli agenti economici in Italia”, in “Qualità degli archivi amministrativi e qualità
dell’informazione statistica”, Franco Angeli, Milano luglio 2004.
L. Buzzigoli, “The new role of statistics in local public administrations”, atti della conferenza
“Quantitative methods in economics (multiple criteria decision making xi)”, svolta presso la
Faculty of Economics and Management, Slovak Agricultural University, Nitra (SK), 2002
M. Denk, K. Froeschl, “The IDARESA data mediation architecture for statistical aggregates”,
“Research in Official Statistics”, 3(1), 2000, p.7-38.
M. Eppler, “Managing information quality”; Springer Verlag, 2003
E. Hoffmann, “We must use administrative data for official statistics - but how should we use
them?”, “Statistical Journal of the United Nations/ECE”, 12, 1995, pp. 41-48.
Information Quality I, “Principles and foundation, the MIT total data quality management
program”, Ottobre-Novembre 2005, http://web.mit.edu/tdqm/www/index.shtml.
H. Papageorgiou, F. Pentaris, E. Theodorou, M. Vardaki, M. Petrakos, “A statistical metadata
model for simultaneous manipulation of both data and metadata”. Journal of Intelligent
Information Systems, 17(2-3), pp. 169-192, 2001.
Statistics Denmark, “The use of administrative sources for statistics and international
comparabilità”, invited paper a”Conference of european statisticians, 48th plenary session”,
Paris (FR), giugno 2000
B. Sundgren, “Making statistical data more available”, “International Statistical Review”, 64(1), pp.
23-38, 1996
I. Thomson, A. Holmy, “Combining data from surveys and administrative record systems - the
norwegian experience”, “International Statistical Review”, 66(2), pp. 201-221, 1998
R. Wang, “A product perspective on total data quality management”, “Communication of the
ACM”, 41(2), 1998
P. Mariani, M. Mezzanzanica, B. Zavanella, “Statistical Information Systems and Data Warehouses
for Job Marketplaces”, Atti della XLIII Riunione Scientifica della SIS, Torino, luglio 2002.