Comments
Transcript
Giuseppe Garofalo - Il progetto ARCHIMEDE
5 Marzo 2007 Seminario URBES, ARCHIMEDE, Censimento permanente I Comuni verso l’uso statistico degli archivi amministrativi e dei sistemi di integrazione delle fonti 21 aprile 2015, Como Il progetto ARCHIMEDE: integrazione centralizzata e generalizzata di fonti amministrative 13-14 December Luxembourg SIM: Sistema Integrato di Microdati Struttura dei legami a tela di ragno E’ una infrastruttura statistica di base nella quale vengono integrati dati riferiti a individui, famiglie e unità provenienti da una pluralità di basi dati di fonte amministrativa. Include dati relativi a: Archivio 1 Archivio 3 Archivio 2 Base n-esima per l’ integrazione Archivio I Archivio N • Caratteristiche di individui e famiglie (es. occupazione, titolo di studio); • Caratteristiche delle unità in cui gli individui realizzano le loro attività (o la loro vita) • Caratteristiche dei luoghi di residenza, lavoro, studio, ecc. ; • Tipologie di relazioni tra individui, unità e luoghi SIM: Obiettivi e utilizzo Obiettivi: • Identificare ogni oggetto (famiglia; individuo; unità economiche; loro relazioni) in fonti diverse con un numero ID univoco e stabile nel tempo. • Definire, per ogni oggetto, le relazioni logiche e fisiche, nel tempo e nello spazio, tra le informazioni disponibili da fonti diverse. SIM produce: Strutture di dati riferiti a unità elementari appartenenti a specifiche popolazioni di interesse statistico utili per : • realizzare e aggiornare registri statistici • realizzare sottosistemi di informazioni statistiche dedicate a lavoro, mobilità, istruzione, reddito, ecc. • dare supporto alle rilevazioni statistiche (ad es. per stratificare campioni o fornire variabili ausiliare o integrative Sistema Integrato di Microdati (SIM) Repository dei dati amministrativi acquisiti dall’Istituto, organizzato con lo scopo di supportare i processi di produzione statistica dell'Istat. Favorisce l’utilizzo di dati individuali, privi degli identificativi diretti, mantenendo inalterate le potenzialità informative derivanti dal processo di integrazione Sottosistemi di base Individui Tutte le fonti in cui sono contenuti dati sufficienti per l’identificazione degli individui alimentano la relativa base per l’integrazione. Obiettivo: consentire agli utilizzatori di disporre del più ampio set possibile di unità elementari su cui implementare le metodologie specifiche dei processi statistici. Unità economiche Obiettivi: • Individuare le unità giuridiche utili per la costruzione dell’unità statistica impresa. Attribuire il codice identificativo delle unità giuridiche. • Attribuire il “codice unità” - fonti amministrative di riferimento che permettono di intercettare i legami tra partite IVA e codici fiscali. 5 Sottosistemi dei Luoghi SIM luoghi unità economiche Obiettivo: identificare le localizzazioni delle unità economiche presenti nelle fonti amministrative. SIM luoghi individui Obiettivo: identificare i luoghi che in qualche modo possono interessare le persone fisiche riconosciute dai data set amministrativi inseriti nel sistema: residenza anagrafica, domicilio fiscale, luoghi di lavoro, luoghi di studio, delle utenze domestiche, …. . 6 Sottosistemi delle Relazioni SIM relazioni tra unità economiche Obiettivo: cogliere alcune possibili relazioni tra unità economiche quali, ad esempio, eventi di trasformazione e legami societari. SIM relazioni tra individui Obiettivo: identificare le relazioni tra gli individui; famiglia anagrafica e famiglia “fiscale”. SIM relazioni tra individui e unità economiche Obiettivo: integrare le informazioni sulle relazioni tra gli individui e le unità economiche. Presenza contestuale dei due identificativi necessari per legare i domini “socio-demografico” e “economico”: codice individuo e codice unità. 7 Sistema Integrato di Microdati (SIM) Relazioni tra i sottosistemi SIM LUOGHI SIM BASE CODICE INDIVIDUO – CODICE LUOGHI INDIVIDUI CODICE INDIVIDUO SIM RELAZIONALI CODICE INDIVIDUO - CODICE FAMIGLIA SIM LUOGHI UNITA’ ECONOMICHE SIM LUOGHI INDIVIDUI SIM INDIVIDUI SIM RELAZIONI TRA INDIVIDUI TIP. REL IND_UNI SIM RELAZIONI INDIVIDUI UNITA’ CODICE INDIVIDUO – CODICE UNITA’ – SIM UNITA’ ECONOMICHE SIM RELAZIONI TRA UNITA’ ECONOMICHE CODICE UNITA’ – CODICE UL CODICE UNITA’ CODICI UNITA’ TIP. REL UNITA’ Sistema Integrato di Microdati (SIM) Tipologia delle fonti Anagrafici Fiscali Formazione Lavoro Welfare Camerali Anagrafi Comunali Anagrafi Consolari Anagrafe Tributaria Permessi di soggiorno Banca Dati Reddituale - MEF Studi di settore Modello UNICO Modello 730 Modello 770 Anagrafe degli studenti Anagrafe degli studenti universitari Anagrafe personale doc. e non doc. delle scuole Anagrafe personale doc. e non doc. delle università Arch. INPS Emens (UNIMENS)/Parasubordinati/Cassa integrazione/Lav. agricoltura/Artigiani e commercianti/ Autonomi dell’agr./Lav Domestici Archivi INAIL Arch. Ex-INPDAP ed Ex-ENPALS Cedolini stipendiali (MEF) Casellario dei pensionati ANF/Maternità Mobilità/Disoccupazione/LSU Registro delle Imprese Soci delle Imprese Persone con cariciche sociali Bilanci delle Imprese Sottosistemi Individui Unità X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Sistema Integrato di Microdati (SIM) SIM N. Fonti / Records Individui 42 (422mln records) Unità 42 (65mln but…) Luoghi individui 25 Luoghi unità 30 Relazioni individui 3 Relazioni unità 7 Relazioni individui_unità 12 100 mln di codici individui 10 mln di codici unità 15.000 variabili SIM percorsi informativi FONTI INDIVIDUI AMM LUOGHI INDIVIDUI Rel. fra IND LUOGHI UNITA’ Rel IND/UN UNITA’ Rel. fra UN Rapp di Lavoro Mobilità Sbocchi professionali Concilazione Lavoro Famiglia Mobilità Occupaz. Progetto ARCHivio Integrato di Microdati Economici e DEmografici (ARCHIMEDE) Obiettivo: ampliamento dell’offerta informativa dell’ISTAT mediante produzione di collezioni di dati elementari di tipo longitudinale e crossection, da rendere disponibili all’utenza, utili alla ricerca sociale ed economica, alla programmazione territoriale e settoriale, alla valutazione delle politiche pubbliche a livello nazionale, regionale e locale. (Delibera 12/ DGEN del 18/01/2013) Sfruttamento dei contenuti informativi di fonti amministrative «integrate» presenti in SIM. Progetto ARCHIMEDE Progetto ARCHIMEDE – Caratteristiche (1/2) Sistema Integrato dei Microdati Esplora Progetto Archimede Produce Utenti esterni Utenti interni Output informativi statistici Livello di autonomia degli utenti Documentati • qualità • contenuti Collezioni di microdati integrati Replicabili (industrializzati) Collezioni di macrodati Territorio: Informazioni geo referenziate Tempo: Informazioni longitudinali Progetto ARCHIMEDE 13 Progetto ARCHIMEDE – Caratteristiche (2/2) Output informativi statistici On demand: realizzati sulla base di specifiche esigenze informative di utenti Generalizzati: realizzazione di specifiche offerte informative identificate sulla base delle potenzialità informative di SIM • Fare riferimento ad un insieme di unità che possono non rappresentare l’universo di una specifica popolazione • Utilizzare dati amministrativi di SIM anche non trattati statisticamente • Integrare anche basi informative fornite da utenti esterni (es. Comuni/Regioni) • Utilizzare concetti non necessariamente coerenti con la statistica ufficiale (es. Regolamenti europei) Progetto ARCHIMEDE 14 Caratteristiche: cambio di direzione … ENTI … Forniscono dati elementari ISTAT Diffonde Produce/Diffonde dati Collezioni di aggregati Dati elelemtari integrati Progetto ARCHIMEDE Supporto alla realizzazione e validazione delle politiche e alla Ricerca ARCHIMEDE Sistema Integrato dei Microdati Caratteristiche: dis/re integrazione informativa ACQUISIZIONE INTEGRAZIONE LOGICO/FISICA DIS/RE INTEGRAZIONE INFORMATIVA Dati Amm. e Processi di Produzione Statistica USO DEI DATI AMMINISTRATIVI Uso “Diretto” delle Fonti Amministrative • Realizzazione di Registri Statistici • Stime di variabili per domini di interesse Uso “Indiretto” delle Fonti Amministrative • Miglioramento di processi di produzione (disegno campionario) • Informazione ausiliaria nella fase di controllo dei dati SOSTITUZIONE della Ind. STAT: SUPPORTO alla Ind. STAT: USO DEI DATI AMMINISTRATIVI NEL PROGETTO ARCHIMEDE PRODUZIONE di nuove “tipologie” di informazione statistica SCOUTING dell’informazione disponibile • Ampliamento dell’offerta informativa Progetto ARCHIMEDE 23 Caratteristiche: modifica nel paradigma (Statistica 5.0?) Approccio lineare al Metadata/Quality Managments 1 Specify needs 3 Build 4 Collect 5 Process 1.1 Determine needs for informat. 3.1 Build data informat. instrum 4.4 Finalise collection 5.1 Integrate data 2 Design 6 Analyse 6.2 Validate outputs 6.4 Apply disclosure control Ident. della pop e variabili di int. Ident. della/e fonti Acquis. della fonte Integrat. dei dati Approccio lineare (survey) al processo 7 Dissemin. 8 Achive 9 Evaluate Caratteristiche: modifica nel paradigma SCOUTING I “dati” esistono, e sono depositati in maniera integrata in SIM ed è l’esplorazione dell’informazione disponibile a identificare l’informazione statistica che può soddisfare un bisogno. • Le definizioni e le classificazioni possono essere determinate all’interno del processo di esplorazione e quindi non fissate a priori (outputs non strettamente vincolati ai sistemi di regolamentazione europei). • L’adeguatezza dell’informazione prodotta rispetto agli schemi concettuali statistici può essere valutata solo ex-post. Progetto ARCHIMEDE Caratteristiche: modifica nel paradigma Da un approccio lineare ad un approccio a “vortice” 1 Identif. pop/var. 2 Identif. della F.A 3/4 Acquisizione 5.1 Integrazione 6 Analyse 7 Dissemin. Coerenza, Completezza Stabilità Valutabili ex-post Maggiore attenzione 9 Evaluate Maggiore attenzione alla valutazione di un output INTEGRATO di dati amm. ai contenuti e ai processi di generazione dei dati Modifica delle tecniche? Flessibilità informativa Progetto ARCHIMEDE 8 Achive Governare l’instabilità Progetto Archimede - Attività 2013 : Attività sperimentale 1. Popolazioni che insistono su di un territorio Analisi delle Mobilità sul territorio • Realizzazione Sis. Inf. Persons&Places • Matrici origine/destinazione per ambiti terr. • Identificazione delle tipologie di «city users»: Residenti, Temporaneamente dimoranti e Pendolari • Per risolvere la mancanza di informazioni sulla «frequenza» di accesso ad un territorio: • Utilizzo di BIG DATA – Call Data Records • Sviluppo di modelli che utilizzano «distanze» 2. Precarietà lavorativa – Analisi delle caratteristiche di un universo di individui definiti «lavoratori precari» osservandone le trasformazioni nel tempo (analisi longitudinale delle transizioni) • Concetti di atipicità e professionalità (elementi oggettivi) • Tipologie contrattuali utilizzate in forma impropria (P.IVA monocommittenti / Tirocini e stages) • Punto di vista dell’individuo 3. Condizioni Socio-economiche delle famiglie - Classifica le famiglie secondo le dimensioni: • Tipologia della famiglia (integrazione fra anagrafi e familiari a carico da dich. fiscali) • Reddito (integrazione dei redditi a tass. ordinaria con redditi esenti) • Condizione lavorativa • Disagio (disabilità, pensioni al minimo, cittadinanza) • Istruzione Basi sperimentali realizzati a Dic. 2013 / Doc. Finale: Feb. 2014 Progetto ARCHIMEDE Progetto Archimede - Attività 2014 •Realizzazione di una proposta di indicatori derivati dalle basi sperimentali (Ambito GdL 5 del Com. Scientifico del Censimento) •Nuove sperimentazioni (concluse): • Bacini Universitari • P.IVA Monocommittenti • Legami familiari tra individui non coabitanti •Nuove sperimentazioni (in atto): • Utilizzo Big Data per la stima della differenti tipologie di City users • Metodi di classificazione delle famiglie (Data Mining / Indici sintetici) Progetto ARCHIMEDE Progetto Archimede - Attività 2015 • Definizione del «cruscotto» degli indicatori proposti (Febbraio) • Termine della sperimentazione dei compartecipanti e successiva valutazione dei risultati (?). • Inizio sperimentazione progetto su «percorsi istruzione/formazione/inserimento lavorativo» Lombardia/Lazio/Veneto/Em. Rom./Sicilia/Valle d’Aosta. di con • Inizio del progetto sperimentale a supporto della Protezione Civile sulla quantificazione della popolazione in zone di rischio (Giugno) • Passaggio del sistema P&P da livello comunale a sub-comunale per le aree metropolitane e i comuni di maggiori dimensioni • Revisione delle metodologie di calcolo del reddito individuale da fonti amministrative • Produzione e diffusione, a regime, delle basi dati a partire dall’anno di rif. 2013 (Entro fine anno) Progetto ARCHIMEDE Progetto Archimede – PSN e Compartecipanti Progetto archimede inserito nel PSN 2014-2016: • sperimentazione sulle tre basi realizzate da parte degli uff. di stat. compartecipanti : - Comuni di Firenze, Bologna, Brescia, Trieste, Modena, Milano - Regioni e Prov. Autonome • predisposizione bozza nota informativa ai compartecipanti • trasmissione dei microdati successiva alla pubblic. del PSN • risultati attesi entro sei mesi Aggiornamento PSN 2015-2016: • Diffusione micro/macro delle tre basi di dati • Nuova sperimentazione su: Percorsi di istruzione, formazione, abbandono scolastico e inserimento lavorativo degli individui tra i 14-29 anni Aggiornamento PSN 2016: • I quattro progetti sono stati separati in schede differenti con compartecipazione di tutti gli Uff. di statistica di Comuni, Province, Regioni • Inserimento di una nuova scheda su Identificazione delle popolazioni in territori a rischio (Collaborazione con Dipartimento della Protezione Civile) Progetto ARCHIMEDE Progetto Archimede – Attività dei Compartecipanti Nota informativa per gli enti compartecipanti Gli Uffici di statistica, in relazione alle rispettive finalità istituzionali e agli ambiti territoriali di competenza, hanno il compito di valutare le basi di microdati prodotte dall’Istat indicate al paragrafo 1 con riferimento ai seguenti aspetti generali: completezza, congruità e utilità del contenuto informativo delle basi di microdati rispetto alle esigenze conoscitive dello specifico fenomeno oggetto di studio connesse alle finalità istituzionali dell’ente di appartenenza; vantaggi derivanti all’Ufficio di statistica in termini di risparmio di costi e di miglioramento della qualità dell’informazione statistica prodotta. La valutazione di ciascuna base di microdati è effettuata con le modalità di seguito precisate: Base di microdati relativa a: ………. 1.1 Oggetto di studio 1: ………. – Definizione dell’ambito di ricerca e degli obiettivi specifici dell’oggetto di studio: – Specifiche attività da svolgere: – Output sperimentale previsto: L’Istat fornirà le basi di microdati entro 15 giorni dalla data di pubblicazione del PSN in Gazzetta Ufficiale I risultati delle valutazioni effettuate dovranno essere trasmessi all’Istituto entro sei mesi dalla data di fornitura delle basi di microdati. Progetto ARCHIMEDE Progetto Archimede – Punti di forza - Verso l’esterno dell’Istituto: - Diffusione microdati ad un livello di aggregazione territoriale fine - Messa a disposizione di Enti Pubblici di basi di microdati per l’analisi di sottopopolazioni di interesse (schematizzazione delle popolazioni a cui sono rivolti interventi e politiche pubbliche) - Possibilità di identificare strumenti omogenei – indicatori – fra le varie realtà territoriali a supporto alla comparazione territoriale - Verso l’interno dell’Istituto: - Esplorazione/identificazione di segnali delle fonti amministrative utili ai processi statistici. - Ponte fra statistiche sulle imprese e statistiche sugli individui/famiglie - Sperimentazione di nuove metodologie di integrazione e di analisi - Possibilità di analizzare fenomeni per «popolazioni» diverse Progetto ARCHIMEDE Progetto Archimede – Aspetti critici (o non ancora risolti) Tempi di disponibilità delle fonti integrate Possibilità di sperimentazioni sulle fonti Distanza con output statistici «simili» Valutazione della qualità Criteri / Strumenti di diffusione Progetto ARCHIMEDE Possibilità di fare sperimentazioni Uso sperimentale dei dati amministrativi: • Archimede • ISTAT • SISTAN Sperimentazioni congiunte VINCOLO PSN ? Identificazione di nuovi strumenti, differenti dal PSN, che, nel rispetto delle norme vigenti relativamente alla riversatezza e al vincolo dell’ “informativa” permettano con la massima trasparenza ai ricercatori dell’Istat e del Sistan di sviluppare sperimentazioni su dati integrati di fonti amministrative e di indagine Diapositiva 27 Progetto ARCHIMEDE Diffusione Alcune specificità del progetto • • • • • fare riferimento ad intere sottopopolazioni (e non quindi a campioni statistici di popolazioni); essere riferite ad ambiti territoriali ristretti (piccoli comuni o ambiti sub comunali; poter contenere una molteplicità di informazioni (studio+lavoro+tipologia familiare+reddito….); poter contenere dati sensibili (ad es. contributi per disabilità); poter derivare sistemi di classificazione e definizione non “omogenei” con quelli della statistica ufficiale. Necessità di progettare un ambiente di diffusione «autonomo» ? Necessità di pensare la diffusione dei microdati – anche ad enti SISTAN – in maniera differente (senza identificativi diretti) ? Progetto ARCHIMEDE Archimede virtuale? Una sfida possibile ENTI NAZIONALI/ LOCALI STATISTICHE RICERCA/ ACCADEMIA ARCHIMEDE • Governance ? • Sicurezza ? Progetto ARCHIMEDE ENTI DETENTORI DI DD.AA.