Comments
Description
Transcript
Documento in formato ppt 82Kb
La qualità dei dati statistici Seminario AIPA 26/02/01 Mauro Masselli I prodotti di un processo statistico • Microdati • macrodati • metadati Il prodotto di più archivi: l’integrazione delle informazioni • A livello micro (fusione di archivi per mezzo di un codice esatto, linkage statistico) • a livello meso (identificazione di unità “fittizie” cui riferire aggregazioni provenienti da archivi diversi) • a livello macro (elaborazioni di dati sullo stesso fenomeno provenienti da archivi diversi) L’integrazione • Integrazione “dei contenuto” ovvero l’integrazione di informazioni provenienti da archivi diversi per l’analisi di un fenomeno • l’integrazione “di processo” ovvero il riutilizzo dei risultati o l’uso di medesime procedure in differenti processi produttivi statistici Requisiti per l’integrazione “di contenuto” Matrici dei dati unità variabili • definizioni • classificazioni Le caratteristiche della qualità L’adeguatezza di un prodotto all’uso per il quale è stato realizzato, ovvero la capacità di un prodotto a soddisfare le proprietà garantite dal produttore. • Garanzie di progettazione ovvero i requisiti del bene prodotto • garanzie di tolleranza ovvero i limiti entro cui determinati requisiti possono variare Qualità dell’informazione statistica Garanzie di progettazione • • • • Tempestività la rilevanza la trasparenza l’integrazione Garanzie di tolleranza • La precisione campionaria • la riduzione dell’errore non campionario L’errore statistico • l’errore campionario è connesso al processo di stima statistica dei parametri della popolazione dai risultati ottenuti da un campione probabilistico della popolazione. Può essere distinto in distorsione e varianza • l’errore non campionario è connesso all’oggetto, alla definizione del modello concettuale, al contesto dell’indagine e alle modalità organizzative Principali tipi di errore • Inadeguatezza di concetti e definizioni • erronea progettazione del questionario (quesiti, sequenza dei quesiti, linguaggio) • rispondenti • influenza degli intervistatori • errori materiali nella codifica e nel data entry • copertura • non risposta (parziale o totale) • errori di relazione logica tra variabili Concetti, definizioni e classificazioni I concetti, le definizioni e le classificazioni sono gli elementi che più influenzano la qualità dell’informazione statistica. Essi determinano se l’informazione riflette o meno il mondo reale e il grado di usabilità dei dati sia in riferimento alla singola fonte sia in riferimento alla integrazione di più fonti statistiche Current best practice: adottare definizioni e classificazioni standard o riportabili agli standard coordinarsi con altri produttori di dati nell’ambito del sistema informativo statistico Questionario-norme definizioni classificazioni Raccolta dei dati memorizzazione Controlli e correzioni integrazione Elaborazione e diffusione L’indagine come processo d produzione questionario organizzazione progettazione Norme per gli intervistatori codificatori Altri operatori Check Altri documenti di indagine implementazione Raccolta sul campo codifica Data entry controllo & imputazione analisi statistica diffusione Relazioni tra fasi ed errori di un aindagine statistica Modello concettuale Altre fonti statistiche Liste di unità Lavoro sul campo Manuali e istruzioni questionario Disegno campionario Piano di diffusione e analisi dei dati Supervisori e intervistatori Selezione e formazione Sistema di pesi Raccolta dei dati Formato dati Data entry Unità mancanti Dimensione effettiva del campione Controllo e correzione dei dati Risposte mancanti, errori logici Dati Campione realizzato stime integrazione Questionario-norme definizioni classificazioni Questionario-norme definizioni classificazioni Raccolta dei dati Raccolta dei dati memorizzazione memorizzazione Controlli e correzioni Controlli e correzioni Elaborazione e diffusione Elaborazione e diffusione integrazione Il controllo degli errori • Errore campionario È sostanzialmente controllabile mediante il disegno di campionamento: numerosità, stratificazione, stadificazione, stimatore, post-stratificazione È misurabile ex ante e ex post • Errore non campionario È parzialmente controllabile in fase di progettazione del disegno di indagine, mediante l’organizzazione del processo e la fase di controllo e correzione È misurabile ex post e solo in parte mediante indicatori indiretti o modelli statistici costosi in termini di dati necessari per la stima Controllo e imputazione Definizione: la fase di controllo e imputazione di dati costituisce la procedura per individuare e correggere gli errori riscontrati nelle unità statistiche e dovuti alle precedenti fasi di lavoro. controlli quantitativi controlli qualitativi Procedure di correzione I controlli quantitativi • Obiettivi: • identificare il numero e il tipo di unità statistiche (precedentemente definite) presenti nell’archivio per i differenti livelli gerarchici del codice identificativo • assegnare un unico codice identificativo alla singola unità statistica Metodi: 1) controllo con fonti certe (interne o esterne) 2) controllo statistico mediante l’analisi della storia dell’archivio o altra documentazione I controlli qualitativi L’obiettivo è valutare lo stato dell’archivio rispetto alle informazioni contenute e identificare diverse tipologie di errori presenti nelle variabili statistiche • • • • valori mancanti valori fuori del campo ammesso valori sospetti o anomali relazioni tra variabili, contraddittorie rispetto alle norme di compilazione del questionario o di altre norme valevoli per il fenomeno in studio. La correzione dei dati Procedure statistiche Linkage esatto con altre fonti Ritorno alle unità imputazione statistica Ad hoc generalizzate Per riassumere…. • • • • Qualità dell’informazione e dei dati l’integrazione come fattore qualitativo errore statistico e processo produttivo processo produttivo da fonte amministrativa e indagine statistica - punti critici dei processi • l’obiettivo e le modalità del controllo di qualità • controllo e imputazione