Comments
Description
Transcript
Intro e stimatore di Horvitz-Thompson
Corso di Teoria dei Campioni Facoltà di Economia — Corso di Laurea SIGI M. Giovanna Ranalli email: [email protected] sito web: www.stat.unipg.it/∼giovanna → didattica 1/39 2 3 L2 3M 33 22 ? i P Il programma del corso • Popolazioni finite; concetti base della teoria dei campioni; Stimatore fondamentale di Horvitz-Thompson. • Piani di campionamento probabilistici: casuale semplice, sistematico, con probabilità variabili, stratificato, a più stadi. • Piani di campionamento non probabilistici • Stima per intervallo, Dimensionamento del campione. • Ottica post-campionaria: domini di studio, stima per quoziente e per regressione, post - stratificazione e calibrazione • Fonti di errore non campionario. • Indagini ripetute nel tempo. 2/39 2 3 L2 3M 33 22 ? i P Organizzazione del corso • lezioni frontali • esercitazioni in laboratorio (5) • bonus consegna esercitazioni • dispensa e altro materiale online • esame orale 3/39 2 3 L2 3M 33 22 ? i P Introduzione alle Popolazioni Finite La Teoria dei Campioni è quella parte delle Scienze Statistiche che si occupa dei criteri scientifici a cui attenersi nella estrazione di un campione da una popolazione finita o infinita, allo scopo di fare inferenza su di essa con un costo minore possibile. Si definisce popolazione finita ogni insieme di unità di uno stesso tipo e di numerosità limitata di cui interessa studiare una o più caratteristiche comuni. Una popolazione finita è identificabile, cioè etichettabile: Lista delle unità: U = 1, 2, ..., N Carattere statistico: y Distribuzione semplice in forma unitaria o disaggregata: 4/39 Unità 1 2 3 ... i ... N Intensità Y1 Y2 Y3 ... Yi ... YN 2 3 L2 3M 33 22 ? i P Caratteri qualitativi e distribuzioni multivariate Variabile dicotomica ( Yi = 1 se l’attributo è presente 0 altrimenti Dati y e x caratteri statistici, la distribuzione doppia (congiunta) unitaria o disaggregata è data da Unità 1 2 3 ... i ... N Intensità y Y1 Y2 Y3 ... Yi ... YN Intensità x X1 X2 X3 ... Xi ... XN e di conseguenza per estensione le distribuzioni triple, quadruple, e multivariate in genere. Una popolazione si dice interamente nota rispetto ad uno o più caratteri statistici quando si conosce la distribuzioni congiunta dei caratteri considerati. 5/39 2 3 L2 3M 33 22 ? i P Parametri descrittivi della popolazione Si chiamano parametri descrittivi quelle costanti che descrivono uno o più aspetti della distribuzione di uno o più caratteri statistici. PN 1 • La media: Ȳ = N i=1 Yi (se y è binaria → frequenza relativa attributo) PN • Il totale: Y = i=1 Yi (se y è binaria → frequenza assoluta attributo) PN 1 2 • La varianza: Sy = N −1 i=1 (Yi − Ȳ )2 PN 1 • La covarianza: Syx = N −1 i=1 (Yi − Ȳ )(Xi − X̄) • Il coefficiente di variazione Cy = 100 SȲy • Il rapporto tra totali o medie R = Y X = Ȳ X̄ • Il coefficiente di correlazione lineare: ryx = • Il coefficiente di regressione: by/x = Syx Sy Sx Syx Sx2 Inferenza descrittiva e inferenza analitica 6/39 2 3 L2 3M 33 22 ? i P Censimento e campionamento – censimento Vantaggi del censimento 1. Consente di conoscere interamente una popolazione rispetto ad un insieme di caratteri e di ricavare il valore esatto (?) dei parametri descrittivi di interesse. 2. Consente lanalisi della distribuzione di uno o più caratteri in una qualsiasi sottopopolazione possa interessare, piccola quanto si vuole. Svantaggi del censimento 1. Tempi di svolgimento molto lunghi e costi estremamente elevati. 2. Bassa qualità dei dati (intendendo con questo termine la corrispondenza tra i dati raccolti e la realtà effettiva) 7/39 2 3 L2 3M 33 22 ? i P Censimento e campionamento – campionamento Vantaggi del campionamento 1. Tempi ridotti di esecuzione e costi contenuti. 2. Possibile elevata qualità dei dati Svantaggi del campionamento 1. Non si possono ricavare risultati attendibili per sottopopolazioni più piccole di quelle considerate nello stabilire la dimensione del campione. 2. Presenza dell’errore di campionamento. 8/39 2 3 L2 3M 33 22 ? i P Fonti di errore nelle rilevazioni statistiche Fonti di errore non campionario Progettazione lacunosa dell’indagine – pertinenza dei caratteri da rilevare rispetto al problema da studiare, corretta individuazione della popolazione, mancanza di controllo di fattori subsperimentali, etc. Difettosità delle liste da cui viene estratto il campione – nominativi mancanti, nominativi ripetuti, inesistenti o incompleti, etc. Errori di misurazione – generati dal rispondente, dallintervistatore, dal questionario, da mancata osservazione, da errori di trattamento dei dati. L’errore totale – i.e. lo scostamento tra i valori calcolati dei parametri di interesse ed il valore effettivo nella popolazione considerata – è somma delle diverse fonti di errore non campionario e dell’errore campionario. 9/39 2 3 L2 3M 33 22 ? i P Le rilevazioni statistiche Con il termine rilevazione dei dati si intende qui l’insieme delle operazioni con cui si perviene alla conoscenza delle modalità dei caratteri da osservare nelle diverse unità di un collettivo. Studi osservazionali ⇒ Indagini statistiche ⇒ Piano della rilevazione Studi sperimentali 10/39 ⇒ Sperimentazione ⇒ Piano della sperimentazione 2 3 L2 3M 33 22 ? i P Fasi di una rilevazione dei dati – 1 A) Scopo e finalità dello studio. Studio esplorativo o qualitativo, Studio descrittivo, Studio esplicativo, Studio trasversale, Studio longitudinale. B) Dettaglio dei caratteri e scale di misura. Modalità automatiche, Classificazioni ufficiali – attività economiche, produzioni, professioni, cause di morte, ecc. Modalità definite dal ricercatore, Caratteri quantitativi – livello di precisione, classi. C) Unità statistica, popolazione, unità di rilevazione. D) Periodo di riferimento e svolgimento. Fenomeni di stato, Fenomeni di movimento E) Tipo di rilevazione. Rilevazione totale, Rilevazione campionaria – dimensione e modalità di estrazione del campione – Rilevazione unica, saltuaria, periodica. 11/39 2 3 L2 3M 33 22 ? i P Fasi di una rilevazione dei dati – 2 F) Strumenti di misura, questionario e modalità di somministrazione. Il questionario deve contenere domande: • pertinenti e in numero minore possibile, • univocamente interpretabili, • che richiedono sforzi limitati di memoria, • che non creano imbarazzo o tensione psicologica. Modalità di somministrazione: interviste dirette o faccia a faccia, interviste telefoniche, autocompilazione del questionario, metodi informatizzati. Indagine pilota. G) Lavoro sul campo. H) Codifica, registrazione su supporto magnetico, revisione. Revisione e controllo dei dati, imputazione dei dati mancanti, Matrice dei dati o dei microdati. I) Elaborazione dei dati, risultati e rapporto di ricerca. Spoglio dei dati o tabulazione dei dati, distribuzioni e macrodati, Rapporto di ricerca. 12/39 2 3 L2 3M 33 22 ? i P Le statistiche ufficiali e le fonti dei dati • L’ISTAT e il SISTAN (legge di riforma del 1989) • L’EUROSTAT • Istituti demoscopici e di ricerche di mercato (Doxa, Cirm, Nielsen, ecc. ) 13/39 2 3 L2 3M 33 22 ? i P Definizione di campione e spazio campionario Si consideri una popolazione finita U = {1, 2, . . . , N }. • Definiamo campione un qualsiasi sottoinsieme di n unità di U . s = {i1 , i2 , . . . , in }, dove ij è l’etichetta della j-esima unità campionaria, con j = 1, 2, . . . , n. • Indicheremo con S l’universo dei campioni dimensione del campione n qualsiasi cardinalità di S N N! = n n!(N − n)! N X N! = 2N − 1 n!(N − n)! n=1 • Tasso di sondaggio f = n/N 14/39 2 3 L2 3M 33 22 ? i P Schema di selezione e piano di campionamento • Si chiama schema di selezione del campione qualsiasi meccanismo o procedimento che porta alla selezione di un campione • Si chiama piano di campionamento ogni funzione p(s) definita su S (cioè sullo spazio campionario) tale che: 1. p(s) ≥ 0, ∀s ∈ S; P 2. s∈S p(s) = 1. • Schema di selezione ⇒ Piano di campionamento : 15/39 2 3 L2 3M 33 22 ? i P Esempio di schema di selezione Sia U = {1, 2, . . . , i, . . . , N } 1. Si estragga una etichetta a caso con probabilità uguali per ottenere la prima unità campionaria. 2. Si estragga una seconda etichetta a caso con probabilità uguali dalle rimanenti. 3. Si ripeta il passo 2 altre n − 2 volte, dove n < N . Piano di campionamento: 1 = n!(N − n)! se s ha dimensione n N N! . p(s) = n 0 altrimenti ⇒ Campionamento casuale semplice senza ripetizione. 16/39 2 3 L2 3M 33 22 ? i P Probabilità di inclusione del primo ordine Si chiama probabilità di inclusione del primo ordine dell’unità i di U la quantità X πi = p(s), s3i dove la sommatoria è estesa a tutti i campioni che contengono l’unità i. Se definiamo la variabile indicatrice δi come ( 1 se l’unità i appartiene al campione δi = , 0 altrimenti allora πi = X p(s)δi = E(δi ). s∈S 17/39 2 3 L2 3M 33 22 ? i P Esempio di calcolo delle probabilità di inclusione del primo ordine Sia U = {1, 2, 3, 4, 5} Campione p(s) δ1 s1 = {1, 2, 3, 4} 0.1 1 s2 = {1, 2, 3, 5} 0.2 1 s3 = {1, 2, 4, 5} 0.2 1 s4 = {1, 3, 4, 5} 0.3 1 s5 = {2, 3, 4, 5} 0.2 0 1,0 allora π1 = 0.8, si verifichi che π2 = 0.7, π3 = 0.8, π4 = 0.8, π5 = 0.9. 18/39 2 3 L2 3M 33 22 ? i P Probabilità di inclusione del secondo ordine Si chiama probabilità di inclusione del secondo ordine della coppia di unità i, j di U la quantità X πij = p(s), s3i,j dove la sommatoria è estesa a tutti i campioni che contengono la coppia di unità i e j. Si ha anche che X πij = p(s)δi δj = E(δi δj ). s∈S 19/39 2 3 L2 3M 33 22 ? i P Esempio di calcolo delle probabilità di inclusione del secondo ordine Sia U = {1, 2, 3, 4, 5} Campione p(s) δ1 δ2 δ1 δ2 s1 = {1, 2, 3, 4} 0,1 1 1 1 s2 = {1, 2, 3, 5} 0,2 1 1 1 s3 = {1, 2, 4, 5} 0,2 1 1 1 s4 = {1, 3, 4, 5} 0,3 1 0 0 s5 = {2, 3, 4, 5} 0,2 0 1 0 1,0 allora π12 = 0, 5; si trovino per esercizio le altre. 20/39 2 3 L2 3M 33 22 ? i P Calcolo delle probabilità di inclusione per il CCS Primo ordine πi = X p(s) = s3i (N − 1)! n!(N − n)! n = (n − 1)!(N − n)! N! N Secondo ordine πij = X s3ij 21/39 p(s) = n!(N − n)! (N − 2)! n n−1 = (n − 2)!(N − n)! N! N N −1 2 3 L2 3M 33 22 ? i P Importanti definizioni per i piani di campionamento relative alle probabilità di inclusione • Un piano di campionamento si dice probabilistico se ogni unità della popolazione ha una probabilità del primo ordine positiva (πi > 0, ∀i ∈ U ) e calcolabile. • Un piano di campionamento si dice autoponderante se le probabilità di inclusione delle unità della popolazione sono tutte uguali (πi costante). • Un piano di campionamento si dice misurabile se le probabilità di inclusione del secondo ordine sono tutte positive (πij > 0, ∀i, j ∈ U ) e calcolabili. Il CCS è ... 22/39 2 3 L2 3M 33 22 ? i P Momenti delle variabili indicatrici δi δi per i = 1, 2, . . . , N sono variabili casuali bernoulliane non indipendenti e tali che: • E(δi ) = πi , • V (δi ) = πi (1 − πi ), • C(δi , δj ) = E(δi δj ) − E(δi )E(δj ) = πij − πi πj . Inoltre, n(s) = N X δi ⇒ E[n(s)] = i=1 se n(s) = n, allora N X πi i=1 N X πi = n. i=1 23/39 2 3 L2 3M 33 22 ? i P La matrice dei dati unità campionaria etichetta variabile y variabile x ... variabile z 1 j1 Y1 X1 ... Z1 2 j2 Y2 X2 ... Z1 3 .. . j3 .. . Y3 .. . X3 .. . ... .. . Z3 .. . i .. . ji .. . Yi .. . Xi .. . ... .. . Zi .. . n jn Yn Xn ... Zn 24/39 2 3 L2 3M 33 22 ? i P Le statistiche campionarie 1 n Pn • La media campionaria: ȳ = i=1 Yi Pn • Il totale campionario: ty = i=1 Yi Pn 1 2 • La varianza campionaria: sy = n−1 i=1 (Yi − ȳ)2 Pn 1 • La covarianza campionaria: syx = n−1 i=1 (Yi − ȳ)(Xi − x̄) • Il coefficiente di variazione cy = 100 sȳy • Il rapporto tra totali o medie Rc = ty tx = ȳ x̄ • Il coefficiente di correlazione lineare: rcyx = • Il coefficiente di regressione: bcy/x = syx sy sx syx s2x Ad ogni parametro descrittivo della popolazione corrisponde una statistica campionaria calcolata con la medesima formula (considerando il campione come una popolazione). Si ottiene uno stimatore “naturale”, ma... 25/39 2 3 L2 3M 33 22 ? i P Stimatori • Si chiama stimatore θb di un parametro θ della popolazione ogni statistica campionaria prescelta per assegnare un valore al parametro considerato. • Si chiama stima il valore numerico dello stimatore nel campione estratto. • Si chiama errore di stima la differenza tra la stima e il valore del parametro. Distribuzione campionaria dello stimatore θb 26/39 campione probabilità s1 p(s1 ) s2 p(s2 ) s3 .. . p(s3 ) .. . sM p(sM ) stima θb1 errore di stima θb1 − θ θb2 θb3 .. . θbM θb2 − θ θb3 − θ .. . θbM − θ 2 3 L2 3M 33 22 ? i P Criteri di selezione dello stimatore – 1 Correttezza. P b Sia E(θ) = s∈S θbs p(s). Uno stimatore del parametro θ si dice corretto, o non distorto, se il suo valore atteso coincide con θ: b = θ. E(θ) Si chiama distorsione di uno stimatore la quantità b = E(θ) b − θ. B(θ) 27/39 2 3 L2 3M 33 22 ? i P Criteri di selezione dello stimatore – 2 Efficienza. Errore quadratico medio dello stimatore: X b M SE(θ) = (θbs − θ)2 p(s). s∈S b = V (θ) b + B(θ) b 2 (∗), dove Vale che M SE(θ) X b = b 2 p(s), V (θ) [θbs − E(θ)] s∈S è la varianza dello stimatore. Uno stimatore θb1 si dice più efficiente di un altro stimatore θb2 se si verifica che M SE(θb1 ) 6 M SE(θb2 ) 28/39 per ogni valore di θ. 2 3 L2 3M 33 22 ? i P Le strategie campionarie Si chiama strategia campionaria ogni coppia costituita da un piano di campionamento b e da uno stimatore, ovvero [p(s), θ]. Correttezza. Una strategia campionaria si dice corretta se lo stimatore è corretto rispetto al piano di campionamento prescelto. Efficienza. Una strategia campionaria [p1 (s), θb1 ] si dice più efficiente di un’altra strategia [p2 (s), θb2 ] se si verifica che M SE1 (θb1 ) 6 M SE2 (θb2 ) per ogni valore di θ. L’obiettivo della teoria dei campioni è quello di individuare la strategia più efficiente a parità di costo complessivo della rilevazione. 29/39 2 3 L2 3M 33 22 ? i P Lo stimatore corretto fondamentale • Stima corretta del totale - stimatore di Horvitz-Thompson. • Varianza dello stimatore di HT. • Stima della varianza dello stimatore di HT: – stima di HT; – stima di Yates-Grundy. • Stima corretta della media • Stima di altri parametri – funzioni lineari di totali di popolazione; – funzioni NON lineari di totali di popolazione – metodo della linearizzazione. 30/39 2 3 L2 3M 33 22 ? i P Stima corretta del totale PN Parametro da stimare: Y = i=1 Yi . Pn b Stimatore lineare: Y = i=1 wi Yi . Si vuole che E(Yb ) = Y . Quali pesi wi garantiscono uno stimatore corretto? Riscriviamo Yb = n X i=1 w i Yi = N X wi Yi δi , i=1 allora E(Yb ) = N X wi Yi E(δi ) = i=1 N X w i Y i πi i=1 e quindi la condizione di correttezza impone che 1 wi = πi 31/39 2 3 L2 3M 33 22 ? i P Stimatore di Horvitz-Thompson Yb = n X Yi i=1 πi • campione probabilistico garantisce il calcolo di uno stimatore corretto n X Yi ty • campione autoponderante Yb = = π π i=1 Yb b̄ • Stima della media Y = N ESEMPIO: campionamento casuale semplice: πi = π = Thompson per questo piano di campionamento sarà n X N N • TOTALE Yb = Yi = ty = N ȳ n n i=1 n , N allora lo stimatore di Horvitz- • MEDIA Yb̄ = ȳ 32/39 2 3 L2 3M 33 22 ? i P Esempio di calcolo Si definisca la popolazione U = {1, 2, 3, 4} di dimensione N = 4. Lo spazio campionario nel caso di campioni di dimensione n = 3 estratti senza ripetizione è dato da S = { (1,2,3), (1,2,4), (1,3,4), (2,3,4) }. Si supponga che le probabilità di estrazione di ciascun campione siano le seguenti: s p(s) (1,2,3) 0.15 (1,2,4) 0.35 (1,3,4) 0.30 (2,3,4) 0.20 1 Le probabilità di inclusione del I ordine per ciascuna unità sono: i 1 2 3 4 πi 0.80 0.70 0.65 0.85 Le probabilità di inclusione del II ordine per ciascuna coppia di unità sono: 33/39 (i, j) (1,2) (1,3) (1,4) (2,3) (2,4) (3,4) πij 0.50 0.45 0.65 0.35 0.55 0.50 2 3 L2 3M 33 22 ? i P Esempio di calcolo (continua) Si supponga che la variabile di interesse assuma i seguenti valori: i Yi πi wi 1 50 0.80 1.25 2 32 0.70 1.43 3 48 0.65 1.54 4 65 0.85 1.18 da cui si ricava Ȳ = (50+32+48+65)/4 = 48.75. Per il primo campione, s = {1, 2, 3}, le osservazioni sono (50, 32, 48) e quindi 1 50 32 48 Yb̄ = + + = 45.51, 4 0.80 0.70 0.65 Pn mentre la media campionaria ȳ = i=1 Yi /n è pari a ȳ = (50 + 32 + 48)/3 = 43.33. Per i 4 possibili campioni, la distribuzione degli stimatori Yb̄ e ȳ è la seguente: 34/39 2 3 L2 3M 33 22 ? i P Esempio di calcolo (fine) s Yi Yb̄ ȳ p(s) (1,2,3) (50,32,48) 45.51 43.33 0.15 (1,2,4) (50,32,65) 46.17 49.00 0.35 (2,3,4) (32,48,65) 49.01 48.33 0.20 (1,3,4) (50,48,65) 53.20 54.33 0.30 E(Yb̄ ) = 45.51 × 0.15 + 46.17 × 0.35 + 49.01 × 0.20 + 53.20 × 0.30 = 48.75 V (Yb̄ ) = MSE(Yb̄ ) = (45.51 − 48.75)2 × 0.15 + . . . + (53.20 − 48.75)2 × 0.30 = 9.85 E(ȳ) = 43.33 × 0.15 + 49.00 × 0.35 + 48.33 × 0.20 + 54.33 × 0.30 = 49.62 6= 48.75 MSE(ȳ) = (43.33 − 48.75)2 × 0.15 + . . . + (54.33 − 48.75)2 × 0.30 = 13.81 35/39 2 3 L2 3M 33 22 ? i P Varianza dello stimatore corretto V (Yb ) = V N X i=1 = = N X Y2 i 2 π i i=1 i=1 πi V (δi ) + N X N X Yi Yj i=1 j6=i N X Y2 i Yi δi πi ! (1 − πi ) + π i πj C(δi , δj ) N X N X Yi Yj i=1 j6=i πi πj (πij − πi πj ) Se n(s) = n, si può dimostrare che V (Yb ) = 36/39 N N 1 XX 2 i=1 j6=i (πi πj − πij ) Yi Yj − πi πj 2 2 3 L2 3M 33 22 ? i P Stima della varianza dello stimatore di HT Risultato preliminare utile. Sia B = N N X X i=1 j6=i n X n X bij b bij , allora B = è corretto per B. π i=1 j6=i ij N N X X bij b E(δi δj ) = B. La varianza dello stimatore di HT può essere Infatti E(B) = π i=1 j6=i ij vista come la somma di due totali V (Yb ) = A + B, dove A= N X i=1 ai = N X Y2 i i=1 πi (1 − πi ), B= N X N X Yi Yj i=1 j6=i πi πj (πij − πi πj ) = N X N X bij . i=1 j6=i Quindi uno stimatore corretto di Horvitz-Thompson di V (Yb ) è dato da v(Yb ) = i=1 37/39 n X n X Yi Yj πij − πi πj i (1 − π ) + i πi2 π π πij i=1 j6=i i j n X Y2 2 3 L2 3M 33 22 ? i P Stimatore della varianza di Yates-Grundy Uno stimatore alternativo si può ottenere nel caso in cui n(s) = n 2 n X n X 1 πi πj − πij Yi Yj v(Yb ) = − 2 i=1 j6=i πij πi πj • misurabilità • varianza dello stimatore della media: V (Yb̄ ) = V Yb N ! V (Yb ) = N2 v(Yb ) b̄ • stimatore della varianza dello stimatore della media: v(Y ) = N2 38/39 2 3 L2 3M 33 22 ? i P Stima di altri parametri della popolazione X combinazioni lineari di totali di popolazione. b = Yb − X b è corretto per D Es. D = Y − X → D Y Yb b →R= non è corretto per R × altre funzioni di totali: R = b X X • metodo della linearizzazione. 39/39 2 3 L2 3M 33 22 ? i P