lucidi_campionamento - Dipartimento di Scienze Statistiche e
by user
Comments
Transcript
lucidi_campionamento - Dipartimento di Scienze Statistiche e
STATISTICA 4 (per il Corso di Laurea in Scienze Statistiche ed Economiche) a.a. 2002-03 MODULO 3 Campionamento da popolazioni finite G. Lovison Dipartimento di Scienze Statistiche e Matematiche S.Vianelli Marzo-Maggio 2003 1. Introduzione Indagine campionaria: studio che utilizza informazioni parziali, su un sottoinsieme di unità, per inferire sull’intero insieme cui queste appartengono. Indagine campionaria su popolazioni finite =⇒ motivata da: • costi • tempi • vincoli tecnici • vincoli etici ha una lunga storia: • prime esperienze nei secoli XVII e XVIII • sondaggi d’opinione, in particolare elettorali, dal 1824 negli U.S.A. • dibattito sul metodo rappresentativo (1895-1903) • verso una teoria statistica del campionamento da popolazioni finite: Bowley(1926), Neyman(1934), il dibattito NeymanGini • il dopoguerra: Sukhatme .... Yates, Cochran, Hansen, Hurwitz, Madow, 1.1 Concetti e definizioni fondamentali • popolazione finita P insieme di N unità identificabili, portatrici di una o più variabili di indagine: P = {1, 2, . . . , i, . . . , N } N < ∞ è la dimensione della popolazione 1, 2, . . . , i, . . . , N sono le etichette delle unità • variabili di indagine Y Unità Valori di Y 1 Y1 2 Y2 ... ... i Yi ... ... N YN • campione s sottoinsieme di n unità estratte da P con un qualsiasi schema di campionamento probabilistico: s = {i1 , i2 , . . . , ij , . . . , in } n < N è la dimensione campionaria ij è l’etichetta della j-esima unità campionaria, cioè dell’unità di P selezionata alla j-esima estrazione, per j = 1, . . . , n La dimensione campionaria può essere variabile da campione a campione estratto da P, e viene allora denotata con n(s). Distinzioni importanti: – campione non ordinato: in s sono rilevanti solo le etichette presenti, ma non l’ordine – campione ordinato: in s sono rilevanti sia le etichette presenti, sia l’ordine – campione con ripetizione: l’unità, dopo essere stata estratta, viene reinserita in P, cosicchè la sua etichetta può essere presente in s più di una volta – campione senza ripetizione: l’unità, una volta estratta, non viene reinserita nella popolazione, cosicchè la sua etichetta può essere presente in s una sola volta • dati campionari d insieme delle informazioni desumibili dal campione, riguardo (i) all’identità delle unità selezionate; (ii) all’ordine di selezione; (iii) alla realizzazione delle variabili d’indagine: d = [(i1 , Yi1 ), (i2 , Yi2 ), . . . , (ij , Yij ), . . . , (in , Yin )] Unità campionaria Etichetta Valori di Y 1 i1 y1 2 i2 y2 ... ... ... j ij yj ... ... ... n in yn • spazio campionario S insieme di tutti i campioni distinti che si possono formare con le unità di P con la tecnica di campionamento prescelta La cardinalità di S, | S |, dipende ovviamente dalla tecnica impiegata per formare il campione. In particolare: – campione ordinato senza ripetizione: | S |= DN,n = N (N − 1)(N − 2) · · · (N − n + 1) – campione ordinato con ripetizione: (r) | S |= DN,n = Nn – campione non ordinato senza ripetizione: ³ | S |= CN,n = N n ´ – campione non ordinato con ripetizione: | S |= (r) CN,n ³ = N +n−1 n ´ • schema di campionamento insieme delle procedure operative utilizzate per estrarre il campione s da P • piano (o disegno) di campionamento p(s) misura di probabilità associata ad ogni campione s ∈ S: X p(s) ≥ 0, p(s) = 1 s∈S Le probabilità p(s) possono essere variabili al variare di s (campionamento a probabilità variabili) oppure costanti (campionamento a probabilità costanti). • variabili di disegno (ausiliarie) X variabili (eventualmente) utilizzate per la pianificazione del campionamento e/o per l’inferenza sulle variabili d’indagine Unità Valori di X 1 X1 2 X2 ... ... i Xi ... ... N XN • probabilità di inclusione del primo ordine probabilità che una unità venga selezionata a far parte del campione: X πi = p(s) s∈Ai dove Ai ∈ S è l’insieme dei campioni dello spazio campionario S che contengono l’unità i Si può anche scrivere: X πi = δi p(s) = E(δi ) s∈S dove: n δi = 1 0 se i ∈ s altrimenti • probabilità di inclusione del secondo ordine probabilità che una coppia di unità venga selezionata a far parte del campione: X πij = p(s) s∈Aij dove Aij ∈ S è l’insieme dei campioni dello spazio campionario S che contengono entrambe le unità i e j. Si può anche scrivere: X πij = δi δj p(s) = E(δi δj ) s∈S • frequenza attesa di inclusione nel campionamento con ripetizione, numero medio di volte in cui una unità si presenta nel campione: X φi = γi p(s) = E(γi ) s∈S dove: γi v.c. numero di volte in cui l’unità i appare in s Nota: γi = δi , e quindi πi = φi per campionamenti senza ripetizione. • piano di campionamento autoponderante p(s) | πi = π ∀i per campionamenti senza ripetizione ovvero p(s) | φi = φ ∀i per campionamenti con ripetizione 1.2 Parametri nella popolazione e inferenza su popolazioni finite • parametro θ (a) caso univariato: Y variabile univariata (continua, discreta o categoriale) Obbiettivo dell’inferenza ⇒ descrizione della distribuzione di Y in P mediante parametri sintetici (inferenza descrittiva): • totale: Y = PN i=1 Yi • media aritmetica: Ȳ = • varianza S 2 = 1 N −1 PN 1 N i=1 PN i=1 Yi (Yi − Ȳ )2 • deviazione standard S = q 1 N −1 • coefficiente di variazione CV = PN i=1 (Yi − Ȳ )2 S Ȳ • momento (ordinario) di ordine r Mr = • momento centrale di ordine r M̄r = • ecc. ecc. 1 N 1 N PN PN i=1 i=1 Yir (Yi − Ȳ )r (b) caso multivariato: Y variabile multivariata (a componenti tutte continue, discrete, categoriali oppure miste) Obbiettivi dell’inferenza ⇒ descrizione della distribuzione delle componenti di Y in P mediante parametri sintetici (inferenza descrittiva) ⇒ analisi delle relazioni fra le componenti di Y in P, mediante parametri sintetici (inferenza analitica): • rapporto fra totali R = Y1 Y2 • covarianza Cov(Y1 , Y2 ) = 1 N PN i=1 (Y1i − Y¯1 )(Y2i − Y¯2 ) • coefficiente di correlazione lineare r(Y1 , Y2 ) = • coefficiente di regressione bY1 Y2 = Cov(Y1 ,Y2 ) SY2 2 • ecc. ecc. Cov(Y1 ,Y2 ) SY1 SY2 Procedure inferenziali: enfasi sulla stima puntuale • stimatore θ̂ funzione dei dati campionari costruita al fine di stimare θ: θ̂ = T (d) il valore assunto da θ̂ quando viene calcolato sul campione effettivamente osservato viene denominato stima: θ̂ = t(d) ∈ T • distribuzione campionaria di uno stimatore P r{θ̂ = t}, t ∈ T distribuzione di probabilità dello stimatore θ̂ indotta dal piano di campionamento p(s): X P r{θ̂ = t} = p(s) s∈At dove At ∈ S è l’insieme dei campioni dello spazio campionario S per i quali vale l’uguaglianza θ̂ = t • proprietà degli stimatori – non distorsione – MSE – efficienza – consistenza • strategia campionaria (p(s),θ̂) • confronti fra strategie – confronti di efficienza fra stimatori (a parità di disegno) – effetto del disegno (a parità di stimatore) Vs (θ̂) def f (s) = a parità di n Vcs (θ̂) 2. Piani di campionamento 2.1 Campionamenti a probabilità costante 2.1.1 Campionamento casuale semplice (senza ripetizione) Schema di campionamento: estrazione casuale di n unità, senza reinserimento dell’unità estratta, e con probabilità di estrazione Pi costante per ogni unità. Piano di campionamento: S = insieme di tutti i campioni non ordinati senza ripetizione ³ ⇒ | S |= CN,n = p(s) ´ N n = = n n−1 n−2 1 ... N N − 1N − 2 N −n+1 1 1 ³ ´= |S| N n Probabilità di inclusione: ³ X πi = N −1 n−1 ³ p(s) = s∈Ai n N frazione sondata ³ X πij = p(s) = s∈Aij N n N −2 n−2 ³ N n ´ ´ ´ = n N ´ = n(n − 1) N (N − 1) 2.1.2 Campionamento casuale semplice (con ripetizione) Schema di campionamento: estrazione casuale di n unità, con reinserimento dell’unità estratta, e con probabilità di estrazione Pi costante per ogni unità. Piano di campionamento: S = insieme di tutti i campioni ordinati con ripetizione (r) ⇒ | S |= DN,n = Nn n Y p(s) = i=1 1 1 1 = n = N N |S| Probabilità di inclusione: X πi = X πij = s∈Aij s∈Ai ³ 1 p(s) = 1 − 1 − N ³ 1 p(s) = 1 − 2 1 − N ´n ´n ³ 2 + 1− N ´n 2.1.3 Campionamento casuale stratificato Strati 1, 2, . . . , h, . . . , L : sottopopolazioni in cui viene divisa la popolazione P sulla base di variabili di stratificazione X • obbiettivo ⇒ le unità appartenenti ad uno strato sono più omogenee, con riferimento a Y rispetto alle unità appartenenti agli altri strati. • PL h=1 Nh = N Schema di campionamento: 1. suddivisione della popolazione in L strati di L campioni casuali sem2. estrazione, in modo indipendente, PL plici di numerosità nh , h=1 nh = n, con o senza reinserimento, uno da ciascuno strato Piano di campionamento: S = insieme di tutti i campioni non ordinati senza ripetizione estraibili negli L strati ³ ⇒ | S |= p(s) = 1 |S| = N1 n1 ³ ´³ N1 n1 ´ N2 n2 ´³ ³ ... 1 N2 n2 ´ ³ ... NL nL NL nL ´ ´ Probabilità di inclusione: πhi = nh Nh ( πhi,h‘i‘ = h = 1, . . . , L nh (nh −1) Nh (Nh −1) se h = h‘ nh nh‘ Nh Nh‘ se h 6= h‘ 2.1.4 Campionamento casuale a grappoli Grappoli: gruppi di unità, legate da vincoli di affinità, somiglianza, contiguità, ecc. in cui la popolazione P è suddivisa in modo naturale o artificiale. • N numero di grappoli in P • n numero di grappoli in s • Mh numero di unità elementari nel grappolo h; • M = • m= PN Mh numero di unità elementari in P h=1 Pn h=1 Mh numerosità campionaria di unità elementari ⇒ in generale è una v.c. Schema di campionamento: 1. estrazione, senza reinserimento, di un campione casuale semplice di n grappoli 2. inserimento nel campione finale di tutte le unità elementari appartenenti ai grappoli estratti Piano di campionamento: S = insieme di tutti i campioni non ordinati, senza ripetizione, di n grappoli ³ ⇒ | S |= CN,n = p(s) = 1 |S| = ³ 1 N n N n ´ ´ Probabilità di inclusione: πhi = ( πhi,h‘i‘ = n N n N se h = h‘ n(n−1) N (N −1) se h 6= h‘ 2.1.5 Campionamento casuale sistematico • N = nk, k ∈ N+ • se N n = k∗ 6∈ N+ , si assume k = [k∗ ] • le N unità in P sono organizzate in una lista sequenziale Schema di campionamento: 1. estrazione casuale di un numero di partenza r, r ∈ N+ , r ≤ k, con probabilità costante di estrazione per tutti i numeri interi r, 1 ≤ r ≤ k 2. selezione di n unità, con passo di campionamento k, individuate sequenzialmente nella lista: s = r, r + k, r + 2k, . . . , r + (j − 1)k, . . . , r + (n − 1)k Il campionamento sistematico può essere visto come un caso particolare di campionamento casuale a grappoli: grappolo 1 .. . grappolo r .. . grappolo k = 1, 1 + k, 1 + 2k, = r, r + k, r + 2k, = k, 2k, 3k, ..., .. . ..., .. . ..., 1 + (n − 1)k r + (n − 1)k nk Campionamento sistematico ⇐⇒ campionamento casuale da una popolazione di N = k grappoli di uguale dimensione Mh = n, con estrazione di n = 1 grappoli Piano di campionamento: S = insieme di k campioni ordinati senza ripetizione ⇒ | S |= k p(s) = 1 |S| = 1 k Probabilità di inclusione: πi = ½ πij = 1 k 1 k se i, j appartengono allo stesso grappolo 0 altrimenti 2.1.4 Campionamento casuale a due stadi • N numero di unità primarie (o unità di primo stadio) in P • n numero di unità primarie in s • Mh numero di unità elementari (o unità di secondo stadio) nell’unità primaria h • mh numero di unità elementari estratte dall’unità primaria h • M = • m= PN h=1 Mh numerosità di unità elementari in P h=1 mh numerosità campionaria di unità elementari Pn • f1 frazione di campionamento di primo stadio • f2h = mh Mh frazione di campionamento di secondo stadio Schema di campionamento: 1. estrazione, senza reinserimento, di un campione casuale semplice di n unità primarie 2. estrazione, senza reinserimento, di un campione casuale semplice di mh unità elementari in ogni unità primaria h estratta al primo stadio Probabilità di inclusione: n mh = f1 f2h N Mh Campionamento autoponderante solo se la frazione di campionamento al secondo stadio è costante πhi = πh πi|h = πhi,h‘i‘ = n mh (mh −1) N Mh (Mh −1) se h = h‘ n(n−1) mh mh‘ N (N −1) Mh Mh‘ se h 6= h‘ 2.2 Campionamenti a probabilità variabile X variabile ausiliaria, nota per tutte le unità in P, e che si suppone in relazione (approssimata) di proporzionalità con la variabile di indagine Y Xi misura di ampiezza dell’unità i Ai = Xi X misura di ampiezza normalizzata 2.2.1 Campionamento con probabilità proporzionali alla dimensione Campionamento basato sull’estrazione, con o senza ripetizione, di n unità con probabilità Pi di estrazione proporzionali ad una misura di ampiezza • estrazione di un campione di dimensione n = 1 1. Qi = Pi A = j=1 j Pi Xi j=1 X 2. si estrae u ∼ U (0, 1) 3. si inserisce nel campione l’unità i se Qi−1 ≤ u ≤ Qi Risulta: Pi = Pr{i ∈ s} = Pr{Qi−1 ≤ U ≤ Qi } = Qi − Qi−1 = Ai • estrazione di un campione di dimensione n, con ripetizione Si ripete n volte, in modo indipendente, il procedimento precedente Probabilità di inclusione: πi = 1 − (1 − Pi )n πij = 1 − (1 − Pi )n − (1 − Pj )n + (1 − Pi − Pj )n • estrazione di un campione di dimensione n, senza ripetizione Problema più complesso: numerosissime tecniche diverse Criteri di valutazione: basati sulle proprietà delle probabilità di inclusione 1. proporzionalità rispetto alle misure di ampiezza Xi : πi = nPi ∝ Xi 2. πij > 0 ∀i, j 3. πi πj − πij ≥ 0 ∀i, j 4. πij /πi πj ≥ c, con 1 ≥ c À 0 Alcune tecniche (C-H-M, pagg. 89-92) 1. Yates, Grundy (1953) 2. Brewer (1975) 3. Sampford (1967) 4. Rao, Hartley, Cochran (1962) 5. Hartley, Rao (1962) 3. Stimatori per parametri di popolazioni finite Ci concentreremo in particolare sul totale Y , perchè: • è spesso il parametro di diretto interesse, sia per variabili quantitative (continue: reddito, consumi, produzione; discrete: popolazione, numero di componenti il nucleo familiare, ecc.) sia per variabili categoriali (livello di istruzione, intenzione di voto, ecc.) • molti altri parametri di interesse sono funzione del totale (ad es. la media o la proporzione) o sono esprimibili come totali di variabili trasformate (ad es. i momenti, e in particolare la varianza) 3.1 Stimatori senza informazioni ausiliarie: stimatori lineari n X θ̂ = T (d) = wi yi i=1 pesi wi ⇒ possono dipendere dall’etichetta dell’unità oppure da s 3.1.1 Stimatori lineari non distorti: lo stimatore di Horvitz-Thompson Campionamenti senza ripetizione di campioni di ampiezza fissata n. Ŷ = n X yi i=1 V (Ŷ ) = N X 1 − πi i=1 n V̂ (Ŷ ) = = = πi2 N X 1 − πi i=1 n d C ov(X̂, Ŷ ) πi X 1 − πi i=1 Cov(X̂, Ŷ ) πi πi X 1 − πi i=1 πi2 Yi2 + N N µ X X i=1 j6=i n n yi2 + XXµ i=1 j6=i ¶ πij −1 πi πj 1 1 − πi πj πij N N µ X X Xi Yi + i=1 j6=i n n XXµ xi y i + i=1 j6=i Yi Yj ¶ πij −1 πi πj yi yj ¶ 1 1 − πi πj πij Osservazioni • wi = 1 πi dipendono dalle etichette delle unità • una formulazione alternativa di V (Ŷ ) è data da: µ N N X X V (Ŷ ) = (πi πj − πij ) i=1 j>i Yj Yi − πi πj ¶2 che può essere stimata correttamente da: Ṽ (Ŷ ) = n n µ X X πi πj i=1 j>i πij ¶µ −1 stimatore di Yates e Grundy (1953) yj yi − πi πj ¶2 Xi Yj ¶ xi y j • πij > 0 ⇒ esistenza di stimatori non distorti della varianza • πi πj − πij ≥ 0 ⇒ non-negatività della varianza e dello stimatore di Yates e Grundy • πij /πi πj ≥ c, con 1 ≥ c À 0 ⇒ stabilizzazione dello stimatore di Yates e Grundy • se πi = nPi ∀i e se Pi = Ŷ = n X yi i=1 πi Yi : Y n X = i=1 X Yi yi =Y = nPi n YYi n i=1 3.1.2 Stimatori lineari non distorti: lo stimatore di Hansen-Hurwitz Campionamenti con ripetizione di campioni di ampiezza fissata n. probabilità P N di estrazione delle unità in P: {P1 , P2 , . . . , Pi , . . . , PN }, P =1 i=1 i ⇒ possono essere costanti (Pi = 1 ) N oppure variabili probabilità di estrazione delle unità in s: {p1 , p2 , . . . , pi , . . . , pn } 1 X yi n pi n Ŷ = i=1 1X Pi n N V (Ŷ ) = i=1 ³ Yi −Y Pi X 1 n(n − 1) n V̂ (Ŷ ) = i=1 ³ ´2 yi − Ŷ pi ´2 Osservazioni • wi = 1 pi • se Pi = dipendono dalle etichette delle unità Yi , Y ∀i: Ŷ = Y ; V (Ŷ ) = 0 i Quindi, se Pi = X , e X è una buona misura di ampiezza, X cioè se fra X e Y sussiste effettivamente una relazione di approssimata proporzionalità, lo stimatore di Hansen-Hurwitz sarà molto efficiente. 3.2 Stimatori con informazioni ausiliarie 3.2.1 Lo stimatore per rapporto X variabile ausiliaria, nota per tutte le unità in P, e che si suppone in relazione (approssimata) di proporzionalità con la variabile di indagine Y Ŷ e X̂ stimatori non distorti dei totali Y e X Stimatore per quoziente: Ŷq = Ŷ X X = Ŷ X̂ X̂ •E(Ŷq ) Lo stimatore per quoziente è distorto: · ¸ E(Ŷq ) = XE Ŷ X̂ 6= X Y =Y X Tuttavia, la distorsione si annulla per n → N . Siano: Ŷ − Y X̂ − X e ∆x = Y X Allora, per n → N : E(Ŷq ) ' Y + Y E(∆y − ∆x ) = Y ∆y = •M SE(Ŷq ) M SE(Ŷq ) = V (Ŷq ) + B 2 (Ŷq ) Ma, se n → N, B 2 (Ŷq ) → 0, quindi: M SE(Ŷq ) ' V (Ŷq ) • Formula approssimata per V (Ŷq ) Sia p(s) un piano di campionamento qualsiasi, con n → N , e sia: Z = Y − RX Zi = Yi − RXi , i = 1, . . . , N Ẑ = Ŷ − RX̂ ⇒ stimatore corretto del totale Z Allora: V (Ŷq ) ' V (Ẑ) • si può dedurre V (Ŷq ) da V (Ŷ ) sostituendo Yi − RXi a Yi , 1, . . . , N i= • formulazione alternativa per V (Ŷq ): V (Ŷq ) ' V (Ŷ ) − 2RCov(X̂, Ŷ ) + R2 V (X̂) • Efficienza dello stimatore Intuitivamente: l’impiego dello stimatore per rapporto comporta un guadagno in efficienza se X̂ e Ŷ sono correlati positivamente. Se n → N e quindi M SE(Ŷq ) ' V (Ŷq ) e se R > 0, lo stimatore per quoziente Ŷq è più efficiente dello stimatore non distorto Ŷ se: ρ(X̂, Ŷ ) > CV (X̂) 2CV (Ŷ ) Quindi, l’impiego dello stimatore per rapporto comporta un guadagno in efficienza se: • la correlazione fra X̂ e Ŷ è positiva e forte • la variabilità di X̂, misurata in termini di CV (X̂) non è sostanzialmente superiore a quella di Ŷ 3.2.2 Lo stimatore per regressione X variabile ausiliaria, nota per tutte le unità in P, e che si suppone in relazione (approssimativamente) lineare con la variabile di indagine Y: Y = α + βX Ŷ e X̂ stimatori non distorti dei totali Y e X L’idea che sta alla base dello stimatore per regressione è di ’aggiustare’ Ŷ additivamente con una quantità proporzionale alla diffe. renza X − X̂ invece che moltiplicativamente con il rapporto X X̂ Caso a) Coefficiente di regressione β noto Ŷ ‘r E(Ŷ ‘r ) V (Ŷ ‘r ) = = = Ŷ + β(X − X̂) Y V (Ŷ ) − 2βCov(X̂, Ŷ ) + β 2 V (X̂) V̂ (Ŷ ‘r ) = d V̂ (Ŷ ) − 2β C ov(X̂, Ŷ ) + β 2 V̂ (X̂) Una formulazione alternativa di V (Ŷ ) è data da: V (Ŷ ‘r ) = V (Ŷ )[1 − ρ2 (X̂, Ŷ )] ⇒ lo stimatore per regressione (con β noto) è sempre più efficiente di Ŷ , qualsiasi sia il segno della correlazione fra X̂ e Ŷ , e tanto più efficiente quanto più forte è la correlazione fra X̂ e Ŷ . Caso b) Coefficiente di regressione β stimato β̂ = d C ov(X̂, Ŷ ) V̂ (X̂) Ŷr = Ŷ + β̂(X − X̂) •E(Ŷr ) Lo stimatore per regressione con β stimato è distorto: B(Ŷr ) = −Cov(X̂, β̂) Siano: ∆y = Ŷ − Y , Y ∆x = X̂ − X X e Allora: Ŷr = Y + Y ∆y − βX∆x − βX∆x ∆β e: E(Ŷr ) = Y − Cov(X̂, β̂) •M SE(Ŷr ) M SE(Ŷr ) = V (Ŷr ) + B 2 (Ŷr ) Ma, se n → N, B 2 (Ŷr ) → 0, quindi: M SE(Ŷr ) ' V (Ŷr ) ∆β = β̂ − β β • Formula approssimata per V (Ŷr ) Se n → N, βX∆x ∆β → 0 e si può scrivere: V (Ŷr ) ' V (Y ∆y − βX∆x ) = V (Ŷ ) − 2βCov(X̂, Ŷ ) + β 2 V (X̂) cioè: V (Ŷr ) ' V (Ŷ ‘r ) Uno stimatore per V (Ŷr ) è rappresentato da: d V̂ (Ŷr ) = V̂ (Ŷ ) − 2β̂ C ov(X̂, Ŷ ) + β̂ 2 V̂ (X̂) • Efficienza dello stimatore • confronto con Ŷ Poichè, se n → N , V (Ŷr ) ' V (Ŷ ‘r ) e Ŷ ‘r è sempre almeno tanto efficiente quanto Ŷ , se ne deduce che, per numerosità campionarie sufficientemente elevate, anche Ŷr è almeno tanto efficiente quanto Ŷ • confronto con Ŷq se n → N, V (Ŷq ) − V (Ŷr ) ' V (X̂)(R − β)2 cioè, per numerosità campionarie sufficientemente elevate Ŷr è sempre più efficiente di Ŷq , a meno che β = R, nel qual caso i due stimatori coincidono 4. Strategie campionarie e confronti di efficienza 4.1 Piani di campionamento di unità elementari, con numerosità fissata n Trattiamo solo il caso di campionamenti senza ripetizione. 4.1.1 Campionamento casuale semplice, stimatore di Horvitz-Thompson Ŷcs V (Ŷcs ) = = n X yi n N i=1 N X 1− i=1 = V̂ (Ŷcs ) = = N = n N2 n N n N yi = N ȳ i=1 Yi2 + N N X X n N ( Nn )2 i=1 à i=1 j6=i 1−f 2 S n n X 1− N2 n X yi2 + n n X X i=1 j6=i n(n−1) N (N −1) ( Nn )2 ! −1 Yi Yj ! à 1 ( Nn )2 − 1 n(n−1) N (N −1) yi yj 1−f 2 s n Osservazioni Pn • Ŷcs = Nn y ⇒ stimatore per espansione: i=1 i (totale campionario) × (coefficiente di espansione) • (1 − f ) = NN−n ⇒ correzione per popolazioni finite: tende a 1 quando n ¿ N , cioè quando la frazione di campionamento è trascurabile (ovvero la popolazione è infinita) • covarianza fra gli stimatori di due totali X̂cs e Ŷcs X1− N Cov(X̂cs , Ŷcs ) = i=1 = N2 n N n N XX N N Xi Yi + i=1 j6=i à n(n−1) N (N −1) ( Nn )2 ! −1 Xi Yj 1−f S(X , Y) n • stima della media 1X 1 ˆ Ycs = yi = ȳ N n n ˆ cs Ȳ = i=1 ˆ cs ) V (Ȳ = ˆ cs ) V̂ (Ȳ = N − n σ2 1−f 2 S = n N −1 n 1−f 2 s n ˆ cs ) → σ2 , l’usuale varianza dello stiSe N → ∞, allora V (Ȳ n matore media campionaria in popolazioni infinite (ovvero nel campionamento casuale semplice con ripetizione). • stima di parametri di variabili categoriali n Y = {A, B} con Yi = Parametri di interesse: Y Ȳ 1 0 se i ha modalità A se i ha modalità B = = NA P = 1 X (Yi − Ȳ )2 N −1 N S2 i=1 = N P (1 − P ) N −1 Stimatori e loro varianze: Ŷcs = ˆ cs Ȳ = ˆ cs ) V (Ȳ = ˆ cs ) V̂ (Ȳ = N nA n Ŷcs nA = =p N n N − n P (1 − P ) N −1 n 1−f p(1 − p) n 4.1.2 Campionamento casuale semplice, stimatore per quoziente Ŷcs N = n n X N = n yi e X̂cs i=1 stimatori non distorti dei totali Y e X Stimatore per quoziente: Ŷcs,q = n X xi i=1 Pn yi Pni=1 X i=1 xi • Formule approssimate per V (Ŷcs,q ), quando n → N, e relativi stimatori 1 X 21 − f M SE(Ŷcs,q ) ' V (Ŷcs,q ) ' V (Ẑcs ) = N (Yi − RXi )2 n N −1 N i=1 Uno stimatore consistente è fornito da: V̂ (Ŷcs,q ) ' N dove: R̂ = Pn y Pni=1 i i=1 xi 21 −f 1 X (yi − R̂xi )2 n n−1 n i=1 Una formulazione alternativa per V (Ŷcs,q ) è: V (Ŷcs,q ) ' N 2 1−f 2 [S (Y) − 2RS(X , Y) + R2 S 2 (X )] n in base alla quale lo stimatore consistente può essere scritto come: V̂ (Ŷcs,q ) ' N 2 1−f 2 [s (Y) − 2R̂s(X , Y) + R̂2 s2 (X )] n dove: s2 (Y) e P s2 (X ) sono le varianze campionarie di Y e X , e n 1 (y − ȳ)(xi − x̄) è la covarianza campionaria, s(X , Y) = n−1 i=1 i stimatore non distorto della covarianza S(X , Y) nella popolazione • Uno stimatore alternativo per V (Ŷcs,q ) Ṽ (Ŷcs,q ) = X̄ 2 V̂ (Ŷcs,q ) x̄2 • Efficienza dello stimatore Ŷcs,q ρ(X̂cs , Ŷcs ) = Cov(X̂cs , Ŷcs ) p = V (X̂cs )V (Ŷcs ) S(X , Y) = ρ(X , Y) S(X )S(Y) Se n → N e quindi M SE(Ŷcs,q ) ' V (Ŷq ) e se R > 0, lo stimatore per quoziente Ŷcs,q è più efficiente dello stimatore non distorto Ŷcs se: ρ(X , Y) > CV (X ) 2CV (Y) 4.1.3 Campionamento casuale semplice, stimatore per regressione Ŷcs N = n n X yi e X̂cs i=1 N = n stimatori non distorti dei totali Y e X Caso a) Coefficiente di regressione β = Ŷ ‘cs,r = V (Ŷ ‘cs,r ) = = V̂ (Ŷ ‘cs,r ) = n X xi i=1 Cov(X̂cs ,Ŷcs ) V (X̂cs ) = S(X ,Y) S 2 (X ) N ȳ + β(X − N x̄) 1−f 2 N2 [S (Y) − 2βS(X , Y) + β 2 S 2 (X )] n 1−f 2 N2 S (Y)[1 − ρ2 (X , Y)] n 1 − f 2 N2 [s (Y) − 2βs(X , Y) + β 2 s2 (X )] n Caso b) Coefficiente di regressione β stimato β̂cs = noto s(X , Y) = s2 (X ) Pn (y − ȳ)(xi − x̄) i=1 i Pn 2 i=1 (xi − x̄) Ŷcs,r = N ȳ + β̂cs (X − N x̄) • Formula approssimata per V (Ŷr ), quando n → N V (Ŷcs,r ) ' V (Ŷ ‘cs,r ) Uno stimatore consistente per V (Ŷcs,r ) è dato da: 1−f 2 2 2 s (X )] V̂ (Ŷcs,r ) = N 2 [s (Y) − 2β̂cs s(X , Y) + β̂cs n 4.1.4 Campionamento casuale stratificato, stimatore di HorvitzThompson • L numero di strati in P • Nh numero di unità elementari nello strato h • nh numerosità del campione estratto nello strato h • Yhi valore di Y assunto dall’unità i nello strato h • yhi valore di Y assunto dall’unità campionaria i nello strato h • Ȳh = 1 Nh • ȳh = 1 nh • Sh2 = PNh i=1 Pnh i=1 PNh i=1 Yhi media di Y nello strato h yhi media campionaria di Y nello strato h (Yhi − Ȳh )2 /(Nh − 1) varianza di Y nello strato h Pn h • s2h = (y − ȳh )/(nh − 1) varianza campionaria di Y nello i=1 hi strato h Ŷst = L nh X X yhi nh N h h=1 i=1 L X = Nh ȳh = h=1 L X V (Ŷst ) = L X V (Nh ȳh ) = h=1 L X V̂ (Ŷst ) L X = h=1 h=1 Nh2 1 − fh 2 sh nh Ŷhcs h=1 Nh2 1 − fh 2 Sh nh Osservazioni • Ŷst consiste nella somma di tanti stimatori per espansione quanti sono gli strati • se Sh2 = 0 ∀h, V (Ŷst ) = 0 ⇒ l’efficienza del campionamento stratificato è legata alla capacità di costruire strati che presentino una variabilità di Y minore di quella propria dell’intera popolazione. Scomposizione della devianza: 2 L X (N − 1)S = (Nh − 1)Sh2 L X + h=1 Nh (Ȳh − Ȳ )2 h=1 ⇒ la procedura di formazione degli strati deve minimizzare la devianza entro gli strati, ovvero massimizzare la devianza fra gli strati Aspetti da considerare: – scelta della/e variabile/i di stratificazione – determinazione di L – delimitazione degli strati (nel caso di variabili di stratificazione continue) – allocazione delle unità campionarie, cioè assegnazione di nh , h = 1, . . . , L Nel seguito assumiamo l’allocazione proporzionale: nh = n NNh , ∀h ⇒ fh = nh Nh = n N = f, costante ∀h per la quale vale la semplificazione: 1−f V (Ŷst ) = N 2 n L X Nh h=1 N Sh2 • Confronti di efficienza fra campione casuale semplice e campione casuale stratificato Se 1 Nh →0 ∀h: V (Ŷcs ) − V (Ŷst ) ' N 21 −f n L X Nh h=1 N (Ȳh − Ȳ )2 ≥ 0 Quindi: se N1h è trascurabile ∀h, il campionamento stratificato è sempre almeno tanto efficiente quanto quello casuale semplice, e il guadagno in efficienza è tanto maggiore quanto più sono diverse le medie di Y negli strati. Se 1 Nh non è trascurabile per qualche h: " V (Ŷcs )−V (Ŷst ) = N 2 1−f n(N − 1) L X h=1 Nh (Ȳh − Ȳ )2 − 1 N L X # (N − Nh )Sh2 h=1 Questa differenza teoricamente può essere negativa, ma è positiva non appena si formino gli strati in modo che la variabilità tra gli strati sia maggiore della variabilità entro gli strati. 4.1.5 Campionamento casuale stratificato, stimatore per quoziente (a) Stimatore per quoziente separato Ŷhcs = Nh ȳh e X̂hcs = Nh x̄h stimatori non distorti dei totali Yh e Xh delle variabili Y e X nello strato h, h = 1, . . . , L L X Ŷst,qs = h=1 X Ŷhcs Xh = Ŷhq X̂hcs L h=1 • Formule approssimate per V (Ŷst,qs ), quando nh → Nh , ∀h, e relativi stimatori M SE(Ŷst,qs ) ' V (Ŷst,qs ) = µ L X Ŷh V h=1 L X ' h=1 ¶ cs X̂hcs Xh X 1 2 1 − fh (Yhi − Rh Xhi )2 Nh nh Nh − 1 Nh i=1 dove: Rh = Yh /Xh Uno stimatore consistente è fornito da: L X V̂ (Ŷst,qs ) ' dove: R̂hcs = Pnh h=1 yhi Pni=1 h i=1 xhi 1 Nh2 − fh 1 X (yhi − R̂hcs xhi )2 nh nh − 1 nh i=1 Una formulazione alternativa per V (Ŷst,qs ) è: L X V (Ŷst,qs ) ' Nh2 h=1 1 − fh 2 [Sh (Y) − 2Rh Sh (X , Y) + Rh2 Sh2 (X )] nh dove: Sh2 (Y) e Sh2 (X ) sono le varianze di Y e X , e Sh (X , Y) è la covarianza fra Y e X , nello strato h in base alla quale lo stimatore consistente può essere scritto come: L X V̂ (Ŷst,qs ) ' h=1 Nh2 1 − fh 2 [sh (Y) − 2R̂hcs sh (X , Y) + R̂h2cs s2h (X )] nh dove: s2h (Y) e s2h (X ) sono le varianze campionarie di Y e X , e sh (X , Y) è la covarianza campionaria, Y e X , nello strato h (b) Stimatore per quoziente combinato L X Ŷst = L X Nh ȳh e X̂st = h=1 Nh x̄h h=1 stimatori non distorti dei totali Y e X delle variabili Y e X ottenuti con la strategia (campionamento casuale stratificato, stimatore HT) Ŷst,qc = Ŷst X = R̂st X X̂st • Formule approssimate per V (Ŷst,qc ), quando n → N, e relativi stimatori à L X M SE(Ŷst,qc ) ' V (Ŷst,qc ) ' V ! Ẑhcs h=1 L X = h=1 L X = V (Ẑhcs ) h=1 X 1 2 1 − fh [Yhi − RXhi − (Ȳh − RX̄h )]2 Nh nh Nh − 1 Nh i=1 Uno stimatore consistente è fornito da: L X V̂ (Ŷst,qc ) ' h=1 dove: R̂st = Ŷst X̂st 1 Nh2 X 1 − fh [yhi − R̂st xhi − (ȳh − R̂st x̄h )]2 n h Nh − 1 nh i=1 Una formulazione alternativa per V (Ŷst,qc ) è: L X V (Ŷst,qc ) ' Nh2 h=1 1 − fh 2 [Sh (Y) − 2RSh (X , Y) + R2 Sh2 (X )] nh in base alla quale lo stimatore consistente può essere scritto come: L X V̂ (Ŷst,qc ) ' Nh2 h=1 1 − fh 2 2 2 [sh (Y) − 2R̂st sh (X , Y) + R̂st sh (X )] nh • Confronti di efficienza fra stimatore per quoziente separato e stimatore per quoziente combinato L X V (Ŷst,qc ) − V (Ŷst,qs ) ' h=1 Nh2 1 − fh {(R − Rh )2 Sh2 (X ) nh +2(Rh − R)[Sh (X , Y) − Rh Sh2 (X )]} 4.1.6 Campionamento casuale stratificato, stimatore per regressione (a) Stimatore per regressione separato (con βh , h = 1, . . . , L ignoti) Ŷhcs = Nh ȳh e X̂hcs = Nh x̄h stimatori non distorti dei totali Yh e Xh delle variabili Y e X nello strato h, h = 1, . . . , L L X Ŷst,rs = [Ŷhcs + β̂hcs (Xh − X̂hcs )] h=1 dove: β̂hcs = Pnh (yhi −ȳh )(xhi −x̄h ) i=1 P nh 2 i=1 (xhi −x̄h ) h = 1, . . . , L • Formule approssimate per V (Ŷst,rs ), quando nh → Nh ∀h, e relativi stimatori L X V (Ŷst,rs ) ' Nh2 1 − fh 2 [Sh (Y) − 2βh Sh (X , Y) + βh2 Sh2 (X )] nh Nh2 1 − fh 2 Sh (Y)[1 − ρ2h (X , Y)] nh h=1 L X = h=1 Uno stimatore consistente è dato da: L X V̂ (Ŷst,rs ) = h=1 Nh2 1 − fh 2 [sh (Y) − 2β̂hcs sh (X , Y) + β̂h2cs s2h (X )] nh (b) Stimatore per regressione combinato (con β ignoto) L X L X Nh x̄h Nh ȳh e X̂st = Ŷst = h=1 h=1 stimatori non distorti dei totali Y e X delle variabili Y e X ottenuti con la strategia (campionamento casuale stratificato, stimatore HT) Ŷst,rc = Ŷst + β̂c (X − X̂st ) dove: β̂c = c C ov(X̂st ,Ŷst ) V̂ (X̂st ) è stimatore non distorto di βc = Cov(X̂st ,Ŷst ) V (X̂st ) • Formula approssimata per V (Ŷst,rc ), quando n → N, e relativo stimatore Se n → N , allora β̂c → βc e si può scrivere: V (Ŷst,rc ) ' V (Ŷ ‘st,rc ) = V (Ŷst ) − 2βc Cov(X̂st , Ŷst ) + βc2 V (X̂st ) L X = h=1 Nh2 1 − fh 2 [Sh (Y) − 2βc Sh (X , Y) + βc2 Sh2 (X )] nh Uno stimatore consistente è dato da: L X V̂ (Ŷst,rc ) = h=1 Nh2 1 − fh 2 [sh (Y) − 2β̂c sh (X , Y) + β̂c2 s2h (X )] nh • Confronti di efficienza fra stimatore per regressione separato e stimatore per regressione combinato L X V (Ŷst,rc ) − V (Ŷst,rs ) ' h=1 Nh2 1 − fh 2 Sh (X )(βh − βc )2 nh 4.2 Piani di campionamento a grappoli, con numerosità fissata n • N numero di grappoli in P • n numero di grappoli in s • Mh numero di unità elementari nel grappolo h; PN • M = h=1 Mh numero di unità elementari in P h=1 Mh numerosità campionaria di unità elementari Pn • m= • Yhi valore di Y assunto dall’unità i del grappolo h • yhi valore di Y assunto dall’unità i del grappolo h in s • Yh. = • yh. = PMh i=1 PMh i=1 Yhi totale di Y nel grappolo h yhi totale del grappolo h in s PN Poichè: Y = Y , si possono applicare i risultati visti in preceh=1 h. denza, considerando come variabile di indagine T , totale di grappolo di Y, ed equiparando il grappolo all’unità elementare. • Yh. = Th , h = 1, . . . , N • T = in P PN h=1 PN • T̄ = • t= h=1 Pn Pn • t̄ = Yh. N h=1 h=1 n Yh. = Y totale dei totali di grappolo = totale di Y media dei totali di grappolo in P yh. totale campionario dei totali di grappolo yh. media campionaria dei totali di grappolo 4.2.1 Campionamento casuale di grappoli, stimatore di HorvitzThompson Ŷg = V (Ŷg ) = V̂ (Ŷg ) = N n n X yh. = N t̄ h=1 PN (Yh. − T̄ )2 − f1 h=1 N n P N −1 n (y − t̄)2 1 − f 1 h=1 h. 2 N n n−1 21 Utile quando non si conoscono le dimensioni di tutti i grappoli in P, ovvero si assume che i totali di grappolo non siano fortemente correlati con la dimensione dei grappoli (es. reddito familiare e numero componenti la famiglia) 4.2.2 Campionamento casuale di grappoli, stimatore per quoziente Se: • i totali di grappolo Yh. sono correlati positivamente con le dimensioni Mh (es. consumo familiare e numero componenti la famiglia) • n→N si può utilizzare la dimensione dei grappoli come variabile ausiliaria, X = M, e ricorrere allo stimatore per quoziente: Ŷg,q = V (Ŷg,q ) ' V̂ (Ŷg,q ) ' Pn yh. Pnh=1 M = M ȳ Mh h=1 PN (Yh. − Mh Ȳ )2 − f1 h=1 N n P N −1 n (y − Mh ȳ)2 h=1 h. 2 1 − f1 N n n−1 21 Osservazioni • se Mh = M̄ , ∀h, Ŷg,q = Ŷg • R= Y M = Ȳ , quindi in questo contesto Zh = Yh. − Ȳ Mh 4.2.3 Campionamento casuale di grappoli con probabilità variabile e con ripetizione, stimatore di Hansen-Hurwitz Se i totali di grappolo Yh. sono correlati positivamente con le ampiezze Mh , cioè se vi è una relazione di (approssimata) proporzionalità fra T e M, si può utilizzare la dimensione dei grappoli come variabile di disegno per la determinazione di probabilità variabili di estrazione dei grappoli stessi: Ph = Mh M Se le dimensioni dei grappoli Mh non sono note, si può ricorrere ad una variabile ausiliaria X , nota per tutti i grappoli e fortemente correlata con M, come misura di ampiezza, per determinare le probabilità variabili di estrazione dei grappoli: Ph = Xh X In ambedue i casi si utilizza lo stimatore lineare non distorto di Hansen-Hurwitz. Si assuma Mh nota ∀h, e quindi Ph = Ŷgpv = n 1 X yh. n h=1 1X Ph n N V (Ŷgpv ) = ph h=1 à =M ³ = n Yh. −Y Ph X 1 n(n − 1) n V̂ (Ŷgpv ) n 1X h=1 ³ Mh . M ! ȳh. h=1 ´2 M = n yh. − Ŷgpv ph N X ´2 Mh (Ȳh. − Ȳ )2 h=1 X M2 = n(n − 1) n h=1 µ Ŷgpv ȳh. − M ¶2 4.2.4 Omogeneità entro i grappoli e confronti di efficienza • Misura di omogeneità (o somiglianza) entro i grappoli PN S12 S22 = = σ̄ 2 = h=1 PN (Yh. −T̄ )2 N −1 Mh h=1 M 2 N −1 S1 N M̄ 2 + PM h i=1 misura di variabilità di Y fra i grappoli (Yhi −Ȳh. )2 Mh −1 M̄ −1 2 S2 M̄ media ponderata delle misure di variabilità di Y entro i grappoli misura di variabilità complessiva di Y nella popolazione PN (dove: M̄ = N1 Mh h=1 dimensione media dei grappoli) Caso particolare: Mh = M̄ , ∀h ⇒ σ̄ 2 = σ 2 • in caso di massima omogeneità entro i grappoli: S2 Yhi = Ȳh. ∀h, i ⇒ S22 = 0 ⇒ σ̄ 2 = NN−1 M̄12 • in caso di minima omogeneità entro i grappoli: S12 = 0 ⇒ Yh. = T̄ ∀h ⇒ σ̄ 2 = M̄M̄−1 S22 Questo suggerisce come misura di omogeneità entro i grappoli: S2 N −1 1 − σ̄ 2 S22 N M̄ 2 δ =1− 2 = σ̄ (M̄ − 1)σ̄ 2 • in caso di massima omogeneità entro i grappoli: S22 = 0 ⇒ δ = 1 • in caso di minima omogeneità entro i grappoli: S22 = M̄M̄−1 σ̄ 2 ⇒ δ = −1/(M̄ − 1) Caso particolare: Mh = M̄ , correlazione intragrappoli: ∀h PN PM̄ PM̄ ρig = h=1 i=1 j6=i ⇒ δ = ρig , coefficiente di (Yhi − Ȳ )(Yhj − Ȳ ) N M̄ (M̄ − 1)σ 2 • Confronto di efficienza fra campionamento casuale a grappoli e campionamento casuale semplice V (Ŷg ) = N 2 1 − f1 2 1 − f1 N M̄ 2 S1 = N 2 σ̄ [1 + (M̄ − 1)δ] n n N −1 Caso particolare: Mh = M̄ , ∀h ⇒ V (Ŷg ) = N 2 1 − f1 N M̄ 2 1 − f1 2 S1 = N 2 σ [1 + (M̄ − 1)ρig ] n n N −1 Se: Mh = M̄ , ∀h e N → ∞: Deff(Ŷg ) ' 1 + (M̄ − 1)ρig cioè: il campionamento casuale a grappoli è più o meno efficiente del campionamento casuale semplice a seconda che il coefficiente di correlazione intragrappoli sia negativo o positivo. • Confronti di efficienza fra stimatori di Horvitz-Thompson, per quoziente e di Hansen-Hurwitz V (Ŷg ) V (Ŷg,q ) V (Ŷgpv ) = N 21 21 ' N = M n − f1 n − f1 n N X h=1 PN h=1 PN h=1 (Mh Ȳh. − T̄ )2 N −1 Mh2 (Ȳh. − Ȳ )2 N −1 N2 2 Mh (Ȳh. − Ȳ ) ' n PN h=1 M̄ Mh (Ȳh. − Ȳ )2 N −1 • Ŷg e Ŷg,q beneficiano del fattore 1 − f1 • Ŷg,q è più efficiente di Ŷg se ρ(M, T ) > CV (M) 2CV (T ) • confronti fra Ŷg,q e Ŷgpv necessitano di ipotesi plausibili sulla relazione fra (Ȳh. − Ȳ ) e Mh , h = 1, . . . , N 4.2.4 Campionamento casuale sistematico, stimatore di HorvitzThompson Campionamento sistematico ⇐⇒ campionamento casuale da una popolazione di N = k grappoli di uguale dimensione Mh = M̄ = n, con estrazione di n = 1 grappoli Denotando: Yh+(i−1)k = Yhi , si possono adattare i risultati visti per la strategia (campionamento casuale a grappoli, stimatore di Horvitz-Thompson) alla strategia (campionamento casuale sistematico, stimatore di Horvitz-Thompson). In particolare: Deff(V (Ŷsis )) = 1 + (n − 1)ρig cioè: il campionamento casuale sistematico è più o meno efficiente del campionamento casuale semplice a seconda che il coefficiente di correlazione intragrappoli sia negativo o positivo; ha circa la stessa efficienza se ρig ' 0, cioè se, come ci si attende se non vi sono periodicità particolari nella popolazione, la partizione indotta dal campionamento sistematico è vicina a quella casuale.