...

lucidi_campionamento - Dipartimento di Scienze Statistiche e

by user

on
Category: Documents
9

views

Report

Comments

Transcript

lucidi_campionamento - Dipartimento di Scienze Statistiche e
STATISTICA 4
(per il Corso di Laurea in Scienze Statistiche ed Economiche)
a.a. 2002-03
MODULO 3
Campionamento da popolazioni finite
G. Lovison
Dipartimento di Scienze Statistiche e Matematiche S.Vianelli
Marzo-Maggio 2003
1. Introduzione
Indagine campionaria: studio che utilizza informazioni parziali, su
un sottoinsieme di unità, per inferire sull’intero insieme cui queste
appartengono.
Indagine campionaria su popolazioni finite =⇒ motivata da:
• costi
• tempi
• vincoli tecnici
• vincoli etici
ha una lunga storia:
• prime esperienze nei secoli XVII e XVIII
• sondaggi d’opinione, in particolare elettorali, dal 1824 negli
U.S.A.
• dibattito sul metodo rappresentativo (1895-1903)
• verso una teoria statistica del campionamento da popolazioni
finite: Bowley(1926), Neyman(1934), il dibattito NeymanGini
• il dopoguerra:
Sukhatme ....
Yates, Cochran, Hansen, Hurwitz, Madow,
1.1 Concetti e definizioni fondamentali
• popolazione finita P
insieme di N unità identificabili, portatrici di una o più variabili di indagine:
P = {1, 2, . . . , i, . . . , N }
N < ∞ è la dimensione della popolazione
1, 2, . . . , i, . . . , N sono le etichette delle unità
• variabili di indagine Y
Unità
Valori di Y
1
Y1
2
Y2
...
...
i
Yi
...
...
N
YN
• campione s
sottoinsieme di n unità estratte da P con un qualsiasi schema
di campionamento probabilistico:
s = {i1 , i2 , . . . , ij , . . . , in }
n < N è la dimensione campionaria
ij è l’etichetta della j-esima unità campionaria, cioè dell’unità
di P selezionata alla j-esima estrazione, per j = 1, . . . , n
La dimensione campionaria può essere variabile da campione
a campione estratto da P, e viene allora denotata con n(s).
Distinzioni importanti:
– campione non ordinato: in s sono rilevanti solo le etichette presenti, ma non l’ordine
– campione ordinato: in s sono rilevanti sia le etichette
presenti, sia l’ordine
– campione con ripetizione: l’unità, dopo essere stata estratta, viene reinserita in P, cosicchè la sua etichetta
può essere presente in s più di una volta
– campione senza ripetizione: l’unità, una volta estratta,
non viene reinserita nella popolazione, cosicchè la sua
etichetta può essere presente in s una sola volta
• dati campionari d
insieme delle informazioni desumibili dal campione, riguardo
(i) all’identità delle unità selezionate; (ii) all’ordine di selezione; (iii) alla realizzazione delle variabili d’indagine:
d = [(i1 , Yi1 ), (i2 , Yi2 ), . . . , (ij , Yij ), . . . , (in , Yin )]
Unità campionaria
Etichetta
Valori di Y
1
i1
y1
2
i2
y2
...
...
...
j
ij
yj
...
...
...
n
in
yn
• spazio campionario S
insieme di tutti i campioni distinti che si possono formare con
le unità di P con la tecnica di campionamento prescelta
La cardinalità di S, | S |, dipende ovviamente dalla tecnica
impiegata per formare il campione. In particolare:
– campione ordinato senza ripetizione:
| S |= DN,n = N (N − 1)(N − 2) · · · (N − n + 1)
– campione ordinato con ripetizione:
(r)
| S |= DN,n
= Nn
– campione non ordinato senza ripetizione:
³
| S |= CN,n =
N
n
´
– campione non ordinato con ripetizione:
| S |=
(r)
CN,n
³
=
N +n−1
n
´
• schema di campionamento
insieme delle procedure operative utilizzate per estrarre il campione s da P
• piano (o disegno) di campionamento p(s)
misura di probabilità associata ad ogni campione s ∈ S:
X
p(s) ≥ 0,
p(s) = 1
s∈S
Le probabilità p(s) possono essere variabili al variare di s (campionamento a probabilità variabili) oppure costanti (campionamento a probabilità costanti).
• variabili di disegno (ausiliarie) X
variabili (eventualmente) utilizzate per la pianificazione del
campionamento e/o per l’inferenza sulle variabili d’indagine
Unità
Valori di X
1
X1
2
X2
...
...
i
Xi
...
...
N
XN
• probabilità di inclusione del primo ordine
probabilità che una unità venga selezionata a far parte del
campione:
X
πi =
p(s)
s∈Ai
dove Ai ∈ S è l’insieme dei campioni dello spazio campionario
S che contengono l’unità i
Si può anche scrivere:
X
πi =
δi p(s) = E(δi )
s∈S
dove:
n
δi =
1
0
se i ∈ s
altrimenti
• probabilità di inclusione del secondo ordine
probabilità che una coppia di unità venga selezionata a far
parte del campione:
X
πij =
p(s)
s∈Aij
dove Aij ∈ S è l’insieme dei campioni dello spazio campionario
S che contengono entrambe le unità i e j.
Si può anche scrivere:
X
πij =
δi δj p(s) = E(δi δj )
s∈S
• frequenza attesa di inclusione
nel campionamento con ripetizione, numero medio di volte in
cui una unità si presenta nel campione:
X
φi =
γi p(s) = E(γi )
s∈S
dove: γi v.c. numero di volte in cui l’unità i appare in s
Nota: γi = δi , e quindi πi = φi per campionamenti senza
ripetizione.
• piano di campionamento autoponderante
p(s) | πi = π ∀i per campionamenti senza ripetizione
ovvero
p(s) | φi = φ ∀i per campionamenti con ripetizione
1.2 Parametri nella popolazione e inferenza su popolazioni finite
• parametro θ
(a) caso univariato: Y variabile univariata (continua, discreta o
categoriale)
Obbiettivo dell’inferenza ⇒ descrizione della distribuzione di
Y in P mediante parametri sintetici (inferenza descrittiva):
• totale: Y =
PN
i=1
Yi
• media aritmetica: Ȳ =
• varianza S 2 =
1
N −1
PN
1
N
i=1
PN
i=1
Yi
(Yi − Ȳ )2
• deviazione standard S =
q
1
N −1
• coefficiente di variazione CV =
PN
i=1
(Yi − Ȳ )2
S
Ȳ
• momento (ordinario) di ordine r Mr =
• momento centrale di ordine r M̄r =
• ecc. ecc.
1
N
1
N
PN
PN
i=1
i=1
Yir
(Yi − Ȳ )r
(b) caso multivariato: Y variabile multivariata (a componenti tutte
continue, discrete, categoriali oppure miste)
Obbiettivi dell’inferenza
⇒ descrizione della distribuzione delle componenti di Y in P
mediante parametri sintetici (inferenza descrittiva)
⇒ analisi delle relazioni fra le componenti di Y in P, mediante
parametri sintetici (inferenza analitica):
• rapporto fra totali R =
Y1
Y2
• covarianza Cov(Y1 , Y2 ) =
1
N
PN
i=1
(Y1i − Y¯1 )(Y2i − Y¯2 )
• coefficiente di correlazione lineare r(Y1 , Y2 ) =
• coefficiente di regressione bY1 Y2 =
Cov(Y1 ,Y2 )
SY2
2
• ecc. ecc.
Cov(Y1 ,Y2 )
SY1 SY2
Procedure inferenziali: enfasi sulla stima puntuale
• stimatore θ̂
funzione dei dati campionari costruita al fine di stimare θ:
θ̂ = T (d)
il valore assunto da θ̂ quando viene calcolato sul campione
effettivamente osservato viene denominato stima:
θ̂ = t(d) ∈ T
• distribuzione campionaria di uno stimatore P r{θ̂ = t}, t ∈ T
distribuzione di probabilità dello stimatore θ̂ indotta dal piano
di campionamento p(s):
X
P r{θ̂ = t} =
p(s)
s∈At
dove At ∈ S è l’insieme dei campioni dello spazio campionario
S per i quali vale l’uguaglianza θ̂ = t
• proprietà degli stimatori
– non distorsione
– MSE
– efficienza
– consistenza
• strategia campionaria (p(s),θ̂)
• confronti fra strategie
– confronti di efficienza fra stimatori (a parità di disegno)
– effetto del disegno (a parità di stimatore)
Vs (θ̂)
def f (s) =
a parità di n
Vcs (θ̂)
2. Piani di campionamento
2.1 Campionamenti a probabilità costante
2.1.1 Campionamento casuale semplice (senza ripetizione)
Schema di campionamento:
estrazione casuale di n unità, senza reinserimento dell’unità estratta, e con probabilità di estrazione Pi costante per ogni unità.
Piano di campionamento:
S = insieme di tutti i campioni non ordinati senza ripetizione
³
⇒ | S |= CN,n =
p(s)
´
N
n
=
=
n n−1 n−2
1
...
N N − 1N − 2
N −n+1
1
1
³
´=
|S|
N
n
Probabilità di inclusione:
³
X
πi =
N −1
n−1
³
p(s) =
s∈Ai
n
N
frazione sondata
³
X
πij =
p(s) =
s∈Aij
N
n
N −2
n−2
³
N
n
´
´
´
=
n
N
´
=
n(n − 1)
N (N − 1)
2.1.2 Campionamento casuale semplice (con ripetizione)
Schema di campionamento:
estrazione casuale di n unità, con reinserimento dell’unità estratta,
e con probabilità di estrazione Pi costante per ogni unità.
Piano di campionamento:
S = insieme di tutti i campioni ordinati con ripetizione
(r)
⇒ | S |= DN,n
= Nn
n
Y
p(s) =
i=1
1
1
1
= n =
N
N
|S|
Probabilità di inclusione:
X
πi =
X
πij =
s∈Aij
s∈Ai
³
1
p(s) = 1 − 1 −
N
³
1
p(s) = 1 − 2 1 −
N
´n
´n
³
2
+ 1−
N
´n
2.1.3 Campionamento casuale stratificato
Strati 1, 2, . . . , h, . . . , L : sottopopolazioni in cui viene divisa la popolazione P sulla base di variabili di stratificazione X
• obbiettivo ⇒ le unità appartenenti ad uno strato sono più
omogenee, con riferimento a Y rispetto alle unità appartenenti
agli altri strati.
•
PL
h=1
Nh = N
Schema di campionamento:
1. suddivisione della popolazione in L strati
di L campioni casuali sem2. estrazione, in modo indipendente,
PL
plici di numerosità nh , h=1 nh = n, con o senza reinserimento, uno da ciascuno strato
Piano di campionamento:
S = insieme di tutti i campioni non ordinati senza ripetizione
estraibili negli L strati
³
⇒ | S |=
p(s) =
1
|S|
=
N1
n1
³
´³
N1
n1
´
N2
n2
´³
³
...
1
N2
n2
´ ³
...
NL
nL
NL
nL
´
´
Probabilità di inclusione:
πhi =
nh
Nh
(
πhi,h‘i‘ =
h = 1, . . . , L
nh (nh −1)
Nh (Nh −1)
se h = h‘
nh nh‘
Nh Nh‘
se h 6= h‘
2.1.4 Campionamento casuale a grappoli
Grappoli: gruppi di unità, legate da vincoli di affinità, somiglianza,
contiguità, ecc. in cui la popolazione P è suddivisa in modo naturale
o artificiale.
• N numero di grappoli in P
• n numero di grappoli in s
• Mh numero di unità elementari nel grappolo h;
• M =
• m=
PN
Mh numero di unità elementari in P
h=1
Pn
h=1
Mh numerosità campionaria di unità elementari
⇒ in generale è una v.c.
Schema di campionamento:
1. estrazione, senza reinserimento, di un campione casuale semplice di n grappoli
2. inserimento nel campione finale di tutte le unità elementari
appartenenti ai grappoli estratti
Piano di campionamento:
S = insieme di tutti i campioni non ordinati, senza ripetizione, di
n grappoli
³
⇒ | S |= CN,n =
p(s) =
1
|S|
=
³
1
N
n
N
n
´
´
Probabilità di inclusione:
πhi =
(
πhi,h‘i‘ =
n
N
n
N
se h = h‘
n(n−1)
N (N −1)
se h 6= h‘
2.1.5 Campionamento casuale sistematico
• N = nk, k ∈ N+
• se
N
n
= k∗ 6∈ N+ , si assume k = [k∗ ]
• le N unità in P sono organizzate in una lista sequenziale
Schema di campionamento:
1. estrazione casuale di un numero di partenza r, r ∈ N+ , r ≤ k,
con probabilità costante di estrazione per tutti i numeri interi
r, 1 ≤ r ≤ k
2. selezione di n unità, con passo di campionamento k, individuate sequenzialmente nella lista:
s = r, r + k, r + 2k, . . . , r + (j − 1)k, . . . , r + (n − 1)k
Il campionamento sistematico può essere visto come un caso particolare di campionamento casuale a grappoli:
grappolo 1
..
.
grappolo r
..
.
grappolo k
=
1,
1 + k,
1 + 2k,
=
r,
r + k,
r + 2k,
=
k,
2k,
3k,
...,
..
.
...,
..
.
...,
1 + (n − 1)k
r + (n − 1)k
nk
Campionamento sistematico ⇐⇒ campionamento casuale da una
popolazione di N = k grappoli di uguale dimensione Mh = n, con
estrazione di n = 1 grappoli
Piano di campionamento:
S = insieme di k campioni ordinati senza ripetizione
⇒ | S |= k
p(s) =
1
|S|
=
1
k
Probabilità di inclusione:
πi =
½
πij =
1
k
1
k
se i, j appartengono allo stesso grappolo
0
altrimenti
2.1.4 Campionamento casuale a due stadi
• N numero di unità primarie (o unità di primo stadio) in P
• n numero di unità primarie in s
• Mh numero di unità elementari (o unità di secondo stadio)
nell’unità primaria h
• mh numero di unità elementari estratte dall’unità primaria h
• M =
• m=
PN
h=1
Mh numerosità di unità elementari in P
h=1
mh numerosità campionaria di unità elementari
Pn
• f1 frazione di campionamento di primo stadio
• f2h =
mh
Mh
frazione di campionamento di secondo stadio
Schema di campionamento:
1. estrazione, senza reinserimento, di un campione casuale semplice di n unità primarie
2. estrazione, senza reinserimento, di un campione casuale semplice di mh unità elementari in ogni unità primaria h estratta
al primo stadio
Probabilità di inclusione:
n mh
= f1 f2h
N Mh
Campionamento autoponderante solo se la frazione di campionamento al secondo stadio è costante
πhi = πh πi|h =


πhi,h‘i‘ =

n mh (mh −1)
N Mh (Mh −1)
se h = h‘
n(n−1) mh mh‘
N (N −1) Mh Mh‘
se h 6= h‘
2.2 Campionamenti a probabilità variabile
X variabile ausiliaria, nota per tutte le unità in P, e che si suppone
in relazione (approssimata) di proporzionalità con la variabile di
indagine Y
Xi misura di ampiezza dell’unità i
Ai =
Xi
X
misura di ampiezza normalizzata
2.2.1 Campionamento con probabilità proporzionali alla dimensione
Campionamento basato sull’estrazione, con o senza ripetizione, di
n unità con probabilità Pi di estrazione proporzionali ad una misura
di ampiezza
• estrazione di un campione di dimensione n = 1
1. Qi =
Pi
A =
j=1 j
Pi
Xi
j=1 X
2. si estrae u ∼ U (0, 1)
3. si inserisce nel campione l’unità i se Qi−1 ≤ u ≤ Qi
Risulta: Pi = Pr{i ∈ s} = Pr{Qi−1 ≤ U ≤ Qi } = Qi − Qi−1 = Ai
• estrazione di un campione di dimensione n, con ripetizione
Si ripete n volte, in modo indipendente, il procedimento precedente
Probabilità di inclusione:
πi = 1 − (1 − Pi )n
πij = 1 − (1 − Pi )n − (1 − Pj )n + (1 − Pi − Pj )n
• estrazione di un campione di dimensione n, senza ripetizione
Problema più complesso: numerosissime tecniche diverse
Criteri di valutazione: basati sulle proprietà delle probabilità
di inclusione
1. proporzionalità rispetto alle misure di ampiezza Xi :
πi = nPi ∝ Xi
2. πij > 0
∀i, j
3. πi πj − πij ≥ 0
∀i, j
4. πij /πi πj ≥ c, con 1 ≥ c À 0
Alcune tecniche (C-H-M, pagg. 89-92)
1. Yates, Grundy (1953)
2. Brewer (1975)
3. Sampford (1967)
4. Rao, Hartley, Cochran (1962)
5. Hartley, Rao (1962)
3. Stimatori per parametri di popolazioni finite
Ci concentreremo in particolare sul totale Y , perchè:
• è spesso il parametro di diretto interesse, sia per variabili quantitative (continue: reddito, consumi, produzione; discrete:
popolazione, numero di componenti il nucleo familiare, ecc.)
sia per variabili categoriali (livello di istruzione, intenzione di
voto, ecc.)
• molti altri parametri di interesse sono funzione del totale (ad
es. la media o la proporzione) o sono esprimibili come totali
di variabili trasformate (ad es. i momenti, e in particolare la
varianza)
3.1 Stimatori senza informazioni ausiliarie: stimatori lineari
n
X
θ̂ = T (d) =
wi yi
i=1
pesi wi ⇒ possono dipendere dall’etichetta dell’unità oppure da s
3.1.1 Stimatori lineari non distorti: lo stimatore di Horvitz-Thompson
Campionamenti senza ripetizione di campioni di ampiezza fissata
n.
Ŷ
=
n
X
yi
i=1
V (Ŷ )
=
N
X
1 − πi
i=1
n
V̂ (Ŷ )
=
=
=
πi2
N
X
1 − πi
i=1
n
d
C
ov(X̂, Ŷ )
πi
X 1 − πi
i=1
Cov(X̂, Ŷ )
πi
πi
X 1 − πi
i=1
πi2
Yi2 +
N
N µ
X
X
i=1 j6=i
n
n
yi2 +
XXµ
i=1 j6=i
¶
πij
−1
πi πj
1
1
−
πi πj
πij
N
N µ
X
X
Xi Yi +
i=1 j6=i
n
n
XXµ
xi y i +
i=1 j6=i
Yi Yj
¶
πij
−1
πi πj
yi yj
¶
1
1
−
πi πj
πij
Osservazioni
• wi =
1
πi
dipendono dalle etichette delle unità
• una formulazione alternativa di V (Ŷ ) è data da:
µ
N
N
X
X
V (Ŷ ) =
(πi πj − πij )
i=1 j>i
Yj
Yi
−
πi
πj
¶2
che può essere stimata correttamente da:
Ṽ (Ŷ ) =
n
n µ
X
X
πi πj
i=1 j>i
πij
¶µ
−1
stimatore di Yates e Grundy (1953)
yj
yi
−
πi
πj
¶2
Xi Yj
¶
xi y j
• πij > 0 ⇒ esistenza di stimatori non distorti della varianza
• πi πj − πij ≥ 0 ⇒ non-negatività della varianza e dello stimatore
di Yates e Grundy
• πij /πi πj ≥ c, con 1 ≥ c À 0 ⇒ stabilizzazione dello stimatore di
Yates e Grundy
• se πi = nPi
∀i e se Pi =
Ŷ =
n
X
yi
i=1
πi
Yi
:
Y
n
X
=
i=1
X Yi
yi
=Y
=
nPi
n YYi
n
i=1
3.1.2 Stimatori lineari non distorti: lo stimatore di Hansen-Hurwitz
Campionamenti con ripetizione di campioni di ampiezza fissata n.
probabilità
P
N
di estrazione delle unità in P: {P1 , P2 , . . . , Pi , . . . , PN },
P =1
i=1 i
⇒ possono essere costanti (Pi =
1
)
N
oppure variabili
probabilità di estrazione delle unità in s: {p1 , p2 , . . . , pi , . . . , pn }
1 X yi
n
pi
n
Ŷ
=
i=1
1X
Pi
n
N
V (Ŷ )
=
i=1
³
Yi
−Y
Pi
X
1
n(n − 1)
n
V̂ (Ŷ )
=
i=1
³
´2
yi
− Ŷ
pi
´2
Osservazioni
• wi =
1
pi
• se Pi =
dipendono dalle etichette delle unità
Yi
,
Y
∀i:
Ŷ = Y ;
V (Ŷ ) = 0
i
Quindi, se Pi = X
, e X è una buona misura di ampiezza,
X
cioè se fra X e Y sussiste effettivamente una relazione di
approssimata proporzionalità, lo stimatore di Hansen-Hurwitz
sarà molto efficiente.
3.2 Stimatori con informazioni ausiliarie
3.2.1 Lo stimatore per rapporto
X variabile ausiliaria, nota per tutte le unità in P, e che si suppone
in relazione (approssimata) di proporzionalità con la variabile di
indagine Y
Ŷ e X̂ stimatori non distorti dei totali Y e X
Stimatore per quoziente:
Ŷq =
Ŷ
X
X = Ŷ
X̂
X̂
•E(Ŷq )
Lo stimatore per quoziente è distorto:
· ¸
E(Ŷq ) = XE
Ŷ
X̂
6= X
Y
=Y
X
Tuttavia, la distorsione si annulla per n → N .
Siano:
Ŷ − Y
X̂ − X
e ∆x =
Y
X
Allora, per n → N : E(Ŷq ) ' Y + Y E(∆y − ∆x ) = Y
∆y =
•M SE(Ŷq )
M SE(Ŷq ) = V (Ŷq ) + B 2 (Ŷq )
Ma, se n → N, B 2 (Ŷq ) → 0, quindi: M SE(Ŷq ) ' V (Ŷq )
• Formula approssimata per V (Ŷq )
Sia p(s) un piano di campionamento qualsiasi, con n → N , e sia:
Z = Y − RX
Zi = Yi − RXi , i = 1, . . . , N
Ẑ = Ŷ − RX̂ ⇒ stimatore corretto del totale Z
Allora: V (Ŷq ) ' V (Ẑ)
• si può dedurre V (Ŷq ) da V (Ŷ ) sostituendo Yi − RXi a Yi ,
1, . . . , N
i=
• formulazione alternativa per V (Ŷq ):
V (Ŷq ) ' V (Ŷ ) − 2RCov(X̂, Ŷ ) + R2 V (X̂)
• Efficienza dello stimatore
Intuitivamente: l’impiego dello stimatore per rapporto comporta
un guadagno in efficienza se X̂ e Ŷ sono correlati positivamente.
Se n → N e quindi M SE(Ŷq ) ' V (Ŷq ) e se R > 0, lo stimatore per
quoziente Ŷq è più efficiente dello stimatore non distorto Ŷ se:
ρ(X̂, Ŷ ) >
CV (X̂)
2CV (Ŷ )
Quindi, l’impiego dello stimatore per rapporto comporta un guadagno in efficienza se:
• la correlazione fra X̂ e Ŷ è positiva e forte
• la variabilità di X̂, misurata in termini di CV (X̂) non è sostanzialmente superiore a quella di Ŷ
3.2.2 Lo stimatore per regressione
X variabile ausiliaria, nota per tutte le unità in P, e che si suppone in
relazione (approssimativamente) lineare con la variabile di indagine
Y:
Y = α + βX
Ŷ e X̂ stimatori non distorti dei totali Y e X
L’idea che sta alla base dello stimatore per regressione è di ’aggiustare’ Ŷ additivamente con una quantità proporzionale alla diffe.
renza X − X̂ invece che moltiplicativamente con il rapporto X
X̂
Caso a) Coefficiente di regressione β noto
Ŷ ‘r
E(Ŷ ‘r )
V (Ŷ ‘r )
=
=
=
Ŷ + β(X − X̂)
Y
V (Ŷ ) − 2βCov(X̂, Ŷ ) + β 2 V (X̂)
V̂ (Ŷ ‘r )
=
d
V̂ (Ŷ ) − 2β C
ov(X̂, Ŷ ) + β 2 V̂ (X̂)
Una formulazione alternativa di V (Ŷ ) è data da:
V (Ŷ ‘r ) = V (Ŷ )[1 − ρ2 (X̂, Ŷ )]
⇒ lo stimatore per regressione (con β noto) è sempre più efficiente
di Ŷ , qualsiasi sia il segno della correlazione fra X̂ e Ŷ , e tanto più
efficiente quanto più forte è la correlazione fra X̂ e Ŷ .
Caso b) Coefficiente di regressione β stimato
β̂ =
d
C
ov(X̂, Ŷ )
V̂ (X̂)
Ŷr = Ŷ + β̂(X − X̂)
•E(Ŷr )
Lo stimatore per regressione con β stimato è distorto:
B(Ŷr ) = −Cov(X̂, β̂)
Siano:
∆y =
Ŷ − Y
,
Y
∆x =
X̂ − X
X
e
Allora: Ŷr = Y + Y ∆y − βX∆x − βX∆x ∆β
e: E(Ŷr ) = Y − Cov(X̂, β̂)
•M SE(Ŷr )
M SE(Ŷr ) = V (Ŷr ) + B 2 (Ŷr )
Ma, se n → N, B 2 (Ŷr ) → 0, quindi:
M SE(Ŷr ) ' V (Ŷr )
∆β =
β̂ − β
β
• Formula approssimata per V (Ŷr )
Se n → N, βX∆x ∆β → 0 e si può scrivere:
V (Ŷr ) ' V (Y ∆y − βX∆x ) = V (Ŷ ) − 2βCov(X̂, Ŷ ) + β 2 V (X̂)
cioè: V (Ŷr ) ' V (Ŷ ‘r )
Uno stimatore per V (Ŷr ) è rappresentato da:
d
V̂ (Ŷr ) = V̂ (Ŷ ) − 2β̂ C
ov(X̂, Ŷ ) + β̂ 2 V̂ (X̂)
• Efficienza dello stimatore
• confronto con Ŷ
Poichè, se n → N , V (Ŷr ) ' V (Ŷ ‘r ) e Ŷ ‘r è sempre almeno
tanto efficiente quanto Ŷ , se ne deduce che, per numerosità
campionarie sufficientemente elevate, anche Ŷr è almeno tanto
efficiente quanto Ŷ
• confronto con Ŷq
se n → N,
V (Ŷq ) − V (Ŷr ) ' V (X̂)(R − β)2
cioè, per numerosità campionarie sufficientemente elevate Ŷr
è sempre più efficiente di Ŷq , a meno che β = R, nel qual caso
i due stimatori coincidono
4. Strategie campionarie e confronti di efficienza
4.1 Piani di campionamento di unità elementari, con numerosità
fissata n
Trattiamo solo il caso di campionamenti senza ripetizione.
4.1.1 Campionamento casuale semplice, stimatore di Horvitz-Thompson
Ŷcs
V (Ŷcs )
=
=
n
X
yi
n
N
i=1
N
X
1−
i=1
=
V̂ (Ŷcs )
=
=
N
=
n
N2
n
N
n
N
yi = N ȳ
i=1
Yi2 +
N
N
X
X
n
N
( Nn )2
i=1
Ã
i=1 j6=i
1−f 2
S
n
n
X
1−
N2
n
X
yi2 +
n
n
X
X
i=1 j6=i
n(n−1)
N (N −1)
( Nn )2
!
−1
Yi Yj
!
Ã
1
( Nn )2
−
1
n(n−1)
N (N −1)
yi yj
1−f 2
s
n
Osservazioni
Pn
• Ŷcs = Nn
y
⇒ stimatore per espansione:
i=1 i
(totale campionario) × (coefficiente di espansione)
• (1 − f ) = NN−n
⇒ correzione per popolazioni finite: tende a
1 quando n ¿ N , cioè quando la frazione di campionamento
è trascurabile (ovvero la popolazione è infinita)
• covarianza fra gli stimatori di due totali X̂cs e Ŷcs
X1−
N
Cov(X̂cs , Ŷcs )
=
i=1
=
N2
n
N
n
N
XX
N
N
Xi Yi +
i=1 j6=i
Ã
n(n−1)
N (N −1)
( Nn )2
!
−1
Xi Yj
1−f
S(X , Y)
n
• stima della media
1X
1
ˆ
Ycs =
yi = ȳ
N
n
n
ˆ cs
Ȳ
=
i=1
ˆ cs )
V (Ȳ
=
ˆ cs )
V̂ (Ȳ
=
N − n σ2
1−f 2
S =
n
N −1 n
1−f 2
s
n
ˆ cs ) → σ2 , l’usuale varianza dello stiSe N → ∞, allora V (Ȳ
n
matore media campionaria in popolazioni infinite (ovvero nel
campionamento casuale semplice con ripetizione).
• stima di parametri di variabili categoriali
n
Y = {A, B}
con Yi =
Parametri di interesse: Y
Ȳ
1
0
se i ha modalità A
se i ha modalità B
=
=
NA
P
=
1 X
(Yi − Ȳ )2
N −1
N
S2
i=1
=
N
P (1 − P )
N −1
Stimatori e loro varianze:
Ŷcs
=
ˆ cs
Ȳ
=
ˆ cs )
V (Ȳ
=
ˆ cs )
V̂ (Ȳ
=
N
nA
n
Ŷcs
nA
=
=p
N
n
N − n P (1 − P )
N −1
n
1−f
p(1 − p)
n
4.1.2 Campionamento casuale semplice, stimatore per quoziente
Ŷcs
N
=
n
n
X
N
=
n
yi e X̂cs
i=1
stimatori non distorti dei totali Y e X
Stimatore per quoziente:
Ŷcs,q =
n
X
xi
i=1
Pn
yi
Pni=1 X
i=1
xi
• Formule approssimate per V (Ŷcs,q ), quando n → N, e relativi
stimatori
1 X
21 − f
M SE(Ŷcs,q ) ' V (Ŷcs,q ) ' V (Ẑcs ) = N
(Yi − RXi )2
n N −1
N
i=1
Uno stimatore consistente è fornito da:
V̂ (Ŷcs,q ) ' N
dove: R̂ =
Pn
y
Pni=1 i
i=1
xi
21
−f 1 X
(yi − R̂xi )2
n n−1
n
i=1
Una formulazione alternativa per V (Ŷcs,q ) è:
V (Ŷcs,q ) ' N 2
1−f 2
[S (Y) − 2RS(X , Y) + R2 S 2 (X )]
n
in base alla quale lo stimatore consistente può essere scritto come:
V̂ (Ŷcs,q ) ' N 2
1−f 2
[s (Y) − 2R̂s(X , Y) + R̂2 s2 (X )]
n
dove: s2 (Y) e P
s2 (X ) sono le varianze campionarie di Y e X , e
n
1
(y − ȳ)(xi − x̄) è la covarianza campionaria,
s(X , Y) = n−1
i=1 i
stimatore non distorto della covarianza S(X , Y) nella popolazione
• Uno stimatore alternativo per V (Ŷcs,q )
Ṽ (Ŷcs,q ) =
X̄ 2
V̂ (Ŷcs,q )
x̄2
• Efficienza dello stimatore Ŷcs,q
ρ(X̂cs , Ŷcs ) =
Cov(X̂cs , Ŷcs )
p
=
V (X̂cs )V (Ŷcs )
S(X , Y)
= ρ(X , Y)
S(X )S(Y)
Se n → N e quindi M SE(Ŷcs,q ) ' V (Ŷq ) e se R > 0, lo stimatore per
quoziente Ŷcs,q è più efficiente dello stimatore non distorto Ŷcs se:
ρ(X , Y) >
CV (X )
2CV (Y)
4.1.3 Campionamento casuale semplice, stimatore per regressione
Ŷcs
N
=
n
n
X
yi e X̂cs
i=1
N
=
n
stimatori non distorti dei totali Y e X
Caso a) Coefficiente di regressione β =
Ŷ ‘cs,r
=
V (Ŷ ‘cs,r )
=
=
V̂ (Ŷ ‘cs,r )
=
n
X
xi
i=1
Cov(X̂cs ,Ŷcs )
V (X̂cs )
=
S(X ,Y)
S 2 (X )
N ȳ + β(X − N x̄)
1−f 2
N2
[S (Y) − 2βS(X , Y) + β 2 S 2 (X )]
n
1−f 2
N2
S (Y)[1 − ρ2 (X , Y)]
n
1
−
f 2
N2
[s (Y) − 2βs(X , Y) + β 2 s2 (X )]
n
Caso b) Coefficiente di regressione β stimato
β̂cs =
noto
s(X , Y)
=
s2 (X )
Pn
(y − ȳ)(xi − x̄)
i=1 i
Pn
2
i=1
(xi − x̄)
Ŷcs,r = N ȳ + β̂cs (X − N x̄)
• Formula approssimata per V (Ŷr ), quando n → N
V (Ŷcs,r ) ' V (Ŷ ‘cs,r )
Uno stimatore consistente per V (Ŷcs,r ) è dato da:
1−f 2
2 2
s (X )]
V̂ (Ŷcs,r ) = N 2
[s (Y) − 2β̂cs s(X , Y) + β̂cs
n
4.1.4 Campionamento casuale stratificato, stimatore di HorvitzThompson
• L numero di strati in P
• Nh numero di unità elementari nello strato h
• nh numerosità del campione estratto nello strato h
• Yhi valore di Y assunto dall’unità i nello strato h
• yhi valore di Y assunto dall’unità campionaria i nello strato h
• Ȳh =
1
Nh
• ȳh =
1
nh
• Sh2 =
PNh
i=1
Pnh
i=1
PNh
i=1
Yhi media di Y nello strato h
yhi media campionaria di Y nello strato h
(Yhi − Ȳh )2 /(Nh − 1) varianza di Y nello strato h
Pn
h
• s2h =
(y − ȳh )/(nh − 1) varianza campionaria di Y nello
i=1 hi
strato h
Ŷst
=
L
nh
X
X
yhi
nh
N
h
h=1 i=1
L
X
=
Nh ȳh =
h=1
L
X
V (Ŷst )
=
L
X
V (Nh ȳh ) =
h=1
L
X
V̂ (Ŷst )
L
X
=
h=1
h=1
Nh2
1 − fh 2
sh
nh
Ŷhcs
h=1
Nh2
1 − fh 2
Sh
nh
Osservazioni
• Ŷst consiste nella somma di tanti stimatori per espansione
quanti sono gli strati
• se Sh2 = 0 ∀h, V (Ŷst ) = 0
⇒ l’efficienza del campionamento stratificato è legata alla capacità di costruire strati che presentino una variabilità di Y minore di quella propria dell’intera
popolazione.
Scomposizione della devianza:
2
L
X
(N − 1)S =
(Nh −
1)Sh2
L
X
+
h=1
Nh (Ȳh − Ȳ )2
h=1
⇒ la procedura di formazione degli strati deve minimizzare la
devianza entro gli strati, ovvero massimizzare la devianza fra
gli strati
Aspetti da considerare:
– scelta della/e variabile/i di stratificazione
– determinazione di L
– delimitazione degli strati (nel caso di variabili di stratificazione continue)
– allocazione delle unità campionarie, cioè assegnazione di
nh , h = 1, . . . , L
Nel seguito assumiamo l’allocazione proporzionale:
nh = n NNh ,
∀h ⇒ fh =
nh
Nh
=
n
N
= f, costante ∀h
per la quale vale la semplificazione:
1−f
V (Ŷst ) = N 2
n
L
X
Nh
h=1
N
Sh2
• Confronti di efficienza fra campione casuale semplice e campione
casuale stratificato
Se
1
Nh
→0
∀h:
V (Ŷcs ) − V (Ŷst ) ' N
21
−f
n
L
X
Nh
h=1
N
(Ȳh − Ȳ )2 ≥ 0
Quindi: se N1h è trascurabile ∀h, il campionamento stratificato è
sempre almeno tanto efficiente quanto quello casuale semplice, e il
guadagno in efficienza è tanto maggiore quanto più sono diverse le
medie di Y negli strati.
Se
1
Nh
non è trascurabile per qualche h:
"
V (Ŷcs )−V (Ŷst ) = N 2
1−f
n(N − 1)
L
X
h=1
Nh (Ȳh − Ȳ )2 −
1
N
L
X
#
(N − Nh )Sh2
h=1
Questa differenza teoricamente può essere negativa, ma è positiva
non appena si formino gli strati in modo che la variabilità tra gli
strati sia maggiore della variabilità entro gli strati.
4.1.5 Campionamento casuale stratificato, stimatore per quoziente
(a) Stimatore per quoziente separato
Ŷhcs = Nh ȳh e X̂hcs = Nh x̄h
stimatori non distorti dei totali Yh e Xh delle variabili Y e X nello
strato h, h = 1, . . . , L
L
X
Ŷst,qs =
h=1
X
Ŷhcs
Xh =
Ŷhq
X̂hcs
L
h=1
• Formule approssimate per V (Ŷst,qs ), quando nh → Nh , ∀h, e relativi
stimatori
M SE(Ŷst,qs ) ' V (Ŷst,qs )
=
µ
L
X
Ŷh
V
h=1
L
X
'
h=1
¶
cs
X̂hcs
Xh
X
1
2 1 − fh
(Yhi − Rh Xhi )2
Nh
nh Nh − 1
Nh
i=1
dove: Rh = Yh /Xh
Uno stimatore consistente è fornito da:
L
X
V̂ (Ŷst,qs ) '
dove: R̂hcs =
Pnh h=1
yhi
Pni=1
h
i=1
xhi
1
Nh2
− fh 1 X
(yhi − R̂hcs xhi )2
nh nh − 1
nh
i=1
Una formulazione alternativa per V (Ŷst,qs ) è:
L
X
V (Ŷst,qs ) '
Nh2
h=1
1 − fh 2
[Sh (Y) − 2Rh Sh (X , Y) + Rh2 Sh2 (X )]
nh
dove: Sh2 (Y) e Sh2 (X ) sono le varianze di Y e X , e Sh (X , Y) è la
covarianza fra Y e X , nello strato h
in base alla quale lo stimatore consistente può essere scritto come:
L
X
V̂ (Ŷst,qs ) '
h=1
Nh2
1 − fh 2
[sh (Y) − 2R̂hcs sh (X , Y) + R̂h2cs s2h (X )]
nh
dove: s2h (Y) e s2h (X ) sono le varianze campionarie di Y e X , e
sh (X , Y) è la covarianza campionaria, Y e X , nello strato h
(b) Stimatore per quoziente combinato
L
X
Ŷst =
L
X
Nh ȳh e X̂st =
h=1
Nh x̄h
h=1
stimatori non distorti dei totali Y e X delle variabili Y e X ottenuti
con la strategia (campionamento casuale stratificato, stimatore HT)
Ŷst,qc =
Ŷst
X = R̂st X
X̂st
• Formule approssimate per V (Ŷst,qc ), quando n → N, e relativi
stimatori
à L
X
M SE(Ŷst,qc )
'
V (Ŷst,qc ) ' V
!
Ẑhcs
h=1
L
X
=
h=1
L
X
=
V (Ẑhcs )
h=1
X
1
2 1 − fh
[Yhi − RXhi − (Ȳh − RX̄h )]2
Nh
nh Nh − 1
Nh
i=1
Uno stimatore consistente è fornito da:
L
X
V̂ (Ŷst,qc ) '
h=1
dove: R̂st =
Ŷst
X̂st
1
Nh2
X
1
− fh
[yhi − R̂st xhi − (ȳh − R̂st x̄h )]2
n h Nh − 1
nh
i=1
Una formulazione alternativa per V (Ŷst,qc ) è:
L
X
V (Ŷst,qc ) '
Nh2
h=1
1 − fh 2
[Sh (Y) − 2RSh (X , Y) + R2 Sh2 (X )]
nh
in base alla quale lo stimatore consistente può essere scritto come:
L
X
V̂ (Ŷst,qc ) '
Nh2
h=1
1 − fh 2
2 2
[sh (Y) − 2R̂st sh (X , Y) + R̂st
sh (X )]
nh
• Confronti di efficienza fra stimatore per quoziente separato e
stimatore per quoziente combinato
L
X
V (Ŷst,qc ) − V (Ŷst,qs )
'
h=1
Nh2
1 − fh
{(R − Rh )2 Sh2 (X )
nh
+2(Rh − R)[Sh (X , Y) − Rh Sh2 (X )]}
4.1.6 Campionamento casuale stratificato, stimatore per regressione
(a) Stimatore per regressione separato (con βh , h = 1, . . . , L ignoti)
Ŷhcs = Nh ȳh e X̂hcs = Nh x̄h
stimatori non distorti dei totali Yh e Xh delle variabili Y e X nello
strato h, h = 1, . . . , L
L
X
Ŷst,rs =
[Ŷhcs + β̂hcs (Xh − X̂hcs )]
h=1
dove: β̂hcs =
Pnh
(yhi −ȳh )(xhi −x̄h )
i=1
P
nh
2
i=1
(xhi −x̄h )
h = 1, . . . , L
• Formule approssimate per V (Ŷst,rs ), quando nh → Nh ∀h, e relativi
stimatori
L
X
V (Ŷst,rs )
'
Nh2
1 − fh 2
[Sh (Y) − 2βh Sh (X , Y) + βh2 Sh2 (X )]
nh
Nh2
1 − fh 2
Sh (Y)[1 − ρ2h (X , Y)]
nh
h=1
L
X
=
h=1
Uno stimatore consistente è dato da:
L
X
V̂ (Ŷst,rs ) =
h=1
Nh2
1 − fh 2
[sh (Y) − 2β̂hcs sh (X , Y) + β̂h2cs s2h (X )]
nh
(b) Stimatore per regressione combinato (con β ignoto)
L
X
L
X
Nh x̄h
Nh ȳh e X̂st =
Ŷst =
h=1
h=1
stimatori non distorti dei totali Y e X delle variabili Y e X ottenuti
con la strategia (campionamento casuale stratificato, stimatore HT)
Ŷst,rc = Ŷst + β̂c (X − X̂st )
dove: β̂c =
c
C ov(X̂st ,Ŷst )
V̂ (X̂st )
è stimatore non distorto di βc =
Cov(X̂st ,Ŷst )
V (X̂st )
• Formula approssimata per V (Ŷst,rc ), quando n → N, e relativo
stimatore
Se n → N , allora β̂c → βc e si può scrivere:
V (Ŷst,rc ) ' V (Ŷ ‘st,rc )
=
V (Ŷst ) − 2βc Cov(X̂st , Ŷst ) + βc2 V (X̂st )
L
X
=
h=1
Nh2
1 − fh 2
[Sh (Y) − 2βc Sh (X , Y) + βc2 Sh2 (X )]
nh
Uno stimatore consistente è dato da:
L
X
V̂ (Ŷst,rc ) =
h=1
Nh2
1 − fh 2
[sh (Y) − 2β̂c sh (X , Y) + β̂c2 s2h (X )]
nh
• Confronti di efficienza fra stimatore per regressione separato e
stimatore per regressione combinato
L
X
V (Ŷst,rc ) − V (Ŷst,rs ) '
h=1
Nh2
1 − fh 2
Sh (X )(βh − βc )2
nh
4.2 Piani di campionamento a grappoli, con numerosità fissata n
• N numero di grappoli in P
• n numero di grappoli in s
• Mh numero di unità elementari nel grappolo h;
PN
• M =
h=1
Mh numero di unità elementari in P
h=1
Mh numerosità campionaria di unità elementari
Pn
• m=
• Yhi valore di Y assunto dall’unità i del grappolo h
• yhi valore di Y assunto dall’unità i del grappolo h in s
• Yh. =
• yh. =
PMh
i=1
PMh
i=1
Yhi totale di Y nel grappolo h
yhi totale del grappolo h in s
PN
Poichè: Y =
Y , si possono applicare i risultati visti in preceh=1 h.
denza, considerando come variabile di indagine T , totale di grappolo
di Y, ed equiparando il grappolo all’unità elementare.
• Yh. = Th , h = 1, . . . , N
• T =
in P
PN
h=1
PN
• T̄ =
• t=
h=1
Pn
Pn
• t̄ =
Yh.
N
h=1
h=1
n
Yh. = Y totale dei totali di grappolo = totale di Y
media dei totali di grappolo in P
yh. totale campionario dei totali di grappolo
yh.
media campionaria dei totali di grappolo
4.2.1 Campionamento casuale di grappoli, stimatore di HorvitzThompson
Ŷg
=
V (Ŷg )
=
V̂ (Ŷg )
=
N
n
n
X
yh. = N t̄
h=1
PN
(Yh. − T̄ )2
− f1
h=1
N
n P N −1
n
(y − t̄)2
1
−
f
1
h=1 h.
2
N
n
n−1
21
Utile quando non si conoscono le dimensioni di tutti i grappoli in
P, ovvero si assume che i totali di grappolo non siano fortemente
correlati con la dimensione dei grappoli (es. reddito familiare e
numero componenti la famiglia)
4.2.2 Campionamento casuale di grappoli, stimatore per quoziente
Se:
• i totali di grappolo Yh. sono correlati positivamente con le
dimensioni Mh (es. consumo familiare e numero componenti
la famiglia)
• n→N
si può utilizzare la dimensione dei grappoli come variabile ausiliaria,
X = M, e ricorrere allo stimatore per quoziente:
Ŷg,q
=
V (Ŷg,q )
'
V̂ (Ŷg,q )
'
Pn
yh.
Pnh=1 M = M ȳ
Mh
h=1
PN
(Yh. − Mh Ȳ )2
− f1
h=1
N
n P
N −1
n
(y − Mh ȳ)2
h=1 h.
2 1 − f1
N
n
n−1
21
Osservazioni
• se Mh = M̄ , ∀h, Ŷg,q = Ŷg
• R=
Y
M
= Ȳ , quindi in questo contesto Zh = Yh. − Ȳ Mh
4.2.3 Campionamento casuale di grappoli con probabilità variabile
e con ripetizione, stimatore di Hansen-Hurwitz
Se i totali di grappolo Yh. sono correlati positivamente con le ampiezze Mh , cioè se vi è una relazione di (approssimata) proporzionalità
fra T e M, si può utilizzare la dimensione dei grappoli come variabile di disegno per la determinazione di probabilità variabili di
estrazione dei grappoli stessi:
Ph =
Mh
M
Se le dimensioni dei grappoli Mh non sono note, si può ricorrere
ad una variabile ausiliaria X , nota per tutti i grappoli e fortemente
correlata con M, come misura di ampiezza, per determinare le
probabilità variabili di estrazione dei grappoli:
Ph =
Xh
X
In ambedue i casi si utilizza lo stimatore lineare non distorto di
Hansen-Hurwitz.
Si assuma Mh nota ∀h, e quindi Ph =
Ŷgpv
=
n
1 X yh.
n
h=1
1X
Ph
n
N
V (Ŷgpv )
=
ph
h=1
Ã
=M
³
=
n
Yh.
−Y
Ph
X
1
n(n − 1)
n
V̂ (Ŷgpv )
n
1X
h=1
³
Mh
.
M
!
ȳh.
h=1
´2
M
=
n
yh.
− Ŷgpv
ph
N
X
´2
Mh (Ȳh. − Ȳ )2
h=1
X
M2
=
n(n − 1)
n
h=1
µ
Ŷgpv
ȳh. −
M
¶2
4.2.4 Omogeneità entro i grappoli e confronti di efficienza
• Misura di omogeneità (o somiglianza) entro i grappoli
PN
S12
S22
=
=
σ̄ 2 =
h=1
PN
(Yh. −T̄ )2
N −1
Mh
h=1 M
2
N −1 S1
N M̄ 2
+
PM h
i=1
misura di variabilità di Y fra i grappoli
(Yhi −Ȳh. )2
Mh −1
M̄ −1 2
S2
M̄
media ponderata delle misure di
variabilità di Y entro i grappoli
misura di variabilità complessiva
di Y nella popolazione
PN
(dove: M̄ = N1
Mh
h=1
dimensione media dei grappoli)
Caso particolare: Mh = M̄ , ∀h ⇒ σ̄ 2 = σ 2
• in caso di massima omogeneità entro i grappoli:
S2
Yhi = Ȳh. ∀h, i ⇒ S22 = 0 ⇒ σ̄ 2 = NN−1 M̄12
• in caso di minima omogeneità entro i grappoli:
S12 = 0 ⇒ Yh. = T̄ ∀h ⇒ σ̄ 2 = M̄M̄−1 S22
Questo suggerisce come misura di omogeneità entro i grappoli:
S2
N −1 1
− σ̄ 2
S22
N M̄ 2
δ =1− 2 =
σ̄
(M̄ − 1)σ̄ 2
• in caso di massima omogeneità entro i grappoli:
S22 = 0 ⇒ δ = 1
• in caso di minima omogeneità entro i grappoli:
S22 = M̄M̄−1 σ̄ 2 ⇒ δ = −1/(M̄ − 1)
Caso particolare: Mh = M̄ ,
correlazione intragrappoli:
∀h
PN PM̄ PM̄
ρig =
h=1
i=1
j6=i
⇒ δ = ρig , coefficiente di
(Yhi − Ȳ )(Yhj − Ȳ )
N M̄ (M̄ − 1)σ 2
• Confronto di efficienza fra campionamento casuale a grappoli e
campionamento casuale semplice
V (Ŷg ) = N 2
1 − f1 2
1 − f1 N M̄ 2
S1 = N 2
σ̄ [1 + (M̄ − 1)δ]
n
n N −1
Caso particolare: Mh = M̄ , ∀h ⇒
V (Ŷg ) = N 2
1 − f1 N M̄ 2
1 − f1 2
S1 = N 2
σ [1 + (M̄ − 1)ρig ]
n
n N −1
Se: Mh = M̄ , ∀h e N → ∞:
Deff(Ŷg ) ' 1 + (M̄ − 1)ρig
cioè: il campionamento casuale a grappoli è più o meno efficiente
del campionamento casuale semplice a seconda che il coefficiente
di correlazione intragrappoli sia negativo o positivo.
• Confronti di efficienza fra stimatori di Horvitz-Thompson, per
quoziente e di Hansen-Hurwitz
V (Ŷg )
V (Ŷg,q )
V (Ŷgpv )
=
N
21
21
'
N
=
M
n
− f1
n
− f1
n
N
X
h=1
PN
h=1
PN
h=1
(Mh Ȳh. − T̄ )2
N −1
Mh2 (Ȳh. − Ȳ )2
N −1
N2
2
Mh (Ȳh. − Ȳ ) '
n
PN
h=1
M̄ Mh (Ȳh. − Ȳ )2
N −1
• Ŷg e Ŷg,q beneficiano del fattore 1 − f1
• Ŷg,q è più efficiente di Ŷg se ρ(M, T ) >
CV (M)
2CV (T )
• confronti fra Ŷg,q e Ŷgpv necessitano di ipotesi plausibili sulla
relazione fra (Ȳh. − Ȳ ) e Mh , h = 1, . . . , N
4.2.4 Campionamento casuale sistematico, stimatore di HorvitzThompson
Campionamento sistematico ⇐⇒ campionamento casuale da una
popolazione di N = k grappoli di uguale dimensione Mh = M̄ = n,
con estrazione di n = 1 grappoli
Denotando: Yh+(i−1)k = Yhi , si possono adattare i risultati visti
per la strategia (campionamento casuale a grappoli, stimatore di
Horvitz-Thompson) alla strategia (campionamento casuale sistematico, stimatore di Horvitz-Thompson). In particolare:
Deff(V (Ŷsis )) = 1 + (n − 1)ρig
cioè: il campionamento casuale sistematico è più o meno efficiente
del campionamento casuale semplice a seconda che il coefficiente di
correlazione intragrappoli sia negativo o positivo; ha circa la stessa
efficienza se ρig ' 0, cioè se, come ci si attende se non vi sono
periodicità particolari nella popolazione, la partizione indotta dal
campionamento sistematico è vicina a quella casuale.
Fly UP