lucidi_campionamento - Dipartimento di Scienze Statistiche e

by user

on 06 июля 2016

Category: Documents

>> Downloads: 5

views

Report

Comments

Description

Download lucidi_campionamento - Dipartimento di Scienze Statistiche e

Transcript

lucidi_campionamento - Dipartimento di Scienze Statistiche e

STATISTICA 4
(per il Corso di Laurea in Scienze Statistiche ed Economiche)
a.a. 2002-03
MODULO 3
Campionamento da popolazioni finite
G. Lovison
Dipartimento di Scienze Statistiche e Matematiche S.Vianelli
Marzo-Maggio 2003
1. Introduzione
Indagine campionaria: studio che utilizza informazioni parziali, su
un sottoinsieme di unità, per inferire sull’intero insieme cui queste
appartengono.
Indagine campionaria su popolazioni finite =⇒ motivata da:
• costi
• tempi
• vincoli tecnici
• vincoli etici
ha una lunga storia:
• prime esperienze nei secoli XVII e XVIII
• sondaggi d’opinione, in particolare elettorali, dal 1824 negli
U.S.A.
• dibattito sul metodo rappresentativo (1895-1903)
• verso una teoria statistica del campionamento da popolazioni
finite: Bowley(1926), Neyman(1934), il dibattito NeymanGini
• il dopoguerra:
Sukhatme ....
Yates, Cochran, Hansen, Hurwitz, Madow,
1.1 Concetti e definizioni fondamentali
• popolazione finita P
insieme di N unità identificabili, portatrici di una o più variabili di indagine:
P = {1, 2, . . . , i, . . . , N }
N < ∞ è la dimensione della popolazione
1, 2, . . . , i, . . . , N sono le etichette delle unità
• variabili di indagine Y
Unità
Valori di Y
1
Y1
2
Y2
...
...
i
Yi
...
...
N
YN
• campione s
sottoinsieme di n unità estratte da P con un qualsiasi schema
di campionamento probabilistico:
s = {i1 , i2 , . . . , ij , . . . , in }
n < N è la dimensione campionaria
ij è l’etichetta della j-esima unità campionaria, cioè dell’unità
di P selezionata alla j-esima estrazione, per j = 1, . . . , n
La dimensione campionaria può essere variabile da campione
a campione estratto da P, e viene allora denotata con n(s).
Distinzioni importanti:
– campione non ordinato: in s sono rilevanti solo le etichette presenti, ma non l’ordine
– campione ordinato: in s sono rilevanti sia le etichette
presenti, sia l’ordine
– campione con ripetizione: l’unità, dopo essere stata estratta, viene reinserita in P, cosicchè la sua etichetta
può essere presente in s più di una volta
– campione senza ripetizione: l’unità, una volta estratta,
non viene reinserita nella popolazione, cosicchè la sua
etichetta può essere presente in s una sola volta
• dati campionari d
insieme delle informazioni desumibili dal campione, riguardo
(i) all’identità delle unità selezionate; (ii) all’ordine di selezione; (iii) alla realizzazione delle variabili d’indagine:
d = [(i1 , Yi1 ), (i2 , Yi2 ), . . . , (ij , Yij ), . . . , (in , Yin )]
Unità campionaria
Etichetta
Valori di Y
1
i1
y1
2
i2
y2
...
...
...
j
ij
yj
...
...
...
n
in
yn
• spazio campionario S
insieme di tutti i campioni distinti che si possono formare con
le unità di P con la tecnica di campionamento prescelta
La cardinalità di S, | S |, dipende ovviamente dalla tecnica
impiegata per formare il campione. In particolare:
– campione ordinato senza ripetizione:
| S |= DN,n = N (N − 1)(N − 2) · · · (N − n + 1)
– campione ordinato con ripetizione:
(r)
| S |= DN,n
= Nn
– campione non ordinato senza ripetizione:
³
| S |= CN,n =
N
n
´
– campione non ordinato con ripetizione:
| S |=
(r)
CN,n
³
=
N +n−1
n
´
• schema di campionamento
insieme delle procedure operative utilizzate per estrarre il campione s da P
• piano (o disegno) di campionamento p(s)
misura di probabilità associata ad ogni campione s ∈ S:
X
p(s) ≥ 0,
p(s) = 1
s∈S
Le probabilità p(s) possono essere variabili al variare di s (campionamento a probabilità variabili) oppure costanti (campionamento a probabilità costanti).
• variabili di disegno (ausiliarie) X
variabili (eventualmente) utilizzate per la pianificazione del
campionamento e/o per l’inferenza sulle variabili d’indagine
Unità
Valori di X
1
X1
2
X2
...
...
i
Xi
...
...
N
XN
• probabilità di inclusione del primo ordine
probabilità che una unità venga selezionata a far parte del
campione:
X
πi =
p(s)
s∈Ai
dove Ai ∈ S è l’insieme dei campioni dello spazio campionario
S che contengono l’unità i
Si può anche scrivere:
X
πi =
δi p(s) = E(δi )
s∈S
dove:
n
δi =
1
0
se i ∈ s
altrimenti
• probabilità di inclusione del secondo ordine
probabilità che una coppia di unità venga selezionata a far
parte del campione:
X
πij =
p(s)
s∈Aij
dove Aij ∈ S è l’insieme dei campioni dello spazio campionario
S che contengono entrambe le unità i e j.
Si può anche scrivere:
X
πij =
δi δj p(s) = E(δi δj )
s∈S
• frequenza attesa di inclusione
nel campionamento con ripetizione, numero medio di volte in
cui una unità si presenta nel campione:
X
φi =
γi p(s) = E(γi )
s∈S
dove: γi v.c. numero di volte in cui l’unità i appare in s
Nota: γi = δi , e quindi πi = φi per campionamenti senza
ripetizione.
• piano di campionamento autoponderante
p(s) | πi = π ∀i per campionamenti senza ripetizione
ovvero
p(s) | φi = φ ∀i per campionamenti con ripetizione
1.2 Parametri nella popolazione e inferenza su popolazioni finite
• parametro θ
(a) caso univariato: Y variabile univariata (continua, discreta o
categoriale)
Obbiettivo dell’inferenza ⇒ descrizione della distribuzione di
Y in P mediante parametri sintetici (inferenza descrittiva):
• totale: Y =
PN
i=1
Yi
• media aritmetica: Ȳ =
• varianza S 2 =
1
N −1
PN
1
N
i=1
PN
i=1
Yi
(Yi − Ȳ )2
• deviazione standard S =
q
1
N −1
• coefficiente di variazione CV =
PN
i=1
(Yi − Ȳ )2
S
Ȳ
• momento (ordinario) di ordine r Mr =
• momento centrale di ordine r M̄r =
• ecc. ecc.
1
N
1
N
PN
PN
i=1
i=1
Yir
(Yi − Ȳ )r
(b) caso multivariato: Y variabile multivariata (a componenti tutte
continue, discrete, categoriali oppure miste)
Obbiettivi dell’inferenza
⇒ descrizione della distribuzione delle componenti di Y in P
mediante parametri sintetici (inferenza descrittiva)
⇒ analisi delle relazioni fra le componenti di Y in P, mediante
parametri sintetici (inferenza analitica):
• rapporto fra totali R =
Y1
Y2
• covarianza Cov(Y1 , Y2 ) =
1
N
PN
i=1
(Y1i − Y¯1 )(Y2i − Y¯2 )
• coefficiente di correlazione lineare r(Y1 , Y2 ) =
• coefficiente di regressione bY1 Y2 =
Cov(Y1 ,Y2 )
SY2
2
• ecc. ecc.
Cov(Y1 ,Y2 )
SY1 SY2
Procedure inferenziali: enfasi sulla stima puntuale
• stimatore θ̂
funzione dei dati campionari costruita al fine di stimare θ:
θ̂ = T (d)
il valore assunto da θ̂ quando viene calcolato sul campione
effettivamente osservato viene denominato stima:
θ̂ = t(d) ∈ T
• distribuzione campionaria di uno stimatore P r{θ̂ = t}, t ∈ T
distribuzione di probabilità dello stimatore θ̂ indotta dal piano
di campionamento p(s):
X
P r{θ̂ = t} =
p(s)
s∈At
dove At ∈ S è l’insieme dei campioni dello spazio campionario
S per i quali vale l’uguaglianza θ̂ = t
• proprietà degli stimatori
– non distorsione
– MSE
– efficienza
– consistenza
• strategia campionaria (p(s),θ̂)
• confronti fra strategie
– confronti di efficienza fra stimatori (a parità di disegno)
– effetto del disegno (a parità di stimatore)
Vs (θ̂)
def f (s) =
a parità di n
Vcs (θ̂)
2. Piani di campionamento
2.1 Campionamenti a probabilità costante
2.1.1 Campionamento casuale semplice (senza ripetizione)
Schema di campionamento:
estrazione casuale di n unità, senza reinserimento dell’unità estratta, e con probabilità di estrazione Pi costante per ogni unità.
Piano di campionamento:
S = insieme di tutti i campioni non ordinati senza ripetizione
³
⇒ | S |= CN,n =
p(s)
´
N
n
=
=
n n−1 n−2
1
...
N N − 1N − 2
N −n+1
1
1
³
´=
|S|
N
n
Probabilità di inclusione:
³
X
πi =
N −1
n−1
³
p(s) =
s∈Ai
n
N
frazione sondata
³
X
πij =
p(s) =
s∈Aij
N
n
N −2
n−2
³
N
n
´
´
´
=
n
N
´
=
n(n − 1)
N (N − 1)
2.1.2 Campionamento casuale semplice (con ripetizione)
Schema di campionamento:
estrazione casuale di n unità, con reinserimento dell’unità estratta,
e con probabilità di estrazione Pi costante per ogni unità.
Piano di campionamento:
S = insieme di tutti i campioni ordinati con ripetizione
(r)
⇒ | S |= DN,n
= Nn
n
Y
p(s) =
i=1
1
1
1
= n =
N
N
|S|
Probabilità di inclusione:
X
πi =
X
πij =
s∈Aij
s∈Ai
³
1
p(s) = 1 − 1 −
N
³
1
p(s) = 1 − 2 1 −
N
´n
´n
³
2
+ 1−
N
´n
2.1.3 Campionamento casuale stratificato
Strati 1, 2, . . . , h, . . . , L : sottopopolazioni in cui viene divisa la popolazione P sulla base di variabili di stratificazione X
• obbiettivo ⇒ le unità appartenenti ad uno strato sono più
omogenee, con riferimento a Y rispetto alle unità appartenenti
agli altri strati.
•
PL
h=1
Nh = N
Schema di campionamento:
1. suddivisione della popolazione in L strati
di L campioni casuali sem2. estrazione, in modo indipendente,
PL
plici di numerosità nh , h=1 nh = n, con o senza reinserimento, uno da ciascuno strato
Piano di campionamento:
S = insieme di tutti i campioni non ordinati senza ripetizione
estraibili negli L strati
³
⇒ | S |=
p(s) =
1
|S|
=
N1
n1
³
´³
N1
n1
´
N2
n2
´³
³
...
1
N2
n2
´ ³
...
NL
nL
NL
nL
´
´
Probabilità di inclusione:
πhi =
nh
Nh
(
πhi,h‘i‘ =
h = 1, . . . , L
nh (nh −1)
Nh (Nh −1)
se h = h‘
nh nh‘
Nh Nh‘
se h 6= h‘
2.1.4 Campionamento casuale a grappoli
Grappoli: gruppi di unità, legate da vincoli di affinità, somiglianza,
contiguità, ecc. in cui la popolazione P è suddivisa in modo naturale
o artificiale.
• N numero di grappoli in P
• n numero di grappoli in s
• Mh numero di unità elementari nel grappolo h;
• M =
• m=
PN
Mh numero di unità elementari in P
h=1
Pn
h=1
Mh numerosità campionaria di unità elementari
⇒ in generale è una v.c.
Schema di campionamento:
1. estrazione, senza reinserimento, di un campione casuale semplice di n grappoli
2. inserimento nel campione finale di tutte le unità elementari
appartenenti ai grappoli estratti
Piano di campionamento:
S = insieme di tutti i campioni non ordinati, senza ripetizione, di
n grappoli
³
⇒ | S |= CN,n =
p(s) =
1
|S|
=
³
1
N
n
N
n
´
´
Probabilità di inclusione:
πhi =
(
πhi,h‘i‘ =
n
N
n
N
se h = h‘
n(n−1)
N (N −1)
se h 6= h‘
2.1.5 Campionamento casuale sistematico
• N = nk, k ∈ N+
• se
N
n
= k∗ 6∈ N+ , si assume k = [k∗ ]
• le N unità in P sono organizzate in una lista sequenziale
Schema di campionamento:
1. estrazione casuale di un numero di partenza r, r ∈ N+ , r ≤ k,
con probabilità costante di estrazione per tutti i numeri interi
r, 1 ≤ r ≤ k
2. selezione di n unità, con passo di campionamento k, individuate sequenzialmente nella lista:
s = r, r + k, r + 2k, . . . , r + (j − 1)k, . . . , r + (n − 1)k
Il campionamento sistematico può essere visto come un caso particolare di campionamento casuale a grappoli:
grappolo 1
..
.
grappolo r
..
.
grappolo k
=
1,
1 + k,
1 + 2k,
=
r,
r + k,
r + 2k,
=
k,
2k,
3k,
...,
..
.
...,
..
.
...,
1 + (n − 1)k
r + (n − 1)k
nk
Campionamento sistematico ⇐⇒ campionamento casuale da una
popolazione di N = k grappoli di uguale dimensione Mh = n, con
estrazione di n = 1 grappoli
Piano di campionamento:
S = insieme di k campioni ordinati senza ripetizione
⇒ | S |= k
p(s) =
1
|S|
=
1
k
Probabilità di inclusione:
πi =
½
πij =
1
k
1
k
se i, j appartengono allo stesso grappolo
0
altrimenti
2.1.4 Campionamento casuale a due stadi
• N numero di unità primarie (o unità di primo stadio) in P
• n numero di unità primarie in s
• Mh numero di unità elementari (o unità di secondo stadio)
nell’unità primaria h
• mh numero di unità elementari estratte dall’unità primaria h
• M =
• m=
PN
h=1
Mh numerosità di unità elementari in P
h=1
mh numerosità campionaria di unità elementari
Pn
• f1 frazione di campionamento di primo stadio
• f2h =
mh
Mh
frazione di campionamento di secondo stadio
Schema di campionamento:
1. estrazione, senza reinserimento, di un campione casuale semplice di n unità primarie
2. estrazione, senza reinserimento, di un campione casuale semplice di mh unità elementari in ogni unità primaria h estratta
al primo stadio
Probabilità di inclusione:
n mh
= f1 f2h
N Mh
Campionamento autoponderante solo se la frazione di campionamento al secondo stadio è costante
πhi = πh πi|h =


πhi,h‘i‘ =

n mh (mh −1)
N Mh (Mh −1)
se h = h‘
n(n−1) mh mh‘
N (N −1) Mh Mh‘
se h 6= h‘
2.2 Campionamenti a probabilità variabile
X variabile ausiliaria, nota per tutte le unità in P, e che si suppone
in relazione (approssimata) di proporzionalità con la variabile di
indagine Y
Xi misura di ampiezza dell’unità i
Ai =
Xi
X
misura di ampiezza normalizzata
2.2.1 Campionamento con probabilità proporzionali alla dimensione
Campionamento basato sull’estrazione, con o senza ripetizione, di
n unità con probabilità Pi di estrazione proporzionali ad una misura
di ampiezza
• estrazione di un campione di dimensione n = 1
1. Qi =
Pi
A =
j=1 j
Pi
Xi
j=1 X
2. si estrae u ∼ U (0, 1)
3. si inserisce nel campione l’unità i se Qi−1 ≤ u ≤ Qi
Risulta: Pi = Pr{i ∈ s} = Pr{Qi−1 ≤ U ≤ Qi } = Qi − Qi−1 = Ai
• estrazione di un campione di dimensione n, con ripetizione
Si ripete n volte, in modo indipendente, il procedimento precedente
Probabilità di inclusione:
πi = 1 − (1 − Pi )n
πij = 1 − (1 − Pi )n − (1 − Pj )n + (1 − Pi − Pj )n
• estrazione di un campione di dimensione n, senza ripetizione
Problema più complesso: numerosissime tecniche diverse
Criteri di valutazione: basati sulle proprietà delle probabilità
di inclusione
1. proporzionalità rispetto alle misure di ampiezza Xi :
πi = nPi ∝ Xi
2. πij > 0
∀i, j
3. πi πj − πij ≥ 0
∀i, j
4. πij /πi πj ≥ c, con 1 ≥ c À 0
Alcune tecniche (C-H-M, pagg. 89-92)
1. Yates, Grundy (1953)
2. Brewer (1975)
3. Sampford (1967)
4. Rao, Hartley, Cochran (1962)
5. Hartley, Rao (1962)
3. Stimatori per parametri di popolazioni finite
Ci concentreremo in particolare sul totale Y , perchè:
• è spesso il parametro di diretto interesse, sia per variabili quantitative (continue: reddito, consumi, produzione; discrete:
popolazione, numero di componenti il nucleo familiare, ecc.)
sia per variabili categoriali (livello di istruzione, intenzione di
voto, ecc.)
• molti altri parametri di interesse sono funzione del totale (ad
es. la media o la proporzione) o sono esprimibili come totali
di variabili trasformate (ad es. i momenti, e in particolare la
varianza)
3.1 Stimatori senza informazioni ausiliarie: stimatori lineari
n
X
θ̂ = T (d) =
wi yi
i=1
pesi wi ⇒ possono dipendere dall’etichetta dell’unità oppure da s
3.1.1 Stimatori lineari non distorti: lo stimatore di Horvitz-Thompson
Campionamenti senza ripetizione di campioni di ampiezza fissata
n.
Ŷ
=
n
X
yi
i=1
V (Ŷ )
=
N
X
1 − πi
i=1
n
V̂ (Ŷ )
=
=
=
πi2
N
X
1 − πi
i=1
n
d
C
ov(X̂, Ŷ )
πi
X 1 − πi
i=1
Cov(X̂, Ŷ )
πi
πi
X 1 − πi
i=1
πi2
Yi2 +
N
N µ
X
X
i=1 j6=i
n
n
yi2 +
XXµ
i=1 j6=i
¶
πij
−1
πi πj
1
1
−
πi πj
πij
N
N µ
X
X
Xi Yi +
i=1 j6=i
n
n
XXµ
xi y i +
i=1 j6=i
Yi Yj
¶
πij
−1
πi πj
yi yj
¶
1
1
−
πi πj
πij
Osservazioni
• wi =
1
πi
dipendono dalle etichette delle unità
• una formulazione alternativa di V (Ŷ ) è data da:
µ
N
N
X
X
V (Ŷ ) =
(πi πj − πij )
i=1 j>i
Yj
Yi
−
πi
πj
¶2
che può essere stimata correttamente da:
Ṽ (Ŷ ) =
n
n µ
X
X
πi πj
i=1 j>i
πij
¶µ
−1
stimatore di Yates e Grundy (1953)
yj
yi
−
πi
πj
¶2
Xi Yj
¶
xi y j
• πij > 0 ⇒ esistenza di stimatori non distorti della varianza
• πi πj − πij ≥ 0 ⇒ non-negatività della varianza e dello stimatore
di Yates e Grundy
• πij /πi πj ≥ c, con 1 ≥ c À 0 ⇒ stabilizzazione dello stimatore di
Yates e Grundy
• se πi = nPi
∀i e se Pi =
Ŷ =
n
X
yi
i=1
πi
Yi
:
Y
n
X
=
i=1
X Yi
yi
=Y
=
nPi
n YYi
n
i=1
3.1.2 Stimatori lineari non distorti: lo stimatore di Hansen-Hurwitz
Campionamenti con ripetizione di campioni di ampiezza fissata n.
probabilità
P
N
di estrazione delle unità in P: {P1 , P2 , . . . , Pi , . . . , PN },
P =1
i=1 i
⇒ possono essere costanti (Pi =
1
)
N
oppure variabili
probabilità di estrazione delle unità in s: {p1 , p2 , . . . , pi , . . . , pn }
1 X yi
n
pi
n
Ŷ
=
i=1
1X
Pi
n
N
V (Ŷ )
=
i=1
³
Yi
−Y
Pi
X
1
n(n − 1)
n
V̂ (Ŷ )
=
i=1
³
´2
yi
− Ŷ
pi
´2
Osservazioni
• wi =
1
pi
• se Pi =
dipendono dalle etichette delle unità
Yi
,
Y
∀i:
Ŷ = Y ;
V (Ŷ ) = 0
i
Quindi, se Pi = X
, e X è una buona misura di ampiezza,
X
cioè se fra X e Y sussiste effettivamente una relazione di
approssimata proporzionalità, lo stimatore di Hansen-Hurwitz
sarà molto efficiente.
3.2 Stimatori con informazioni ausiliarie
3.2.1 Lo stimatore per rapporto
X variabile ausiliaria, nota per tutte le unità in P, e che si suppone
in relazione (approssimata) di proporzionalità con la variabile di
indagine Y
Ŷ e X̂ stimatori non distorti dei totali Y e X
Stimatore per quoziente:
Ŷq =
Ŷ
X
X = Ŷ
X̂
X̂
•E(Ŷq )
Lo stimatore per quoziente è distorto:
· ¸
E(Ŷq ) = XE
Ŷ
X̂
6= X
Y
=Y
X
Tuttavia, la distorsione si annulla per n → N .
Siano:
Ŷ − Y
X̂ − X
e ∆x =
Y
X
Allora, per n → N : E(Ŷq ) ' Y + Y E(∆y − ∆x ) = Y
∆y =
•M SE(Ŷq )
M SE(Ŷq ) = V (Ŷq ) + B 2 (Ŷq )
Ma, se n → N, B 2 (Ŷq ) → 0, quindi: M SE(Ŷq ) ' V (Ŷq )
• Formula approssimata per V (Ŷq )
Sia p(s) un piano di campionamento qualsiasi, con n → N , e sia:
Z = Y − RX
Zi = Yi − RXi , i = 1, . . . , N
Ẑ = Ŷ − RX̂ ⇒ stimatore corretto del totale Z
Allora: V (Ŷq ) ' V (Ẑ)
• si può dedurre V (Ŷq ) da V (Ŷ ) sostituendo Yi − RXi a Yi ,
1, . . . , N
i=
• formulazione alternativa per V (Ŷq ):
V (Ŷq ) ' V (Ŷ ) − 2RCov(X̂, Ŷ ) + R2 V (X̂)
• Efficienza dello stimatore
Intuitivamente: l’impiego dello stimatore per rapporto comporta
un guadagno in efficienza se X̂ e Ŷ sono correlati positivamente.
Se n → N e quindi M SE(Ŷq ) ' V (Ŷq ) e se R > 0, lo stimatore per
quoziente Ŷq è più efficiente dello stimatore non distorto Ŷ se:
ρ(X̂, Ŷ ) >
CV (X̂)
2CV (Ŷ )
Quindi, l’impiego dello stimatore per rapporto comporta un guadagno in efficienza se:
• la correlazione fra X̂ e Ŷ è positiva e forte
• la variabilità di X̂, misurata in termini di CV (X̂) non è sostanzialmente superiore a quella di Ŷ
3.2.2 Lo stimatore per regressione
X variabile ausiliaria, nota per tutte le unità in P, e che si suppone in
relazione (approssimativamente) lineare con la variabile di indagine
Y:
Y = α + βX
Ŷ e X̂ stimatori non distorti dei totali Y e X
L’idea che sta alla base dello stimatore per regressione è di ’aggiustare’ Ŷ additivamente con una quantità proporzionale alla diffe.
renza X − X̂ invece che moltiplicativamente con il rapporto X
X̂
Caso a) Coefficiente di regressione β noto
Ŷ ‘r
E(Ŷ ‘r )
V (Ŷ ‘r )
=
=
=
Ŷ + β(X − X̂)
Y
V (Ŷ ) − 2βCov(X̂, Ŷ ) + β 2 V (X̂)
V̂ (Ŷ ‘r )
=
d
V̂ (Ŷ ) − 2β C
ov(X̂, Ŷ ) + β 2 V̂ (X̂)
Una formulazione alternativa di V (Ŷ ) è data da:
V (Ŷ ‘r ) = V (Ŷ )[1 − ρ2 (X̂, Ŷ )]
⇒ lo stimatore per regressione (con β noto) è sempre più efficiente
di Ŷ , qualsiasi sia il segno della correlazione fra X̂ e Ŷ , e tanto più
efficiente quanto più forte è la correlazione fra X̂ e Ŷ .
Caso b) Coefficiente di regressione β stimato
β̂ =
d
C
ov(X̂, Ŷ )
V̂ (X̂)
Ŷr = Ŷ + β̂(X − X̂)
•E(Ŷr )
Lo stimatore per regressione con β stimato è distorto:
B(Ŷr ) = −Cov(X̂, β̂)
Siano:
∆y =
Ŷ − Y
,
Y
∆x =
X̂ − X
X
e
Allora: Ŷr = Y + Y ∆y − βX∆x − βX∆x ∆β
e: E(Ŷr ) = Y − Cov(X̂, β̂)
•M SE(Ŷr )
M SE(Ŷr ) = V (Ŷr ) + B 2 (Ŷr )
Ma, se n → N, B 2 (Ŷr ) → 0, quindi:
M SE(Ŷr ) ' V (Ŷr )
∆β =
β̂ − β
β
• Formula approssimata per V (Ŷr )
Se n → N, βX∆x ∆β → 0 e si può scrivere:
V (Ŷr ) ' V (Y ∆y − βX∆x ) = V (Ŷ ) − 2βCov(X̂, Ŷ ) + β 2 V (X̂)
cioè: V (Ŷr ) ' V (Ŷ ‘r )
Uno stimatore per V (Ŷr ) è rappresentato da:
d
V̂ (Ŷr ) = V̂ (Ŷ ) − 2β̂ C
ov(X̂, Ŷ ) + β̂ 2 V̂ (X̂)
• Efficienza dello stimatore
• confronto con Ŷ
Poichè, se n → N , V (Ŷr ) ' V (Ŷ ‘r ) e Ŷ ‘r è sempre almeno
tanto efficiente quanto Ŷ , se ne deduce che, per numerosità
campionarie sufficientemente elevate, anche Ŷr è almeno tanto
efficiente quanto Ŷ
• confronto con Ŷq
se n → N,
V (Ŷq ) − V (Ŷr ) ' V (X̂)(R − β)2
cioè, per numerosità campionarie sufficientemente elevate Ŷr
è sempre più efficiente di Ŷq , a meno che β = R, nel qual caso
i due stimatori coincidono
4. Strategie campionarie e confronti di efficienza
4.1 Piani di campionamento di unità elementari, con numerosità
fissata n
Trattiamo solo il caso di campionamenti senza ripetizione.
4.1.1 Campionamento casuale semplice, stimatore di Horvitz-Thompson
Ŷcs
V (Ŷcs )
=
=
n
X
yi
n
N
i=1
N
X
1−
i=1
=
V̂ (Ŷcs )
=
=
N
=
n
N2
n
N
n
N
yi = N ȳ
i=1
Yi2 +
N
N
X
X
n
N
( Nn )2
i=1
Ã
i=1 j6=i
1−f 2
S
n
n
X
1−
N2
n
X
yi2 +
n
n
X
X
i=1 j6=i
n(n−1)
N (N −1)
( Nn )2
!
−1
Yi Yj
!
Ã
1
( Nn )2
−
1
n(n−1)
N (N −1)
yi yj
1−f 2
s
n
Osservazioni
Pn
• Ŷcs = Nn
y
⇒ stimatore per espansione:
i=1 i
(totale campionario) × (coefficiente di espansione)
• (1 − f ) = NN−n
⇒ correzione per popolazioni finite: tende a
1 quando n ¿ N , cioè quando la frazione di campionamento
è trascurabile (ovvero la popolazione è infinita)
• covarianza fra gli stimatori di due totali X̂cs e Ŷcs
X1−
N
Cov(X̂cs , Ŷcs )
=
i=1
=
N2
n
N
n
N
XX
N
N
Xi Yi +
i=1 j6=i
Ã
n(n−1)
N (N −1)
( Nn )2
!
−1
Xi Yj
1−f
S(X , Y)
n
• stima della media
1X
1
ˆ
Ycs =
yi = ȳ
N
n
n
ˆ cs
Ȳ
=
i=1
ˆ cs )
V (Ȳ
=
ˆ cs )
V̂ (Ȳ
=
N − n σ2
1−f 2
S =
n
N −1 n
1−f 2
s
n
ˆ cs ) → σ2 , l’usuale varianza dello stiSe N → ∞, allora V (Ȳ
n
matore media campionaria in popolazioni infinite (ovvero nel
campionamento casuale semplice con ripetizione).
• stima di parametri di variabili categoriali
n
Y = {A, B}
con Yi =
Parametri di interesse: Y
Ȳ
1
0
se i ha modalità A
se i ha modalità B
=
=
NA
P
=
1 X
(Yi − Ȳ )2
N −1
N
S2
i=1
=
N
P (1 − P )
N −1
Stimatori e loro varianze:
Ŷcs
=
ˆ cs
Ȳ
=
ˆ cs )
V (Ȳ
=
ˆ cs )
V̂ (Ȳ
=
N
nA
n
Ŷcs
nA
=
=p
N
n
N − n P (1 − P )
N −1
n
1−f
p(1 − p)
n
4.1.2 Campionamento casuale semplice, stimatore per quoziente
Ŷcs
N
=
n
n
X
N
=
n
yi e X̂cs
i=1
stimatori non distorti dei totali Y e X
Stimatore per quoziente:
Ŷcs,q =
n
X
xi
i=1
Pn
yi
Pni=1 X
i=1
xi
• Formule approssimate per V (Ŷcs,q ), quando n → N, e relativi
stimatori
1 X
21 − f
M SE(Ŷcs,q ) ' V (Ŷcs,q ) ' V (Ẑcs ) = N
(Yi − RXi )2
n N −1
N
i=1
Uno stimatore consistente è fornito da:
V̂ (Ŷcs,q ) ' N
dove: R̂ =
Pn
y
Pni=1 i
i=1
xi
21
−f 1 X
(yi − R̂xi )2
n n−1
n
i=1
Una formulazione alternativa per V (Ŷcs,q ) è:
V (Ŷcs,q ) ' N 2
1−f 2
[S (Y) − 2RS(X , Y) + R2 S 2 (X )]
n
in base alla quale lo stimatore consistente può essere scritto come:
V̂ (Ŷcs,q ) ' N 2
1−f 2
[s (Y) − 2R̂s(X , Y) + R̂2 s2 (X )]
n
dove: s2 (Y) e P
s2 (X ) sono le varianze campionarie di Y e X , e
n
1
(y − ȳ)(xi − x̄) è la covarianza campionaria,
s(X , Y) = n−1
i=1 i
stimatore non distorto della covarianza S(X , Y) nella popolazione
• Uno stimatore alternativo per V (Ŷcs,q )
Ṽ (Ŷcs,q ) =
X̄ 2
V̂ (Ŷcs,q )
x̄2
• Efficienza dello stimatore Ŷcs,q
ρ(X̂cs , Ŷcs ) =
Cov(X̂cs , Ŷcs )
p
=
V (X̂cs )V (Ŷcs )
S(X , Y)
= ρ(X , Y)
S(X )S(Y)
Se n → N e quindi M SE(Ŷcs,q ) ' V (Ŷq ) e se R > 0, lo stimatore per
quoziente Ŷcs,q è più efficiente dello stimatore non distorto Ŷcs se:
ρ(X , Y) >
CV (X )
2CV (Y)
4.1.3 Campionamento casuale semplice, stimatore per regressione
Ŷcs
N
=
n
n
X
yi e X̂cs
i=1
N
=
n
stimatori non distorti dei totali Y e X
Caso a) Coefficiente di regressione β =
Ŷ ‘cs,r
=
V (Ŷ ‘cs,r )
=
=
V̂ (Ŷ ‘cs,r )
=
n
X
xi
i=1
Cov(X̂cs ,Ŷcs )
V (X̂cs )
=
S(X ,Y)
S 2 (X )
N ȳ + β(X − N x̄)
1−f 2
N2
[S (Y) − 2βS(X , Y) + β 2 S 2 (X )]
n
1−f 2
N2
S (Y)[1 − ρ2 (X , Y)]
n
1
−
f 2
N2
[s (Y) − 2βs(X , Y) + β 2 s2 (X )]
n
Caso b) Coefficiente di regressione β stimato
β̂cs =
noto
s(X , Y)
=
s2 (X )
Pn
(y − ȳ)(xi − x̄)
i=1 i
Pn
2
i=1
(xi − x̄)
Ŷcs,r = N ȳ + β̂cs (X − N x̄)
• Formula approssimata per V (Ŷr ), quando n → N
V (Ŷcs,r ) ' V (Ŷ ‘cs,r )
Uno stimatore consistente per V (Ŷcs,r ) è dato da:
1−f 2
2 2
s (X )]
V̂ (Ŷcs,r ) = N 2
[s (Y) − 2β̂cs s(X , Y) + β̂cs
n
4.1.4 Campionamento casuale stratificato, stimatore di HorvitzThompson
• L numero di strati in P
• Nh numero di unità elementari nello strato h
• nh numerosità del campione estratto nello strato h
• Yhi valore di Y assunto dall’unità i nello strato h
• yhi valore di Y assunto dall’unità campionaria i nello strato h
• Ȳh =
1
Nh
• ȳh =
1
nh
• Sh2 =
PNh
i=1
Pnh
i=1
PNh
i=1
Yhi media di Y nello strato h
yhi media campionaria di Y nello strato h
(Yhi − Ȳh )2 /(Nh − 1) varianza di Y nello strato h
Pn
h
• s2h =
(y − ȳh )/(nh − 1) varianza campionaria di Y nello
i=1 hi
strato h
Ŷst
=
L
nh
X
X
yhi
nh
N
h
h=1 i=1
L
X
=
Nh ȳh =
h=1
L
X
V (Ŷst )
=
L
X
V (Nh ȳh ) =
h=1
L
X
V̂ (Ŷst )
L
X
=
h=1
h=1
Nh2
1 − fh 2
sh
nh
Ŷhcs
h=1
Nh2
1 − fh 2
Sh
nh
Osservazioni
• Ŷst consiste nella somma di tanti stimatori per espansione
quanti sono gli strati
• se Sh2 = 0 ∀h, V (Ŷst ) = 0
⇒ l’efficienza del campionamento stratificato è legata alla capacità di costruire strati che presentino una variabilità di Y minore di quella propria dell’intera
popolazione.
Scomposizione della devianza:
2
L
X
(N − 1)S =
(Nh −
1)Sh2
L
X
+
h=1
Nh (Ȳh − Ȳ )2
h=1
⇒ la procedura di formazione degli strati deve minimizzare la
devianza entro gli strati, ovvero massimizzare la devianza fra
gli strati
Aspetti da considerare:
– scelta della/e variabile/i di stratificazione
– determinazione di L
– delimitazione degli strati (nel caso di variabili di stratificazione continue)
– allocazione delle unità campionarie, cioè assegnazione di
nh , h = 1, . . . , L
Nel seguito assumiamo l’allocazione proporzionale:
nh = n NNh ,
∀h ⇒ fh =
nh
Nh
=
n
N
= f, costante ∀h
per la quale vale la semplificazione:
1−f
V (Ŷst ) = N 2
n
L
X
Nh
h=1
N
Sh2
• Confronti di efficienza fra campione casuale semplice e campione
casuale stratificato
Se
1
Nh
→0
∀h:
V (Ŷcs ) − V (Ŷst ) ' N
21
−f
n
L
X
Nh
h=1
N
(Ȳh − Ȳ )2 ≥ 0
Quindi: se N1h è trascurabile ∀h, il campionamento stratificato è
sempre almeno tanto efficiente quanto quello casuale semplice, e il
guadagno in efficienza è tanto maggiore quanto più sono diverse le
medie di Y negli strati.
Se
1
Nh
non è trascurabile per qualche h:
"
V (Ŷcs )−V (Ŷst ) = N 2
1−f
n(N − 1)
L
X
h=1
Nh (Ȳh − Ȳ )2 −
1
N
L
X
#
(N − Nh )Sh2
h=1
Questa differenza teoricamente può essere negativa, ma è positiva
non appena si formino gli strati in modo che la variabilità tra gli
strati sia maggiore della variabilità entro gli strati.
4.1.5 Campionamento casuale stratificato, stimatore per quoziente
(a) Stimatore per quoziente separato
Ŷhcs = Nh ȳh e X̂hcs = Nh x̄h
stimatori non distorti dei totali Yh e Xh delle variabili Y e X nello
strato h, h = 1, . . . , L
L
X
Ŷst,qs =
h=1
X
Ŷhcs
Xh =
Ŷhq
X̂hcs
L
h=1
• Formule approssimate per V (Ŷst,qs ), quando nh → Nh , ∀h, e relativi
stimatori
M SE(Ŷst,qs ) ' V (Ŷst,qs )
=
µ
L
X
Ŷh
V
h=1
L
X
'
h=1
¶
cs
X̂hcs
Xh
X
1
2 1 − fh
(Yhi − Rh Xhi )2
Nh
nh Nh − 1
Nh
i=1
dove: Rh = Yh /Xh
Uno stimatore consistente è fornito da:
L
X
V̂ (Ŷst,qs ) '
dove: R̂hcs =
Pnh h=1
yhi
Pni=1
h
i=1
xhi
1
Nh2
− fh 1 X
(yhi − R̂hcs xhi )2
nh nh − 1
nh
i=1
Una formulazione alternativa per V (Ŷst,qs ) è:
L
X
V (Ŷst,qs ) '
Nh2
h=1
1 − fh 2
[Sh (Y) − 2Rh Sh (X , Y) + Rh2 Sh2 (X )]
nh
dove: Sh2 (Y) e Sh2 (X ) sono le varianze di Y e X , e Sh (X , Y) è la
covarianza fra Y e X , nello strato h
in base alla quale lo stimatore consistente può essere scritto come:
L
X
V̂ (Ŷst,qs ) '
h=1
Nh2
1 − fh 2
[sh (Y) − 2R̂hcs sh (X , Y) + R̂h2cs s2h (X )]
nh
dove: s2h (Y) e s2h (X ) sono le varianze campionarie di Y e X , e
sh (X , Y) è la covarianza campionaria, Y e X , nello strato h
(b) Stimatore per quoziente combinato
L
X
Ŷst =
L
X
Nh ȳh e X̂st =
h=1
Nh x̄h
h=1
stimatori non distorti dei totali Y e X delle variabili Y e X ottenuti
con la strategia (campionamento casuale stratificato, stimatore HT)
Ŷst,qc =
Ŷst
X = R̂st X
X̂st
• Formule approssimate per V (Ŷst,qc ), quando n → N, e relativi
stimatori
Ã L
X
M SE(Ŷst,qc )
'
V (Ŷst,qc ) ' V
!
Ẑhcs
h=1
L
X
=
h=1
L
X
=
V (Ẑhcs )
h=1
X
1
2 1 − fh
[Yhi − RXhi − (Ȳh − RX̄h )]2
Nh
nh Nh − 1
Nh
i=1
Uno stimatore consistente è fornito da:
L
X
V̂ (Ŷst,qc ) '
h=1
dove: R̂st =
Ŷst
X̂st
1
Nh2
X
1
− fh
[yhi − R̂st xhi − (ȳh − R̂st x̄h )]2
n h Nh − 1
nh
i=1
Una formulazione alternativa per V (Ŷst,qc ) è:
L
X
V (Ŷst,qc ) '
Nh2
h=1
1 − fh 2
[Sh (Y) − 2RSh (X , Y) + R2 Sh2 (X )]
nh
in base alla quale lo stimatore consistente può essere scritto come:
L
X
V̂ (Ŷst,qc ) '
Nh2
h=1
1 − fh 2
2 2
[sh (Y) − 2R̂st sh (X , Y) + R̂st
sh (X )]
nh
• Confronti di efficienza fra stimatore per quoziente separato e
stimatore per quoziente combinato
L
X
V (Ŷst,qc ) − V (Ŷst,qs )
'
h=1
Nh2
1 − fh
{(R − Rh )2 Sh2 (X )
nh
+2(Rh − R)[Sh (X , Y) − Rh Sh2 (X )]}
4.1.6 Campionamento casuale stratificato, stimatore per regressione
(a) Stimatore per regressione separato (con βh , h = 1, . . . , L ignoti)
Ŷhcs = Nh ȳh e X̂hcs = Nh x̄h
stimatori non distorti dei totali Yh e Xh delle variabili Y e X nello
strato h, h = 1, . . . , L
L
X
Ŷst,rs =
[Ŷhcs + β̂hcs (Xh − X̂hcs )]
h=1
dove: β̂hcs =
Pnh
(yhi −ȳh )(xhi −x̄h )
i=1
P
nh
2
i=1
(xhi −x̄h )
h = 1, . . . , L
• Formule approssimate per V (Ŷst,rs ), quando nh → Nh ∀h, e relativi
stimatori
L
X
V (Ŷst,rs )
'
Nh2
1 − fh 2
[Sh (Y) − 2βh Sh (X , Y) + βh2 Sh2 (X )]
nh
Nh2
1 − fh 2
Sh (Y)[1 − ρ2h (X , Y)]
nh
h=1
L
X
=
h=1
Uno stimatore consistente è dato da:
L
X
V̂ (Ŷst,rs ) =
h=1
Nh2
1 − fh 2
[sh (Y) − 2β̂hcs sh (X , Y) + β̂h2cs s2h (X )]
nh
(b) Stimatore per regressione combinato (con β ignoto)
L
X
L
X
Nh x̄h
Nh ȳh e X̂st =
Ŷst =
h=1
h=1
stimatori non distorti dei totali Y e X delle variabili Y e X ottenuti
con la strategia (campionamento casuale stratificato, stimatore HT)
Ŷst,rc = Ŷst + β̂c (X − X̂st )
dove: β̂c =
c
C ov(X̂st ,Ŷst )
V̂ (X̂st )
è stimatore non distorto di βc =
Cov(X̂st ,Ŷst )
V (X̂st )
• Formula approssimata per V (Ŷst,rc ), quando n → N, e relativo
stimatore
Se n → N , allora β̂c → βc e si può scrivere:
V (Ŷst,rc ) ' V (Ŷ ‘st,rc )
=
V (Ŷst ) − 2βc Cov(X̂st , Ŷst ) + βc2 V (X̂st )
L
X
=
h=1
Nh2
1 − fh 2
[Sh (Y) − 2βc Sh (X , Y) + βc2 Sh2 (X )]
nh
Uno stimatore consistente è dato da:
L
X
V̂ (Ŷst,rc ) =
h=1
Nh2
1 − fh 2
[sh (Y) − 2β̂c sh (X , Y) + β̂c2 s2h (X )]
nh
• Confronti di efficienza fra stimatore per regressione separato e
stimatore per regressione combinato
L
X
V (Ŷst,rc ) − V (Ŷst,rs ) '
h=1
Nh2
1 − fh 2
Sh (X )(βh − βc )2
nh
4.2 Piani di campionamento a grappoli, con numerosità fissata n
• N numero di grappoli in P
• n numero di grappoli in s
• Mh numero di unità elementari nel grappolo h;
PN
• M =
h=1
Mh numero di unità elementari in P
h=1
Mh numerosità campionaria di unità elementari
Pn
• m=
• Yhi valore di Y assunto dall’unità i del grappolo h
• yhi valore di Y assunto dall’unità i del grappolo h in s
• Yh. =
• yh. =
PMh
i=1
PMh
i=1
Yhi totale di Y nel grappolo h
yhi totale del grappolo h in s
PN
Poichè: Y =
Y , si possono applicare i risultati visti in preceh=1 h.
denza, considerando come variabile di indagine T , totale di grappolo
di Y, ed equiparando il grappolo all’unità elementare.
• Yh. = Th , h = 1, . . . , N
• T =
in P
PN
h=1
PN
• T̄ =
• t=
h=1
Pn
Pn
• t̄ =
Yh.
N
h=1
h=1
n
Yh. = Y totale dei totali di grappolo = totale di Y
media dei totali di grappolo in P
yh. totale campionario dei totali di grappolo
yh.
media campionaria dei totali di grappolo
4.2.1 Campionamento casuale di grappoli, stimatore di HorvitzThompson
Ŷg
=
V (Ŷg )
=
V̂ (Ŷg )
=
N
n
n
X
yh. = N t̄
h=1
PN
(Yh. − T̄ )2
− f1
h=1
N
n P N −1
n
(y − t̄)2
1
−
f
1
h=1 h.
2
N
n
n−1
21
Utile quando non si conoscono le dimensioni di tutti i grappoli in
P, ovvero si assume che i totali di grappolo non siano fortemente
correlati con la dimensione dei grappoli (es. reddito familiare e
numero componenti la famiglia)
4.2.2 Campionamento casuale di grappoli, stimatore per quoziente
Se:
• i totali di grappolo Yh. sono correlati positivamente con le
dimensioni Mh (es. consumo familiare e numero componenti
la famiglia)
• n→N
si può utilizzare la dimensione dei grappoli come variabile ausiliaria,
X = M, e ricorrere allo stimatore per quoziente:
Ŷg,q
=
V (Ŷg,q )
'
V̂ (Ŷg,q )
'
Pn
yh.
Pnh=1 M = M ȳ
Mh
h=1
PN
(Yh. − Mh Ȳ )2
− f1
h=1
N
n P
N −1
n
(y − Mh ȳ)2
h=1 h.
2 1 − f1
N
n
n−1
21
Osservazioni
• se Mh = M̄ , ∀h, Ŷg,q = Ŷg
• R=
Y
M
= Ȳ , quindi in questo contesto Zh = Yh. − Ȳ Mh
4.2.3 Campionamento casuale di grappoli con probabilità variabile
e con ripetizione, stimatore di Hansen-Hurwitz
Se i totali di grappolo Yh. sono correlati positivamente con le ampiezze Mh , cioè se vi è una relazione di (approssimata) proporzionalità
fra T e M, si può utilizzare la dimensione dei grappoli come variabile di disegno per la determinazione di probabilità variabili di
estrazione dei grappoli stessi:
Ph =
Mh
M
Se le dimensioni dei grappoli Mh non sono note, si può ricorrere
ad una variabile ausiliaria X , nota per tutti i grappoli e fortemente
correlata con M, come misura di ampiezza, per determinare le
probabilità variabili di estrazione dei grappoli:
Ph =
Xh
X
In ambedue i casi si utilizza lo stimatore lineare non distorto di
Hansen-Hurwitz.
Si assuma Mh nota ∀h, e quindi Ph =
Ŷgpv
=
n
1 X yh.
n
h=1
1X
Ph
n
N
V (Ŷgpv )
=
ph
h=1
Ã
=M
³
=
n
Yh.
−Y
Ph
X
1
n(n − 1)
n
V̂ (Ŷgpv )
n
1X
h=1
³
Mh
.
M
!
ȳh.
h=1
´2
M
=
n
yh.
− Ŷgpv
ph
N
X
´2
Mh (Ȳh. − Ȳ )2
h=1
X
M2
=
n(n − 1)
n
h=1
µ
Ŷgpv
ȳh. −
M
¶2
4.2.4 Omogeneità entro i grappoli e confronti di efficienza
• Misura di omogeneità (o somiglianza) entro i grappoli
PN
S12
S22
=
=
σ̄ 2 =
h=1
PN
(Yh. −T̄ )2
N −1
Mh
h=1 M
2
N −1 S1
N M̄ 2
+
PM h
i=1
misura di variabilità di Y fra i grappoli
(Yhi −Ȳh. )2
Mh −1
M̄ −1 2
S2
M̄
media ponderata delle misure di
variabilità di Y entro i grappoli
misura di variabilità complessiva
di Y nella popolazione
PN
(dove: M̄ = N1
Mh
h=1
dimensione media dei grappoli)
Caso particolare: Mh = M̄ , ∀h ⇒ σ̄ 2 = σ 2
• in caso di massima omogeneità entro i grappoli:
S2
Yhi = Ȳh. ∀h, i ⇒ S22 = 0 ⇒ σ̄ 2 = NN−1 M̄12
• in caso di minima omogeneità entro i grappoli:
S12 = 0 ⇒ Yh. = T̄ ∀h ⇒ σ̄ 2 = M̄M̄−1 S22
Questo suggerisce come misura di omogeneità entro i grappoli:
S2
N −1 1
− σ̄ 2
S22
N M̄ 2
δ =1− 2 =
σ̄
(M̄ − 1)σ̄ 2
• in caso di massima omogeneità entro i grappoli:
S22 = 0 ⇒ δ = 1
• in caso di minima omogeneità entro i grappoli:
S22 = M̄M̄−1 σ̄ 2 ⇒ δ = −1/(M̄ − 1)
Caso particolare: Mh = M̄ ,
correlazione intragrappoli:
∀h
PN PM̄ PM̄
ρig =
h=1
i=1
j6=i
⇒ δ = ρig , coefficiente di
(Yhi − Ȳ )(Yhj − Ȳ )
N M̄ (M̄ − 1)σ 2
• Confronto di efficienza fra campionamento casuale a grappoli e
campionamento casuale semplice
V (Ŷg ) = N 2
1 − f1 2
1 − f1 N M̄ 2
S1 = N 2
σ̄ [1 + (M̄ − 1)δ]
n
n N −1
Caso particolare: Mh = M̄ , ∀h ⇒
V (Ŷg ) = N 2
1 − f1 N M̄ 2
1 − f1 2
S1 = N 2
σ [1 + (M̄ − 1)ρig ]
n
n N −1
Se: Mh = M̄ , ∀h e N → ∞:
Deff(Ŷg ) ' 1 + (M̄ − 1)ρig
cioè: il campionamento casuale a grappoli è più o meno efficiente
del campionamento casuale semplice a seconda che il coefficiente
di correlazione intragrappoli sia negativo o positivo.
• Confronti di efficienza fra stimatori di Horvitz-Thompson, per
quoziente e di Hansen-Hurwitz
V (Ŷg )
V (Ŷg,q )
V (Ŷgpv )
=
N
21
21
'
N
=
M
n
− f1
n
− f1
n
N
X
h=1
PN
h=1
PN
h=1
(Mh Ȳh. − T̄ )2
N −1
Mh2 (Ȳh. − Ȳ )2
N −1
N2
2
Mh (Ȳh. − Ȳ ) '
n
PN
h=1
M̄ Mh (Ȳh. − Ȳ )2
N −1
• Ŷg e Ŷg,q beneficiano del fattore 1 − f1
• Ŷg,q è più efficiente di Ŷg se ρ(M, T ) >
CV (M)
2CV (T )
• confronti fra Ŷg,q e Ŷgpv necessitano di ipotesi plausibili sulla
relazione fra (Ȳh. − Ȳ ) e Mh , h = 1, . . . , N
4.2.4 Campionamento casuale sistematico, stimatore di HorvitzThompson
Campionamento sistematico ⇐⇒ campionamento casuale da una
popolazione di N = k grappoli di uguale dimensione Mh = M̄ = n,
con estrazione di n = 1 grappoli
Denotando: Yh+(i−1)k = Yhi , si possono adattare i risultati visti
per la strategia (campionamento casuale a grappoli, stimatore di
Horvitz-Thompson) alla strategia (campionamento casuale sistematico, stimatore di Horvitz-Thompson). In particolare:
Deff(V (Ŷsis )) = 1 + (n − 1)ρig
cioè: il campionamento casuale sistematico è più o meno efficiente
del campionamento casuale semplice a seconda che il coefficiente di
correlazione intragrappoli sia negativo o positivo; ha circa la stessa
efficienza se ρig ' 0, cioè se, come ci si attende se non vi sono
periodicità particolari nella popolazione, la partizione indotta dal
campionamento sistematico è vicina a quella casuale.