...

Intro e stimatore di Horvitz-Thompson

by user

on
Category: Documents
182

views

Report

Comments

Transcript

Intro e stimatore di Horvitz-Thompson
Corso di Teoria dei Campioni
Facoltà di Economia — Corso di Laurea SIGI
M. Giovanna Ranalli
email: [email protected]
sito web: www.stat.unipg.it/∼giovanna → didattica
1/39
2 3 L2 3M 33 22 ?
i
P
Il programma del corso
• Popolazioni finite; concetti base della teoria dei campioni; Stimatore fondamentale
di Horvitz-Thompson.
• Piani di campionamento probabilistici: casuale semplice, sistematico, con probabilità
variabili, stratificato, a più stadi.
• Piani di campionamento non probabilistici
• Stima per intervallo, Dimensionamento del campione.
• Ottica post-campionaria: domini di studio, stima per quoziente e per regressione,
post - stratificazione e calibrazione
• Fonti di errore non campionario.
• Indagini ripetute nel tempo.
2/39
2 3 L2 3M 33 22 ?
i
P
Organizzazione del corso
• lezioni frontali
• esercitazioni in laboratorio (5)
• bonus consegna esercitazioni
• dispensa e altro materiale online
• esame orale
3/39
2 3 L2 3M 33 22 ?
i
P
Introduzione alle Popolazioni Finite
La Teoria dei Campioni è quella parte delle Scienze Statistiche che si occupa dei criteri
scientifici a cui attenersi nella estrazione di un campione da una popolazione finita o
infinita, allo scopo di fare inferenza su di essa con un costo minore possibile.
Si definisce popolazione finita ogni insieme di unità di uno stesso tipo e di numerosità
limitata di cui interessa studiare una o più caratteristiche comuni.
Una popolazione finita è identificabile, cioè etichettabile:
Lista delle unità: U = 1, 2, ..., N
Carattere statistico: y
Distribuzione semplice in forma unitaria o disaggregata:
4/39
Unità
1
2
3
...
i
...
N
Intensità
Y1
Y2
Y3
...
Yi
...
YN
2 3 L2 3M 33 22 ?
i
P
Caratteri qualitativi e distribuzioni multivariate
Variabile dicotomica
(
Yi =
1 se l’attributo è presente
0 altrimenti
Dati y e x caratteri statistici, la distribuzione doppia (congiunta) unitaria o disaggregata
è data da
Unità
1
2
3
...
i
...
N
Intensità y
Y1
Y2
Y3
...
Yi
...
YN
Intensità x X1
X2
X3
...
Xi
...
XN
e di conseguenza per estensione le distribuzioni triple, quadruple, e multivariate in genere.
Una popolazione si dice interamente nota rispetto ad uno o più caratteri statistici quando
si conosce la distribuzioni congiunta dei caratteri considerati.
5/39
2 3 L2 3M 33 22 ?
i
P
Parametri descrittivi della popolazione
Si chiamano parametri descrittivi quelle costanti che descrivono uno o più aspetti della
distribuzione di uno o più caratteri statistici.
PN
1
• La media: Ȳ = N i=1 Yi (se y è binaria → frequenza relativa attributo)
PN
• Il totale: Y = i=1 Yi (se y è binaria → frequenza assoluta attributo)
PN
1
2
• La varianza: Sy = N −1 i=1 (Yi − Ȳ )2
PN
1
• La covarianza: Syx = N −1 i=1 (Yi − Ȳ )(Xi − X̄)
• Il coefficiente di variazione Cy = 100 SȲy
• Il rapporto tra totali o medie R =
Y
X
=
Ȳ
X̄
• Il coefficiente di correlazione lineare: ryx =
• Il coefficiente di regressione: by/x =
Syx
Sy Sx
Syx
Sx2
Inferenza descrittiva e inferenza analitica
6/39
2 3 L2 3M 33 22 ?
i
P
Censimento e campionamento – censimento
Vantaggi del censimento
1. Consente di conoscere interamente una popolazione rispetto ad un insieme di caratteri e di ricavare il valore esatto (?) dei parametri descrittivi di interesse.
2. Consente lanalisi della distribuzione di uno o più caratteri in una qualsiasi sottopopolazione possa interessare, piccola quanto si vuole.
Svantaggi del censimento
1. Tempi di svolgimento molto lunghi e costi estremamente elevati.
2. Bassa qualità dei dati (intendendo con questo termine la corrispondenza tra i dati
raccolti e la realtà effettiva)
7/39
2 3 L2 3M 33 22 ?
i
P
Censimento e campionamento – campionamento
Vantaggi del campionamento
1. Tempi ridotti di esecuzione e costi contenuti.
2. Possibile elevata qualità dei dati
Svantaggi del campionamento
1. Non si possono ricavare risultati attendibili per sottopopolazioni più piccole di quelle
considerate nello stabilire la dimensione del campione.
2. Presenza dell’errore di campionamento.
8/39
2 3 L2 3M 33 22 ?
i
P
Fonti di errore nelle rilevazioni statistiche
Fonti di errore non campionario
Progettazione lacunosa dell’indagine – pertinenza dei caratteri da rilevare rispetto
al problema da studiare, corretta individuazione della popolazione, mancanza di
controllo di fattori subsperimentali, etc.
Difettosità delle liste da cui viene estratto il campione – nominativi mancanti, nominativi ripetuti, inesistenti o incompleti, etc.
Errori di misurazione – generati dal rispondente, dallintervistatore, dal questionario,
da mancata osservazione, da errori di trattamento dei dati.
L’errore totale – i.e. lo scostamento tra i valori calcolati dei parametri di interesse ed
il valore effettivo nella popolazione considerata – è somma delle diverse fonti di errore
non campionario e dell’errore campionario.
9/39
2 3 L2 3M 33 22 ?
i
P
Le rilevazioni statistiche
Con il termine rilevazione dei dati si intende qui l’insieme delle operazioni con cui si
perviene alla conoscenza delle modalità dei caratteri da osservare nelle diverse unità di
un collettivo.
Studi osservazionali ⇒ Indagini statistiche ⇒ Piano della rilevazione
Studi sperimentali
10/39
⇒ Sperimentazione
⇒ Piano della sperimentazione
2 3 L2 3M 33 22 ?
i
P
Fasi di una rilevazione dei dati – 1
A) Scopo e finalità dello studio. Studio esplorativo o qualitativo, Studio descrittivo,
Studio esplicativo, Studio trasversale, Studio longitudinale.
B) Dettaglio dei caratteri e scale di misura. Modalità automatiche, Classificazioni
ufficiali – attività economiche, produzioni, professioni, cause di morte, ecc. Modalità
definite dal ricercatore, Caratteri quantitativi – livello di precisione, classi.
C) Unità statistica, popolazione, unità di rilevazione.
D) Periodo di riferimento e svolgimento. Fenomeni di stato, Fenomeni di movimento
E) Tipo di rilevazione. Rilevazione totale, Rilevazione campionaria – dimensione e
modalità di estrazione del campione – Rilevazione unica, saltuaria, periodica.
11/39
2 3 L2 3M 33 22 ?
i
P
Fasi di una rilevazione dei dati – 2
F) Strumenti di misura, questionario e modalità di somministrazione. Il questionario deve contenere domande:
• pertinenti e in numero minore possibile,
• univocamente interpretabili,
• che richiedono sforzi limitati di memoria,
• che non creano imbarazzo o tensione psicologica.
Modalità di somministrazione: interviste dirette o faccia a faccia, interviste telefoniche, autocompilazione del questionario, metodi informatizzati. Indagine pilota.
G) Lavoro sul campo.
H) Codifica, registrazione su supporto magnetico, revisione. Revisione e controllo dei dati, imputazione dei dati mancanti, Matrice dei dati o dei microdati.
I) Elaborazione dei dati, risultati e rapporto di ricerca. Spoglio dei dati o tabulazione dei dati, distribuzioni e macrodati, Rapporto di ricerca.
12/39
2 3 L2 3M 33 22 ?
i
P
Le statistiche ufficiali e le fonti dei dati
• L’ISTAT e il SISTAN (legge di riforma del 1989)
• L’EUROSTAT
• Istituti demoscopici e di ricerche di mercato (Doxa, Cirm, Nielsen, ecc. )
13/39
2 3 L2 3M 33 22 ?
i
P
Definizione di campione e spazio campionario
Si consideri una popolazione finita U = {1, 2, . . . , N }.
• Definiamo campione un qualsiasi sottoinsieme di n unità di U .
s = {i1 , i2 , . . . , in }, dove ij è l’etichetta della j-esima unità campionaria, con j =
1, 2, . . . , n.
• Indicheremo con S l’universo dei campioni
dimensione del campione
n
qualsiasi
cardinalità di S
N
N!
=
n
n!(N − n)!
N
X
N!
= 2N − 1
n!(N − n)!
n=1
• Tasso di sondaggio f = n/N
14/39
2 3 L2 3M 33 22 ?
i
P
Schema di selezione e piano di campionamento
• Si chiama schema di selezione del campione qualsiasi meccanismo o procedimento
che porta alla selezione di un campione
• Si chiama piano di campionamento ogni funzione p(s) definita su S (cioè sullo
spazio campionario) tale che:
1. p(s) ≥ 0, ∀s ∈ S;
P
2.
s∈S p(s) = 1.
• Schema di selezione ⇒ Piano di campionamento
:
15/39
2 3 L2 3M 33 22 ?
i
P
Esempio di schema di selezione
Sia U = {1, 2, . . . , i, . . . , N }
1. Si estragga una etichetta a caso con probabilità uguali per ottenere la prima unità
campionaria.
2. Si estragga una seconda etichetta a caso con probabilità uguali dalle rimanenti.
3. Si ripeta il passo 2 altre n − 2 volte, dove n < N .
Piano di campionamento:


 1 = n!(N − n)! se s ha dimensione n
N
N!
.
p(s) =
n

 0
altrimenti
⇒ Campionamento casuale semplice senza ripetizione.
16/39
2 3 L2 3M 33 22 ?
i
P
Probabilità di inclusione del primo ordine
Si chiama probabilità di inclusione del primo ordine dell’unità i di U la quantità
X
πi =
p(s),
s3i
dove la sommatoria è estesa a tutti i campioni che contengono l’unità i.
Se definiamo la variabile indicatrice δi come
(
1 se l’unità i appartiene al campione
δi =
,
0 altrimenti
allora
πi =
X
p(s)δi = E(δi ).
s∈S
17/39
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo delle probabilità di inclusione del
primo ordine
Sia U = {1, 2, 3, 4, 5}
Campione
p(s)
δ1
s1 = {1, 2, 3, 4}
0.1
1
s2 = {1, 2, 3, 5}
0.2
1
s3 = {1, 2, 4, 5}
0.2
1
s4 = {1, 3, 4, 5}
0.3
1
s5 = {2, 3, 4, 5}
0.2
0
1,0
allora π1 = 0.8, si verifichi che π2 = 0.7, π3 = 0.8, π4 = 0.8, π5 = 0.9.
18/39
2 3 L2 3M 33 22 ?
i
P
Probabilità di inclusione del secondo ordine
Si chiama probabilità di inclusione del secondo ordine della coppia di unità i, j di U la
quantità
X
πij =
p(s),
s3i,j
dove la sommatoria è estesa a tutti i campioni che contengono la coppia di unità i e j.
Si ha anche che
X
πij =
p(s)δi δj = E(δi δj ).
s∈S
19/39
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo delle probabilità di inclusione del
secondo ordine
Sia U = {1, 2, 3, 4, 5}
Campione
p(s) δ1
δ2
δ1 δ2
s1 = {1, 2, 3, 4}
0,1
1
1
1
s2 = {1, 2, 3, 5}
0,2
1
1
1
s3 = {1, 2, 4, 5}
0,2
1
1
1
s4 = {1, 3, 4, 5}
0,3
1
0
0
s5 = {2, 3, 4, 5}
0,2
0
1
0
1,0
allora π12 = 0, 5; si trovino per esercizio le altre.
20/39
2 3 L2 3M 33 22 ?
i
P
Calcolo delle probabilità di inclusione per il CCS
Primo ordine
πi =
X
p(s) =
s3i
(N − 1)!
n!(N − n)!
n
=
(n − 1)!(N − n)!
N!
N
Secondo ordine
πij =
X
s3ij
21/39
p(s) =
n!(N − n)!
(N − 2)!
n n−1
=
(n − 2)!(N − n)!
N!
N N −1
2 3 L2 3M 33 22 ?
i
P
Importanti definizioni per i piani di campionamento
relative alle probabilità di inclusione
• Un piano di campionamento si dice probabilistico se ogni unità della popolazione
ha una probabilità del primo ordine positiva (πi > 0, ∀i ∈ U ) e calcolabile.
• Un piano di campionamento si dice autoponderante se le probabilità di inclusione
delle unità della popolazione sono tutte uguali (πi costante).
• Un piano di campionamento si dice misurabile se le probabilità di inclusione del
secondo ordine sono tutte positive (πij > 0, ∀i, j ∈ U ) e calcolabili.
Il CCS è ...
22/39
2 3 L2 3M 33 22 ?
i
P
Momenti delle variabili indicatrici δi
δi per i = 1, 2, . . . , N sono variabili casuali bernoulliane non indipendenti e tali che:
• E(δi ) = πi ,
• V (δi ) = πi (1 − πi ),
• C(δi , δj ) = E(δi δj ) − E(δi )E(δj ) = πij − πi πj .
Inoltre, n(s) =
N
X
δi
⇒
E[n(s)] =
i=1
se n(s) = n, allora
N
X
πi
i=1
N
X
πi = n.
i=1
23/39
2 3 L2 3M 33 22 ?
i
P
La matrice dei dati
unità campionaria
etichetta
variabile y
variabile x
...
variabile z
1
j1
Y1
X1
...
Z1
2
j2
Y2
X2
...
Z1
3
..
.
j3
..
.
Y3
..
.
X3
..
.
...
..
.
Z3
..
.
i
..
.
ji
..
.
Yi
..
.
Xi
..
.
...
..
.
Zi
..
.
n
jn
Yn
Xn
...
Zn
24/39
2 3 L2 3M 33 22 ?
i
P
Le statistiche campionarie
1
n
Pn
• La media campionaria: ȳ =
i=1 Yi
Pn
• Il totale campionario: ty = i=1 Yi
Pn
1
2
• La varianza campionaria: sy = n−1 i=1 (Yi − ȳ)2
Pn
1
• La covarianza campionaria: syx = n−1 i=1 (Yi − ȳ)(Xi − x̄)
• Il coefficiente di variazione cy = 100 sȳy
• Il rapporto tra totali o medie Rc =
ty
tx
=
ȳ
x̄
• Il coefficiente di correlazione lineare: rcyx =
• Il coefficiente di regressione: bcy/x =
syx
sy sx
syx
s2x
Ad ogni parametro descrittivo della popolazione corrisponde una statistica campionaria
calcolata con la medesima formula (considerando il campione come una popolazione).
Si ottiene uno stimatore “naturale”, ma...
25/39
2 3 L2 3M 33 22 ?
i
P
Stimatori
• Si chiama stimatore θb di un parametro θ della popolazione ogni statistica campionaria prescelta per assegnare un valore al parametro considerato.
• Si chiama stima il valore numerico dello stimatore nel campione estratto.
• Si chiama errore di stima la differenza tra la stima e il valore del parametro.
Distribuzione campionaria dello stimatore θb
26/39
campione
probabilità
s1
p(s1 )
s2
p(s2 )
s3
..
.
p(s3 )
..
.
sM
p(sM )
stima
θb1
errore di stima
θb1 − θ
θb2
θb3
..
.
θbM
θb2 − θ
θb3 − θ
..
.
θbM − θ
2 3 L2 3M 33 22 ?
i
P
Criteri di selezione dello stimatore – 1
Correttezza.
P
b
Sia E(θ) = s∈S θbs p(s). Uno stimatore del parametro θ si dice corretto, o non
distorto, se il suo valore atteso coincide con θ:
b = θ.
E(θ)
Si chiama distorsione di uno stimatore la quantità
b = E(θ)
b − θ.
B(θ)
27/39
2 3 L2 3M 33 22 ?
i
P
Criteri di selezione dello stimatore – 2
Efficienza.
Errore quadratico medio dello stimatore:
X
b
M SE(θ) =
(θbs − θ)2 p(s).
s∈S
b = V (θ)
b + B(θ)
b 2 (∗), dove
Vale che M SE(θ)
X
b =
b 2 p(s),
V (θ)
[θbs − E(θ)]
s∈S
è la varianza dello stimatore. Uno stimatore θb1 si dice più efficiente di un altro
stimatore θb2 se si verifica che
M SE(θb1 ) 6 M SE(θb2 )
28/39
per ogni valore di θ.
2 3 L2 3M 33 22 ?
i
P
Le strategie campionarie
Si chiama strategia campionaria ogni coppia costituita da un piano di campionamento
b
e da uno stimatore, ovvero [p(s), θ].
Correttezza. Una strategia campionaria si dice corretta se lo stimatore è corretto
rispetto al piano di campionamento prescelto.
Efficienza. Una strategia campionaria [p1 (s), θb1 ] si dice più efficiente di un’altra strategia [p2 (s), θb2 ] se si verifica che
M SE1 (θb1 ) 6 M SE2 (θb2 )
per ogni valore di θ.
L’obiettivo della teoria dei campioni è quello di individuare la strategia più efficiente
a parità di costo complessivo della rilevazione.
29/39
2 3 L2 3M 33 22 ?
i
P
Lo stimatore corretto fondamentale
• Stima corretta del totale - stimatore di Horvitz-Thompson.
• Varianza dello stimatore di HT.
• Stima della varianza dello stimatore di HT:
– stima di HT;
– stima di Yates-Grundy.
• Stima corretta della media
• Stima di altri parametri
– funzioni lineari di totali di popolazione;
– funzioni NON lineari di totali di popolazione – metodo della linearizzazione.
30/39
2 3 L2 3M 33 22 ?
i
P
Stima corretta del totale
PN
Parametro da stimare: Y = i=1 Yi .
Pn
b
Stimatore lineare: Y = i=1 wi Yi .
Si vuole che E(Yb ) = Y . Quali pesi wi garantiscono uno stimatore corretto? Riscriviamo
Yb =
n
X
i=1
w i Yi =
N
X
wi Yi δi ,
i=1
allora
E(Yb ) =
N
X
wi Yi E(δi ) =
i=1
N
X
w i Y i πi
i=1
e quindi la condizione di correttezza impone che
1
wi =
πi
31/39
2 3 L2 3M 33 22 ?
i
P
Stimatore di Horvitz-Thompson
Yb =
n
X
Yi
i=1
πi
• campione probabilistico garantisce il calcolo di uno stimatore corretto
n
X
Yi
ty
• campione autoponderante Yb =
=
π
π
i=1
Yb
b̄
• Stima della media Y =
N
ESEMPIO: campionamento casuale semplice: πi = π =
Thompson per questo piano di campionamento sarà
n
X
N
N
• TOTALE Yb =
Yi = ty = N ȳ
n
n
i=1
n
,
N
allora lo stimatore di Horvitz-
• MEDIA Yb̄ = ȳ
32/39
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo
Si definisca la popolazione U = {1, 2, 3, 4} di dimensione N = 4. Lo spazio campionario nel caso di
campioni di dimensione n = 3 estratti senza ripetizione è dato da S = { (1,2,3), (1,2,4), (1,3,4),
(2,3,4) }. Si supponga che le probabilità di estrazione di ciascun campione siano le seguenti:
s
p(s)
(1,2,3)
0.15
(1,2,4)
0.35
(1,3,4)
0.30
(2,3,4)
0.20
1
Le probabilità di inclusione del I ordine per ciascuna unità sono:
i
1
2
3
4
πi
0.80
0.70
0.65
0.85
Le probabilità di inclusione del II ordine per ciascuna coppia di unità sono:
33/39
(i, j)
(1,2)
(1,3)
(1,4)
(2,3)
(2,4)
(3,4)
πij
0.50
0.45
0.65
0.35
0.55
0.50
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo (continua)
Si supponga che la variabile di interesse assuma i seguenti valori:
i
Yi
πi
wi
1
50
0.80
1.25
2
32
0.70
1.43
3
48
0.65
1.54
4
65
0.85
1.18
da cui si ricava Ȳ = (50+32+48+65)/4 = 48.75. Per il primo campione, s = {1, 2, 3}, le osservazioni
sono (50, 32, 48) e quindi
1
50
32
48
Yb̄ =
+
+
= 45.51,
4 0.80 0.70 0.65
Pn
mentre la media campionaria ȳ = i=1 Yi /n è pari a ȳ = (50 + 32 + 48)/3 = 43.33. Per i 4 possibili
campioni, la distribuzione degli stimatori Yb̄ e ȳ è la seguente:
34/39
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo (fine)
s
Yi
Yb̄
ȳ
p(s)
(1,2,3)
(50,32,48)
45.51
43.33
0.15
(1,2,4)
(50,32,65)
46.17
49.00
0.35
(2,3,4)
(32,48,65)
49.01
48.33
0.20
(1,3,4)
(50,48,65)
53.20
54.33
0.30
E(Yb̄ ) = 45.51 × 0.15 + 46.17 × 0.35 + 49.01 × 0.20 + 53.20 × 0.30 = 48.75
V (Yb̄ ) = MSE(Yb̄ ) = (45.51 − 48.75)2 × 0.15 + . . . + (53.20 − 48.75)2 × 0.30 = 9.85
E(ȳ) = 43.33 × 0.15 + 49.00 × 0.35 + 48.33 × 0.20 + 54.33 × 0.30 = 49.62 6= 48.75
MSE(ȳ) = (43.33 − 48.75)2 × 0.15 + . . . + (54.33 − 48.75)2 × 0.30 = 13.81
35/39
2 3 L2 3M 33 22 ?
i
P
Varianza dello stimatore corretto
V (Yb ) = V
N
X
i=1
=
=
N
X
Y2
i
2
π
i
i=1
i=1
πi
V (δi ) +
N X
N
X
Yi Yj
i=1 j6=i
N
X
Y2
i
Yi
δi
πi
!
(1 − πi ) +
π i πj
C(δi , δj )
N X
N
X
Yi Yj
i=1 j6=i
πi πj
(πij − πi πj )
Se n(s) = n, si può dimostrare che
V (Yb ) =
36/39
N
N
1 XX
2
i=1 j6=i
(πi πj − πij )
Yi Yj
−
πi πj
2
2 3 L2 3M 33 22 ?
i
P
Stima della varianza dello stimatore di HT
Risultato preliminare utile. Sia B =
N
N X
X
i=1 j6=i
n X
n
X
bij
b
bij , allora B =
è corretto per B.
π
i=1 j6=i ij
N
N X
X
bij
b
E(δi δj ) = B. La varianza dello stimatore di HT può essere
Infatti E(B) =
π
i=1 j6=i ij
vista come la somma di due totali V (Yb ) = A + B, dove
A=
N
X
i=1
ai =
N
X
Y2
i
i=1
πi
(1 − πi ),
B=
N X
N
X
Yi Yj
i=1 j6=i
πi πj
(πij − πi πj ) =
N X
N
X
bij .
i=1 j6=i
Quindi uno stimatore corretto di Horvitz-Thompson di V (Yb ) è dato da
v(Yb ) =
i=1
37/39
n X
n
X
Yi Yj πij − πi πj
i
(1
−
π
)
+
i
πi2
π π
πij
i=1 j6=i i j
n
X
Y2
2 3 L2 3M 33 22 ?
i
P
Stimatore della varianza di Yates-Grundy
Uno stimatore alternativo si può ottenere nel caso in cui n(s) = n
2
n X
n
X
1
πi πj − πij Yi Yj
v(Yb ) =
−
2 i=1 j6=i
πij
πi πj
• misurabilità
• varianza dello stimatore della media: V (Yb̄ ) = V
Yb
N
!
V (Yb )
=
N2
v(Yb )
b̄
• stimatore della varianza dello stimatore della media: v(Y ) =
N2
38/39
2 3 L2 3M 33 22 ?
i
P
Stima di altri parametri della popolazione
X combinazioni lineari di totali di popolazione.
b = Yb − X
b è corretto per D
Es. D = Y − X → D
Y
Yb
b
→R=
non è corretto per R
× altre funzioni di totali: R =
b
X
X
• metodo della linearizzazione.
39/39
2 3 L2 3M 33 22 ?
i
P
Fly UP