Intro e stimatore di Horvitz-Thompson

by user

on 06-07-2016

Category: Documents

>> Downloads: 28

206

views

Report

Comments

Description

Download Intro e stimatore di Horvitz-Thompson

Transcript

Intro e stimatore di Horvitz-Thompson

Corso di Teoria dei Campioni
Facoltà di Economia — Corso di Laurea SIGI
M. Giovanna Ranalli
email: [email protected]
sito web: www.stat.unipg.it/∼giovanna → didattica
1/39
2 3 L2 3M 33 22 ?
i
P
Il programma del corso
• Popolazioni finite; concetti base della teoria dei campioni; Stimatore fondamentale
di Horvitz-Thompson.
• Piani di campionamento probabilistici: casuale semplice, sistematico, con probabilità
variabili, stratificato, a più stadi.
• Piani di campionamento non probabilistici
• Stima per intervallo, Dimensionamento del campione.
• Ottica post-campionaria: domini di studio, stima per quoziente e per regressione,
post - stratificazione e calibrazione
• Fonti di errore non campionario.
• Indagini ripetute nel tempo.
2/39
2 3 L2 3M 33 22 ?
i
P
Organizzazione del corso
• lezioni frontali
• esercitazioni in laboratorio (5)
• bonus consegna esercitazioni
• dispensa e altro materiale online
• esame orale
3/39
2 3 L2 3M 33 22 ?
i
P
Introduzione alle Popolazioni Finite
La Teoria dei Campioni è quella parte delle Scienze Statistiche che si occupa dei criteri
scientifici a cui attenersi nella estrazione di un campione da una popolazione finita o
infinita, allo scopo di fare inferenza su di essa con un costo minore possibile.
Si definisce popolazione finita ogni insieme di unità di uno stesso tipo e di numerosità
limitata di cui interessa studiare una o più caratteristiche comuni.
Una popolazione finita è identificabile, cioè etichettabile:
Lista delle unità: U = 1, 2, ..., N
Carattere statistico: y
Distribuzione semplice in forma unitaria o disaggregata:
4/39
Unità
1
2
3
...
i
...
N
Intensità
Y1
Y2
Y3
...
Yi
...
YN
2 3 L2 3M 33 22 ?
i
P
Caratteri qualitativi e distribuzioni multivariate
Variabile dicotomica
(
Yi =
1 se l’attributo è presente
0 altrimenti
Dati y e x caratteri statistici, la distribuzione doppia (congiunta) unitaria o disaggregata
è data da
Unità
1
2
3
...
i
...
N
Intensità y
Y1
Y2
Y3
...
Yi
...
YN
Intensità x X1
X2
X3
...
Xi
...
XN
e di conseguenza per estensione le distribuzioni triple, quadruple, e multivariate in genere.
Una popolazione si dice interamente nota rispetto ad uno o più caratteri statistici quando
si conosce la distribuzioni congiunta dei caratteri considerati.
5/39
2 3 L2 3M 33 22 ?
i
P
Parametri descrittivi della popolazione
Si chiamano parametri descrittivi quelle costanti che descrivono uno o più aspetti della
distribuzione di uno o più caratteri statistici.
PN
1
• La media: Ȳ = N i=1 Yi (se y è binaria → frequenza relativa attributo)
PN
• Il totale: Y = i=1 Yi (se y è binaria → frequenza assoluta attributo)
PN
1
2
• La varianza: Sy = N −1 i=1 (Yi − Ȳ )2
PN
1
• La covarianza: Syx = N −1 i=1 (Yi − Ȳ )(Xi − X̄)
• Il coefficiente di variazione Cy = 100 SȲy
• Il rapporto tra totali o medie R =
Y
X
=
Ȳ
X̄
• Il coefficiente di correlazione lineare: ryx =
• Il coefficiente di regressione: by/x =
Syx
Sy Sx
Syx
Sx2
Inferenza descrittiva e inferenza analitica
6/39
2 3 L2 3M 33 22 ?
i
P
Censimento e campionamento – censimento
Vantaggi del censimento
1. Consente di conoscere interamente una popolazione rispetto ad un insieme di caratteri e di ricavare il valore esatto (?) dei parametri descrittivi di interesse.
2. Consente lanalisi della distribuzione di uno o più caratteri in una qualsiasi sottopopolazione possa interessare, piccola quanto si vuole.
Svantaggi del censimento
1. Tempi di svolgimento molto lunghi e costi estremamente elevati.
2. Bassa qualità dei dati (intendendo con questo termine la corrispondenza tra i dati
raccolti e la realtà effettiva)
7/39
2 3 L2 3M 33 22 ?
i
P
Censimento e campionamento – campionamento
Vantaggi del campionamento
1. Tempi ridotti di esecuzione e costi contenuti.
2. Possibile elevata qualità dei dati
Svantaggi del campionamento
1. Non si possono ricavare risultati attendibili per sottopopolazioni più piccole di quelle
considerate nello stabilire la dimensione del campione.
2. Presenza dell’errore di campionamento.
8/39
2 3 L2 3M 33 22 ?
i
P
Fonti di errore nelle rilevazioni statistiche
Fonti di errore non campionario
Progettazione lacunosa dell’indagine – pertinenza dei caratteri da rilevare rispetto
al problema da studiare, corretta individuazione della popolazione, mancanza di
controllo di fattori subsperimentali, etc.
Difettosità delle liste da cui viene estratto il campione – nominativi mancanti, nominativi ripetuti, inesistenti o incompleti, etc.
Errori di misurazione – generati dal rispondente, dallintervistatore, dal questionario,
da mancata osservazione, da errori di trattamento dei dati.
L’errore totale – i.e. lo scostamento tra i valori calcolati dei parametri di interesse ed
il valore effettivo nella popolazione considerata – è somma delle diverse fonti di errore
non campionario e dell’errore campionario.
9/39
2 3 L2 3M 33 22 ?
i
P
Le rilevazioni statistiche
Con il termine rilevazione dei dati si intende qui l’insieme delle operazioni con cui si
perviene alla conoscenza delle modalità dei caratteri da osservare nelle diverse unità di
un collettivo.
Studi osservazionali ⇒ Indagini statistiche ⇒ Piano della rilevazione
Studi sperimentali
10/39
⇒ Sperimentazione
⇒ Piano della sperimentazione
2 3 L2 3M 33 22 ?
i
P
Fasi di una rilevazione dei dati – 1
A) Scopo e finalità dello studio. Studio esplorativo o qualitativo, Studio descrittivo,
Studio esplicativo, Studio trasversale, Studio longitudinale.
B) Dettaglio dei caratteri e scale di misura. Modalità automatiche, Classificazioni
ufficiali – attività economiche, produzioni, professioni, cause di morte, ecc. Modalità
definite dal ricercatore, Caratteri quantitativi – livello di precisione, classi.
C) Unità statistica, popolazione, unità di rilevazione.
D) Periodo di riferimento e svolgimento. Fenomeni di stato, Fenomeni di movimento
E) Tipo di rilevazione. Rilevazione totale, Rilevazione campionaria – dimensione e
modalità di estrazione del campione – Rilevazione unica, saltuaria, periodica.
11/39
2 3 L2 3M 33 22 ?
i
P
Fasi di una rilevazione dei dati – 2
F) Strumenti di misura, questionario e modalità di somministrazione. Il questionario deve contenere domande:
• pertinenti e in numero minore possibile,
• univocamente interpretabili,
• che richiedono sforzi limitati di memoria,
• che non creano imbarazzo o tensione psicologica.
Modalità di somministrazione: interviste dirette o faccia a faccia, interviste telefoniche, autocompilazione del questionario, metodi informatizzati. Indagine pilota.
G) Lavoro sul campo.
H) Codifica, registrazione su supporto magnetico, revisione. Revisione e controllo dei dati, imputazione dei dati mancanti, Matrice dei dati o dei microdati.
I) Elaborazione dei dati, risultati e rapporto di ricerca. Spoglio dei dati o tabulazione dei dati, distribuzioni e macrodati, Rapporto di ricerca.
12/39
2 3 L2 3M 33 22 ?
i
P
Le statistiche ufficiali e le fonti dei dati
• L’ISTAT e il SISTAN (legge di riforma del 1989)
• L’EUROSTAT
• Istituti demoscopici e di ricerche di mercato (Doxa, Cirm, Nielsen, ecc. )
13/39
2 3 L2 3M 33 22 ?
i
P
Definizione di campione e spazio campionario
Si consideri una popolazione finita U = {1, 2, . . . , N }.
• Definiamo campione un qualsiasi sottoinsieme di n unità di U .
s = {i1 , i2 , . . . , in }, dove ij è l’etichetta della j-esima unità campionaria, con j =
1, 2, . . . , n.
• Indicheremo con S l’universo dei campioni
dimensione del campione
n
qualsiasi
cardinalità di S
N
N!
=
n
n!(N − n)!
N
X
N!
= 2N − 1
n!(N − n)!
n=1
• Tasso di sondaggio f = n/N
14/39
2 3 L2 3M 33 22 ?
i
P
Schema di selezione e piano di campionamento
• Si chiama schema di selezione del campione qualsiasi meccanismo o procedimento
che porta alla selezione di un campione
• Si chiama piano di campionamento ogni funzione p(s) definita su S (cioè sullo
spazio campionario) tale che:
1. p(s) ≥ 0, ∀s ∈ S;
P
2.
s∈S p(s) = 1.
• Schema di selezione ⇒ Piano di campionamento
:
15/39
2 3 L2 3M 33 22 ?
i
P
Esempio di schema di selezione
Sia U = {1, 2, . . . , i, . . . , N }
1. Si estragga una etichetta a caso con probabilità uguali per ottenere la prima unità
campionaria.
2. Si estragga una seconda etichetta a caso con probabilità uguali dalle rimanenti.
3. Si ripeta il passo 2 altre n − 2 volte, dove n < N .
Piano di campionamento:


 1 = n!(N − n)! se s ha dimensione n
N
N!
.
p(s) =
n

 0
altrimenti
⇒ Campionamento casuale semplice senza ripetizione.
16/39
2 3 L2 3M 33 22 ?
i
P
Probabilità di inclusione del primo ordine
Si chiama probabilità di inclusione del primo ordine dell’unità i di U la quantità
X
πi =
p(s),
s3i
dove la sommatoria è estesa a tutti i campioni che contengono l’unità i.
Se definiamo la variabile indicatrice δi come
(
1 se l’unità i appartiene al campione
δi =
,
0 altrimenti
allora
πi =
X
p(s)δi = E(δi ).
s∈S
17/39
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo delle probabilità di inclusione del
primo ordine
Sia U = {1, 2, 3, 4, 5}
Campione
p(s)
δ1
s1 = {1, 2, 3, 4}
0.1
1
s2 = {1, 2, 3, 5}
0.2
1
s3 = {1, 2, 4, 5}
0.2
1
s4 = {1, 3, 4, 5}
0.3
1
s5 = {2, 3, 4, 5}
0.2
0
1,0
allora π1 = 0.8, si verifichi che π2 = 0.7, π3 = 0.8, π4 = 0.8, π5 = 0.9.
18/39
2 3 L2 3M 33 22 ?
i
P
Probabilità di inclusione del secondo ordine
Si chiama probabilità di inclusione del secondo ordine della coppia di unità i, j di U la
quantità
X
πij =
p(s),
s3i,j
dove la sommatoria è estesa a tutti i campioni che contengono la coppia di unità i e j.
Si ha anche che
X
πij =
p(s)δi δj = E(δi δj ).
s∈S
19/39
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo delle probabilità di inclusione del
secondo ordine
Sia U = {1, 2, 3, 4, 5}
Campione
p(s) δ1
δ2
δ1 δ2
s1 = {1, 2, 3, 4}
0,1
1
1
1
s2 = {1, 2, 3, 5}
0,2
1
1
1
s3 = {1, 2, 4, 5}
0,2
1
1
1
s4 = {1, 3, 4, 5}
0,3
1
0
0
s5 = {2, 3, 4, 5}
0,2
0
1
0
1,0
allora π12 = 0, 5; si trovino per esercizio le altre.
20/39
2 3 L2 3M 33 22 ?
i
P
Calcolo delle probabilità di inclusione per il CCS
Primo ordine
πi =
X
p(s) =
s3i
(N − 1)!
n!(N − n)!
n
=
(n − 1)!(N − n)!
N!
N
Secondo ordine
πij =
X
s3ij
21/39
p(s) =
n!(N − n)!
(N − 2)!
n n−1
=
(n − 2)!(N − n)!
N!
N N −1
2 3 L2 3M 33 22 ?
i
P
Importanti definizioni per i piani di campionamento
relative alle probabilità di inclusione
• Un piano di campionamento si dice probabilistico se ogni unità della popolazione
ha una probabilità del primo ordine positiva (πi > 0, ∀i ∈ U ) e calcolabile.
• Un piano di campionamento si dice autoponderante se le probabilità di inclusione
delle unità della popolazione sono tutte uguali (πi costante).
• Un piano di campionamento si dice misurabile se le probabilità di inclusione del
secondo ordine sono tutte positive (πij > 0, ∀i, j ∈ U ) e calcolabili.
Il CCS è ...
22/39
2 3 L2 3M 33 22 ?
i
P
Momenti delle variabili indicatrici δi
δi per i = 1, 2, . . . , N sono variabili casuali bernoulliane non indipendenti e tali che:
• E(δi ) = πi ,
• V (δi ) = πi (1 − πi ),
• C(δi , δj ) = E(δi δj ) − E(δi )E(δj ) = πij − πi πj .
Inoltre, n(s) =
N
X
δi
⇒
E[n(s)] =
i=1
se n(s) = n, allora
N
X
πi
i=1
N
X
πi = n.
i=1
23/39
2 3 L2 3M 33 22 ?
i
P
La matrice dei dati
unità campionaria
etichetta
variabile y
variabile x
...
variabile z
1
j1
Y1
X1
...
Z1
2
j2
Y2
X2
...
Z1
3
..
.
j3
..
.
Y3
..
.
X3
..
.
...
..
.
Z3
..
.
i
..
.
ji
..
.
Yi
..
.
Xi
..
.
...
..
.
Zi
..
.
n
jn
Yn
Xn
...
Zn
24/39
2 3 L2 3M 33 22 ?
i
P
Le statistiche campionarie
1
n
Pn
• La media campionaria: ȳ =
i=1 Yi
Pn
• Il totale campionario: ty = i=1 Yi
Pn
1
2
• La varianza campionaria: sy = n−1 i=1 (Yi − ȳ)2
Pn
1
• La covarianza campionaria: syx = n−1 i=1 (Yi − ȳ)(Xi − x̄)
• Il coefficiente di variazione cy = 100 sȳy
• Il rapporto tra totali o medie Rc =
ty
tx
=
ȳ
x̄
• Il coefficiente di correlazione lineare: rcyx =
• Il coefficiente di regressione: bcy/x =
syx
sy sx
syx
s2x
Ad ogni parametro descrittivo della popolazione corrisponde una statistica campionaria
calcolata con la medesima formula (considerando il campione come una popolazione).
Si ottiene uno stimatore “naturale”, ma...
25/39
2 3 L2 3M 33 22 ?
i
P
Stimatori
• Si chiama stimatore θb di un parametro θ della popolazione ogni statistica campionaria prescelta per assegnare un valore al parametro considerato.
• Si chiama stima il valore numerico dello stimatore nel campione estratto.
• Si chiama errore di stima la differenza tra la stima e il valore del parametro.
Distribuzione campionaria dello stimatore θb
26/39
campione
probabilità
s1
p(s1 )
s2
p(s2 )
s3
..
.
p(s3 )
..
.
sM
p(sM )
stima
θb1
errore di stima
θb1 − θ
θb2
θb3
..
.
θbM
θb2 − θ
θb3 − θ
..
.
θbM − θ
2 3 L2 3M 33 22 ?
i
P
Criteri di selezione dello stimatore – 1
Correttezza.
P
b
Sia E(θ) = s∈S θbs p(s). Uno stimatore del parametro θ si dice corretto, o non
distorto, se il suo valore atteso coincide con θ:
b = θ.
E(θ)
Si chiama distorsione di uno stimatore la quantità
b = E(θ)
b − θ.
B(θ)
27/39
2 3 L2 3M 33 22 ?
i
P
Criteri di selezione dello stimatore – 2
Efficienza.
Errore quadratico medio dello stimatore:
X
b
M SE(θ) =
(θbs − θ)2 p(s).
s∈S
b = V (θ)
b + B(θ)
b 2 (∗), dove
Vale che M SE(θ)
X
b =
b 2 p(s),
V (θ)
[θbs − E(θ)]
s∈S
è la varianza dello stimatore. Uno stimatore θb1 si dice più efficiente di un altro
stimatore θb2 se si verifica che
M SE(θb1 ) 6 M SE(θb2 )
28/39
per ogni valore di θ.
2 3 L2 3M 33 22 ?
i
P
Le strategie campionarie
Si chiama strategia campionaria ogni coppia costituita da un piano di campionamento
b
e da uno stimatore, ovvero [p(s), θ].
Correttezza. Una strategia campionaria si dice corretta se lo stimatore è corretto
rispetto al piano di campionamento prescelto.
Efficienza. Una strategia campionaria [p1 (s), θb1 ] si dice più efficiente di un’altra strategia [p2 (s), θb2 ] se si verifica che
M SE1 (θb1 ) 6 M SE2 (θb2 )
per ogni valore di θ.
L’obiettivo della teoria dei campioni è quello di individuare la strategia più efficiente
a parità di costo complessivo della rilevazione.
29/39
2 3 L2 3M 33 22 ?
i
P
Lo stimatore corretto fondamentale
• Stima corretta del totale - stimatore di Horvitz-Thompson.
• Varianza dello stimatore di HT.
• Stima della varianza dello stimatore di HT:
– stima di HT;
– stima di Yates-Grundy.
• Stima corretta della media
• Stima di altri parametri
– funzioni lineari di totali di popolazione;
– funzioni NON lineari di totali di popolazione – metodo della linearizzazione.
30/39
2 3 L2 3M 33 22 ?
i
P
Stima corretta del totale
PN
Parametro da stimare: Y = i=1 Yi .
Pn
b
Stimatore lineare: Y = i=1 wi Yi .
Si vuole che E(Yb ) = Y . Quali pesi wi garantiscono uno stimatore corretto? Riscriviamo
Yb =
n
X
i=1
w i Yi =
N
X
wi Yi δi ,
i=1
allora
E(Yb ) =
N
X
wi Yi E(δi ) =
i=1
N
X
w i Y i πi
i=1
e quindi la condizione di correttezza impone che
1
wi =
πi
31/39
2 3 L2 3M 33 22 ?
i
P
Stimatore di Horvitz-Thompson
Yb =
n
X
Yi
i=1
πi
• campione probabilistico garantisce il calcolo di uno stimatore corretto
n
X
Yi
ty
• campione autoponderante Yb =
=
π
π
i=1
Yb
b̄
• Stima della media Y =
N
ESEMPIO: campionamento casuale semplice: πi = π =
Thompson per questo piano di campionamento sarà
n
X
N
N
• TOTALE Yb =
Yi = ty = N ȳ
n
n
i=1
n
,
N
allora lo stimatore di Horvitz-
• MEDIA Yb̄ = ȳ
32/39
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo
Si definisca la popolazione U = {1, 2, 3, 4} di dimensione N = 4. Lo spazio campionario nel caso di
campioni di dimensione n = 3 estratti senza ripetizione è dato da S = { (1,2,3), (1,2,4), (1,3,4),
(2,3,4) }. Si supponga che le probabilità di estrazione di ciascun campione siano le seguenti:
s
p(s)
(1,2,3)
0.15
(1,2,4)
0.35
(1,3,4)
0.30
(2,3,4)
0.20
1
Le probabilità di inclusione del I ordine per ciascuna unità sono:
i
1
2
3
4
πi
0.80
0.70
0.65
0.85
Le probabilità di inclusione del II ordine per ciascuna coppia di unità sono:
33/39
(i, j)
(1,2)
(1,3)
(1,4)
(2,3)
(2,4)
(3,4)
πij
0.50
0.45
0.65
0.35
0.55
0.50
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo (continua)
Si supponga che la variabile di interesse assuma i seguenti valori:
i
Yi
πi
wi
1
50
0.80
1.25
2
32
0.70
1.43
3
48
0.65
1.54
4
65
0.85
1.18
da cui si ricava Ȳ = (50+32+48+65)/4 = 48.75. Per il primo campione, s = {1, 2, 3}, le osservazioni
sono (50, 32, 48) e quindi
1
50
32
48
Yb̄ =
+
+
= 45.51,
4 0.80 0.70 0.65
Pn
mentre la media campionaria ȳ = i=1 Yi /n è pari a ȳ = (50 + 32 + 48)/3 = 43.33. Per i 4 possibili
campioni, la distribuzione degli stimatori Yb̄ e ȳ è la seguente:
34/39
2 3 L2 3M 33 22 ?
i
P
Esempio di calcolo (fine)
s
Yi
Yb̄
ȳ
p(s)
(1,2,3)
(50,32,48)
45.51
43.33
0.15
(1,2,4)
(50,32,65)
46.17
49.00
0.35
(2,3,4)
(32,48,65)
49.01
48.33
0.20
(1,3,4)
(50,48,65)
53.20
54.33
0.30
E(Yb̄ ) = 45.51 × 0.15 + 46.17 × 0.35 + 49.01 × 0.20 + 53.20 × 0.30 = 48.75
V (Yb̄ ) = MSE(Yb̄ ) = (45.51 − 48.75)2 × 0.15 + . . . + (53.20 − 48.75)2 × 0.30 = 9.85
E(ȳ) = 43.33 × 0.15 + 49.00 × 0.35 + 48.33 × 0.20 + 54.33 × 0.30 = 49.62 6= 48.75
MSE(ȳ) = (43.33 − 48.75)2 × 0.15 + . . . + (54.33 − 48.75)2 × 0.30 = 13.81
35/39
2 3 L2 3M 33 22 ?
i
P
Varianza dello stimatore corretto
V (Yb ) = V
N
X
i=1
=
=
N
X
Y2
i
2
π
i
i=1
i=1
πi
V (δi ) +
N X
N
X
Yi Yj
i=1 j6=i
N
X
Y2
i
Yi
δi
πi
!
(1 − πi ) +
π i πj
C(δi , δj )
N X
N
X
Yi Yj
i=1 j6=i
πi πj
(πij − πi πj )
Se n(s) = n, si può dimostrare che
V (Yb ) =
36/39
N
N
1 XX
2
i=1 j6=i
(πi πj − πij )
Yi Yj
−
πi πj
2
2 3 L2 3M 33 22 ?
i
P
Stima della varianza dello stimatore di HT
Risultato preliminare utile. Sia B =
N
N X
X
i=1 j6=i
n X
n
X
bij
b
bij , allora B =
è corretto per B.
π
i=1 j6=i ij
N
N X
X
bij
b
E(δi δj ) = B. La varianza dello stimatore di HT può essere
Infatti E(B) =
π
i=1 j6=i ij
vista come la somma di due totali V (Yb ) = A + B, dove
A=
N
X
i=1
ai =
N
X
Y2
i
i=1
πi
(1 − πi ),
B=
N X
N
X
Yi Yj
i=1 j6=i
πi πj
(πij − πi πj ) =
N X
N
X
bij .
i=1 j6=i
Quindi uno stimatore corretto di Horvitz-Thompson di V (Yb ) è dato da
v(Yb ) =
i=1
37/39
n X
n
X
Yi Yj πij − πi πj
i
(1
−
π
)
+
i
πi2
π π
πij
i=1 j6=i i j
n
X
Y2
2 3 L2 3M 33 22 ?
i
P
Stimatore della varianza di Yates-Grundy
Uno stimatore alternativo si può ottenere nel caso in cui n(s) = n
2
n X
n
X
1
πi πj − πij Yi Yj
v(Yb ) =
−
2 i=1 j6=i
πij
πi πj
• misurabilità
• varianza dello stimatore della media: V (Yb̄ ) = V
Yb
N
!
V (Yb )
=
N2
v(Yb )
b̄
• stimatore della varianza dello stimatore della media: v(Y ) =
N2
38/39
2 3 L2 3M 33 22 ?
i
P
Stima di altri parametri della popolazione
X combinazioni lineari di totali di popolazione.
b = Yb − X
b è corretto per D
Es. D = Y − X → D
Y
Yb
b
→R=
non è corretto per R
× altre funzioni di totali: R =
b
X
X
• metodo della linearizzazione.
39/39
2 3 L2 3M 33 22 ?
i
P