...

Lezione Capitolo 5

by user

on
Category: Documents
28

views

Report

Comments

Transcript

Lezione Capitolo 5
Analisi Statistica del Reddito e delle
Condizioni di Vita
Capitolo 3
Povertà a livello locale
Concetti introduttivi
- Modelli con effetti casuali di area
- Poverty mapping
- Metodo Empirica Best per la stima
di misure di povertà tradizionali e
Fuzzy per piccole aree*
-Applicazioni e sviluppi
* Questo paragrafo costituisce un approfondimento.
2
Concetti introduttivi - 1
• La stima per piccole aree rappresenta uno
strumento molto utile quando si deve misurare la
povertà e la disuguaglianza a livello regionale,
ma i dati campionari sono disponibili solo a
livello nazionale. In questo caso sono
necessarie tecniche statistiche e metodologie
economiche per utilizzare informazioni ausiliarie.
• Il termine piccola area può essere riferito (Rao,
2003) sia ad aree geografiche di piccole
dimensioni, sia a domini formati da subpopolazioni definite sulla base di particolari
caratteristiche demografiche o sociali.
3
Concetti introduttivi - 2
• In letteratura sono classificati come modelli per
piccole aree quei modelli che utilizzano
informazioni ausiliarie disponibili a livello di
piccola area e a livello di singola unità
campionaria (nucleo familiare o individuo).
• Esiste una vasta gamma di tecniche di stima per
piccole aree, e si tratta di un ambito di ricerca in
continua espansione. L’adattabilità e l’efficienza
di una tecnica rispetto ad un’altra, varia a
seconda della specificità delle situazioni e della
natura dei dati a disposizione.
4
Concetti introduttivi - 3
•
•
•
•
I metodi di stima per piccole aree
possono essere classificati secondo
il tipo di inferenza in tre gruppi:
i) metodi basati sul disegno (o
campionari);
ii) metodi assistiti da modello;
iii) metodi basati sul modello
(approccio predittivo).
5
Concetti introduttivi - 4
•
•
Per i metodi del gruppo (i) il parametro di interesse
viene stimato utilizzando i procedimenti campionari
classici basati sulla distribuzione di probabilità indotta
dal disegno di campionamento. Con questo metodo il
parametro è pensato come una costante e gli stimatori
sono corretti rispetto al disegno di campionamento
applicato. La loro variabilità però, cresce al diminuire
della numerosità del campione e può accadere che
nessuna unità campionaria sia presente nella piccola
area, impedendo così di ottenere una stima del
parametro di interesse di piccola area.
Questa classe è composta solo da metodi diretti, e ne
fanno parte gli stimatori classici, tra i quali il più
utilizzato è quello di Horvitz e Thompson.
6
Concetti introduttivi - 5
•
•
Per i metodi del gruppo (ii) l’inferenza è
basata sul disegno e sul modello.
L’obiettivo è quello di ottenere stimatori
corretti indipendentemente dalla scelta
del modello, sfruttando le informazioni
derivanti dal disegno campionario.
Questa classe è formata dallo stimatore
diretto di regressione e da molti altri
indiretti, tra i quali gli stimatori sintetici e
quelli combinati.
7
Concetti introduttivi - 6
•
•
•
Per i metodi del gruppo (iii) l’aspetto rilevante
è costituito dal fatto che il parametro oggetto di
studio non è pensato come una costante, ma
come una variabile casuale.
Appartengono a questa categoria i modelli di
piccola area (Small Area Models).
Questi modelli prevedono la presenza di effetti
casuali di area (Area Level Random Effects
Model, Fay e Herriot, 1979), che vengono
utilizzati quando l’informazione ausiliaria è
disponibile solo a livello di area.
8
Modelli con effetti casuali di area - 1
• Come già anticipato, questi modelli possono essere
utilizzati quando l’informazione ausiliaria esiste allo
stesso livello di disaggregazione territoriale per il quale
devono essere calcolati gli indici di povertà e
disuguaglianza.
• Questi modelli collegano i parametri di interesse alle
variabili ausiliarie a livello di piccole aree, considerando
gli effetti casuali indipendenti. Il modello base include gli
effetti casuali specifici di ogni area. Il vettore di p variabili
ausiliarie a livello di piccola area è:
•
x i  xi ,1 , xi , 2 ,..., xi , p
(5.1)


9
Modelli con effetti casuali di area - 2
• I parametri di interesse θi (totali, medie, proporzioni,
eccetera) possono essere così indicati:
•
(5.2)
  x  z v
i
i
i
i
• dove i=1,…,m, zi sono costanti positive note, β è il
parametro di regressione del vettore px1, m sono le
piccole aree e vi sono variabili casuali indipendenti e
identicamente distribuite con media 0 e varianza σv2.
10
Modelli con effetti casuali di area - 3
• Inoltre si ipotizza che gli stimatori diretti siano
disponibili per le piccole aree, non distorti dal
disegno, e che sia valido il seguente modello:
•
(5.3)
ˆ    e
i
i
i
• dove ei sono gli errori campionari nell’area i,
indipendenti, con media 0 e varianza ψi, questo
significa che si tratta di stimatori corretti rispetto
al disegno.
11
Modelli con effetti casuali di area - 4
• Combinando le equazioni (5.2) e (5.3) riportate sopra, si
ottiene il seguente modello lineare ad effetti misti di Fay
e Herriot (1979):
•
ˆi  xi   zi vi  ei
(5.4)
• Esso considera gli effetti casuali di area vi, gli errori di
campionamento ei ed assume la loro indipendenza.
• Questo è un caso particolare del modello lineare misto
con una struttura della covarianza diagonale, così come
la maggior parte dei modelli di stima per piccole aree
suggeriti in letteratura.
12
Stimatore BLUP e EBLUP
• Utilizzando i risultati generali del modello lineare
ad effetti fissi e casuali si può determinare il
predittore ottimo lineare e corretto, BLUP (Best
Linear Unbiased Predictor) per il modello di
stima per piccole aree a livello di area per θi:
•
ˆi   iˆi  1   i xi ˆ
(5.5)
• dal quale si deduce che esso è una media
ponderata dello stimatore diretto ˆi e dello
stimatore sintetico di regressione xi ̂ , dove ˆ
è lo stimatore BLUE (Best Linear Unbiased
13
Estimator) di β.
Poverty mapping - 1
Questa metodologia, facente parte delle
metodologie di stima per piccole aree, combina
le informazioni censuarie e quelle campionarie
per produrre delle mappe disaggregate a livello
territoriale. Queste mappe sono necessarie per
descrivere la distribuzione spaziale della
povertà e della disuguaglianza in un paese; non
si tratta però esclusivamente di mappe, ma di
database ad alta disaggregazione.
14
Poverty mapping - 2
• La procedura è più impegnativa rispetto al metodo
EBLUP per quanto riguarda i dati che sono necessari
(dati censuari a livello micro), benché non sia richiesto
un abbinamento tra i dati censuari e campionari a livello
di micro disaggregazioni.
• L’idea di base è quella di stimare un modello di
regressione lineare con le componenti della varianza a
livello locale (small area), utilizzando le informazioni
provenienti dai campioni più piccoli, le informazioni
aggregate dei censimenti, e dove possibile, integrarle
con altre fonti.
15
Poverty mapping - 3
• La variabile dipendente del modello di regressione è
costituita dal reddito disponibile familiare o dal
consumo. La stima della distribuzione di queste variabili
può essere utilizzata per generare la distribuzione in
ogni sottopopolazione censuaria, condizionata alle
caratteristiche osservate nella sottopopolazione stessa.
• Dalla stima della distribuzione di una variabile monetaria
nei dati censuari, o in ogni sottopopolazione, può essere
fatta una stima delle misure di povertà o di
ineguaglianza.
• Per valutare la precisione delle stime è necessario che
gli errori standard di queste misure siano calcolati
utilizzando le procedure appropriate che vedremo
successivamente.
16
Poverty mapping - 4
BASIC IDEA

To estimate a linear regression model with local
variance components on the LSMS data (the dependent
variable is a monetary variable) – ESTIMATION (Stage
1)

The distribution of the dependent variable is used
to generate the distribution for any subpopulation in the
Census conditional to the observed data –
IMPUTATION or SIMULATION (Stage 2)
17
Poverty mapping - 5
Stage 1: Estimation
The model: it is a linear approximation to the conditional
distribution of the logarithm consumption expenditure of
household h in cluster c,


T
T
ln y ch  E ln y ch | xch
 u ch  xch
  u ch
The error component is specified to allow for a within
cluster correlation in disturbances.
IMPORTANT: six different models have been estimated.
18
Poverty mapping - 6
Stage 2: Simulation
The estimates obtained are applied to the Census data
to simulate the expenditure for each household in the
Census.
100 simulation has been conducted


The simulated values are:

T
yˆch  exp xch
  c   ch

~

The beta coefficients , are drawn from a
̂ with mean
multivariate normal distribution
and
variance covariance matrix equal ̂to the one associated
to .
19
Poverty mapping - 7

For the residual, any specific distributional form
assumption has been avoided so the residual are drawn
directly from the estimated residuals.

For each of the simulated consumption expenditure
distributions a set of poverty and inequality measures
has been calculated.

Mean over all the simulations point estimates
Standard deviation over all the simulations
bootstrapping standard error.
20
Caso di Studio: Albania
POVERTY AND INEQUALITY MEASURES
The procedure for estimating the poverty and inequality
measures has been applied for the whole of Albania
and disaggregated at seven levels:
a) Rural – urban level;
b) The four strata used in sampling the LSMS;
c) The six strata for which the linear regression models
have been estimated;
d) The 12 Prefectures;
e) The 36 Districts;
f) The 374 Communes/Municipalities;
g) The 11 Mini-municipalities in which the city of Tirana
is divided.
21
Table 1: Head Count Ratio and Per-capita Consumption: comparison between LSMS and Census
Head count
Head count
Consumption
Consumption
LSMS
Census
LSMS
Census
ALBANIA
25.39
28.60
7,800.82
7,569.67
STRATUM 1
STRATUM 2
STRATUM 3
STRATUM 4
(1.32)
(1.28)
(117.68)
(120.21)
20.60
26.64
8,419.25
8,148.48
(2.22)
(1.94)
(218.07)
(249.18)
25.57
29.49
7,496.12
7,177.76
(2.32)
(2.32)
(193.63)
(222.95)
44.54
40.85
6,168.34
6,181.78
(2.51)
(1.60)
(149.86)
(120.69)
17.82
18.01
9,042.59
8,981.39
(2.06)
(1.09)
(304.96)
(140.85)
22
•
THE MAPS
• Maps 1,2: Very spatial heterogeneity
among Prefectures
• Maps 3,4: Low heterogeneity among
Districts within the Prefecture to which
they belong
• Maps 5,6: Heterogeneity among
Municipalities within the same District
23
Analysis of the relationship between inequality
in the whole Country and inequality within
and between its regions
• Maps 7,8: 2/3 of the Prefecture have HCR and C
significantly different from the National level.
• Maps 9,10: less than 20% of the District have
HCR and C significantly different from the
Prefecture they belong
• Maps 11,12: more than 40% of the Municipality
have HCR and C significantly different from the
District to which they belong
24
Figure 1. Head Count Ratio Figure 2. Per Capita Consumption by Prefectures.
25
Figure 3. Head Count Ratio
Figure 4. Per Capita Consumption by District.
26
Figure 5. Head Count Ratio
Figure 6. Per Capita Consumption by Municipality.
27
Figure 7. Prefectures Level Head Count Ratio versus Albania Head Count Ratio
Figure 8. Prefecture Level Per Capita Consumption versus Albania Per Capita Consumption
28
Figure 9. District Level Head Count Ratio versus Prefecture Level Head Count Ratio
Figure 10. District Level Per Capita Consumption versus Prefecture Level Per Capita Consumption
29
Figure 11. Commune Level Head Count Ratio versus District Level Head Count Ratio
Figure 12. Commune Level Per Capita Consumption versus District Level Per Capita Consumption
30
Empirical Best* - 1

Consideriamo un vettore casuale y contenente i
valori di una variabile casuale per le unità di una
popolazione finita tale che y  (y 's , y 'r ) dove ys è il subvettore degli elementi campionati e yr il sub-vettore
degli elementi non campionati. L’obiettivo è predire il
valore di una funzione misurabile reale   h(y ) del
vettore casuale y usando i dati campionati ys. Il miglior
stimatore (BP) di delta è la funzione di ys che minimizza
l’errore quadratico medio dello stimatore. Formalmente:
(3.1)
ˆ B   0  E y ( | y s )
r
* Questo paragrafo consiste in un approfondimento
31
Empirical Best - 2
Generalmente, ˆ B dipende da un vettore di
parametri non noti theta che può essere sostituito
con un opportuno stimatore, ottenendo così un BP
empirico di   h(y ) (EB).
E’ interessante notare che, quando y segue una
distribuzione Normale con vettore medio μ  Xβ
per una matrice nota X, matrice di covarianza
positiva V, e la quantità da predire è una funzione
lineare di y, allora lo stimatore EB è uguale allo
stimatore BLUP visto nella lezione di Lunedì 12
Aprile.
32
Case Study:
Small Area Estimation of poverty
and inequality measures:
EBLUP and R software
Gianni Betti
SSCU – Kiev, Ukraine
8 April 2010
33
Scope of the presentation
• Introduce the problem
• Small area estimation techniques
• The BLUP and EBLUP
• EBLUP at Oblast level in Ukraine
• Codes in R software
34
Why small area estimators ?
• Sample household surveys as EU-SILC, ECHP
and HBS are traditionally designed for
performing estimates at National level.
• In certain cases, when the sample size is
particularly large, the estimates may also be
significant at (large) regional level.
• However, often the sub-samples are large
enough for large regions, but not sufficient for
smaller regions.
35
Example of yesterday: Gini coefficent at Oblast
level: how large are the standard errors ?
36
Why small area estimators ?
• We have taken into account a simpler
statistic:
• Head Count Ratio: HCR=FGT(0)
• Monetary variable: Total “equivalent”
consumption expenditure
• Equivalence scale: 70-70 Academy of
Science
37
Results of direct estimates and
standard errors
Oblast
1
5
7
12
14
18
21
23
26
32
35
44
46
48
51
53
56
59
61
63
65
68
71
73
74
80
85
AR Crimea
Vinnytska
Volynska
Dnipropetrovska
Donetska
Zhytomyrska
Zakarpatska
Zaporizka
Ivano-Frankivska
Kyivska
Kirovogradska
Luganska
Lvivska
Mykolaivska
Odeska
Poltavska
Rivnenska
Sumska
Ternopilska
Kharkivska
Khersonska
Khmelnytska
Cherkaska
Chernivetska
Chernigivska
Kyiv
Sevastopil
n
(1)
est
(2)
se
(3)
462
426
287
760
734
326
310
441
300
350
291
566
563
312
393
432
287
315
250
585
319
328
394
237
366
494
94
24,89%
24,30%
47,30%
27,22%
25,58%
34,22%
20,30%
24,39%
20,09%
21,17%
47,09%
29,20%
29,25%
19,81%
38,48%
27,47%
39,28%
29,07%
42,77%
20,59%
32,96%
29,79%
18,37%
29,60%
28,62%
9,63%
2,70%
3,50%
3,38%
5,92%
3,59%
2,85%
6,04%
4,99%
4,04%
3,41%
4,86%
5,05%
3,12%
2,81%
3,53%
4,53%
3,23%
6,02%
5,92%
7,16%
2,28%
4,66%
4,02%
3,72%
4,27%
4,34%
1,63%
3,23%
38
So: small area estimators
• Fundamental aspects of our
approach
• Making the best use of survey data
(precise standard errors)
• Aggregated information from diverse
sources
(as administrative registers or other
surveys)
• Using them in combination – small area
estimation
39
Choice of the “Region” - 1
• Oblast level could be the first
administrative level of
disaggregation
• It could be necessary to go further,
i.e. to estimate measures at a
smaller level
• So: how to choose the unit which
serves as a “region” ?
40
Choice of the “Region” - 2
Basic choices:
• Geographical units based on or defined according to some
functional criteria. Example: Labour Market Regions
- useful for specific policy purposes; less suited for general
use, and for comparisons across regions of the Europe (EU
and non EU countries)
• Units defined in terms of the urban-rural classification
(more elaborate than a simple ‘urban-rural’ dichotomy)
- but no agreed criteria as to the definition of Urban-Rural
• Units based on administrative/political criteria,
specifically NUTS regions
Most suited, but must be supplemented by analysis using
- other types of units
- also by (non-geographical) population subgroups
41
Choice of the “Region” - 3
In the European Union the NUTS
classification has been officially
chosen by Eurostat
The Nomenclature of Territorial Units for
Statistics (NUTS) was established by
Eurostat more than 30 years ago in
order to provide a single uniform
breakdown of territorial units for the
production of regional statistics for the
European Union.
42
Choice of the “Region” - 4
1.
2.
3.
4.
5.
6.
Most commonly used for social policy (e.g.,
National Action Plans/incl)
Comparability facilitated by a common framework
Exhaustive and non-overlapping coverage of the
population
Hierarchical structure provides framework for
integration of the information across levels
Communication: this type of units already widely
understood, accepted, and used
Data availability
– e.g. Eurostat Free Dissemination Database
(NewCronos) Links with information from many
other sources based on NUTS classification
43
Application to the HCR=FGT(0)
Table 1. Covariates available at NUTS1 (OBLAST) level
Average monthly wage, hrn
1 Disposable income
2
GDP
GDP per capita 2007
3
Activity rate
Activity rate for 2008; Males, Females and Total
4
Unemployment rate
Unemployment rate 2008; Males, Females and Total
5
Urbanisation
Percentage of urban population
6
Population density
Population closeness, persons on 1 km2
7
IMR
Infant mortality rate 2008; death rate of children under 1 year old
8
HH Size
Mean size of household, 2008
9
Turnover
Turnover for one person 2008, hrn
10 Youths
Percentage of children under 14 years old
11 Elderly people
Percentage of people 65 year old and older
44
Performance measures
•
•
•
•
Table 2 below shows some performance measures of
the SAE Model, where three interesting measures
are shown:
the model parameter gamma (γ). It is the ratio
between the model variance and the total variance,
and is the share of the weight given to the direct
survey estimate in the final composite estimate;
the ratio between the EBLUP estimated value and
the corresponding direct estimate. This is to check
the extent to which the modelling changes the input
direct estimates;
the ratio between mean square error (MSE) of the
EBLUP estimate of the Oblast, and the MSE of direct
survey estimate (which in this case is simply the
variance, since the estimates are unbiased). This is
to check the extent to which the modelling has
improved precision of the estimates.
45
Application to the HCR=FGT(0)
Table 2. Small area (EBLUP) estimates of at-risk-of-poverty rates for Oblasts
Oblast
AR Crimea
Vinnytska
Volynska
Dnipropetrovska
Donetska
Zhytomyrska
Zakarpatska
Zaporizka
Ivano-Frankivska
Kyivska
Kirovogradska
Luganska
Lvivska
Mykolaivska
Odeska
Poltavska
Rivnenska
Sumska
Ternopilska
Kharkivska
Khersonska
Khmelnytska
Cherkaska
Chernivetska
74 Chernigivska
80 Kyiv
85 Sevastopil
1
5
7
12
14
18
21
23
26
32
35
44
46
48
51
53
56
59
61
63
65
68
71
73
n
(1)
est
(2)
se
(3)
gamma
est
(4)
(5)
462
426
287
760
734
326
310
441
300
350
291
566
563
312
393
432
287
315
250
585
319
328
394
237
24,89%
24,30%
47,30%
27,22%
25,58%
34,22%
20,30%
24,39%
20,09%
21,17%
47,09%
29,20%
29,25%
19,81%
38,48%
27,47%
39,28%
29,07%
42,77%
20,59%
32,96%
29,79%
18,37%
29,60%
3,50%
3,38%
5,92%
3,59%
2,85%
6,04%
4,99%
4,04%
3,41%
4,86%
5,05%
3,12%
2,81%
3,53%
4,53%
3,23%
6,02%
5,92%
7,16%
2,28%
4,66%
4,02%
3,72%
4,27%
0,74
0,75
0,50
0,73
0,81
0,49
0,58
0,68
0,75
0,60
0,58
0,78
0,82
0,74
0,63
0,77
0,49
0,50
0,41
0,87
0,62
0,69
0,72
0,66
23,75%
26,79%
43,10%
29,38%
25,02%
34,59%
23,17%
22,91%
22,41%
18,39%
42,42%
29,45%
28,96%
20,34%
36,91%
28,10%
39,23%
27,85%
38,32%
20,43%
30,44%
28,49%
20,23%
28,74%
366
494
94
28,62%
9,63%
2,70%
4,34%
1,63%
3,23%
0,65
0,93
0,77
29,22%
9,56%
4,81%
stat_se
(6)
ratio_est
(7)=(5)/(2)
ratio_MSE
(8)=(6)/(3)
3,36%
3,22%
5,08%
3,43%
2,79%
4,82%
4,80%
3,70%
3,34%
4,52%
4,37%
3,08%
2,73%
3,30%
4,18%
3,16%
5,22%
4,78%
5,86%
2,26%
4,03%
3,59%
3,44%
3,80%
0,95
1,10
0,91
1,08
0,98
1,01
1,14
0,94
1,12
0,87
0,90
1,01
0,99
1,03
0,96
1,02
1,00
0,96
0,90
0,99
0,92
0,96
1,10
0,97
0,96
0,95
0,86
0,96
0,98
0,80
0,96
0,92
0,98
0,93
0,86
0,99
0,97
0,93
0,92
0,98
0,87
0,81
0,82
0,99
0,86
0,89
0,93
0,89
3,94%
1,66%
3,20%
1,02
0,99
1,78
1,02
0,91
1,02
0,99
0,92
46
Comment to the results
•
•
•
For what it concerns the weights given to direct
estimate (gamma), those are lower for those
Oblasts with lower sub-sample sizes.
In these cases, the gain in terms of MSE can
reach 20% for Oblasts like Zhytomyrska,
Sumska and Ternopilska.
Moreover, the direct estimates for the City of
Sevastopil (2,70%), is considered a too value by
any expert in poverty analysis. The final estimate
(4,81%) should be a much more unbiased value.
Here, the gain in terms of MSE is not large, since
the reduction in the original standard error, is
compensated by the increase of the real MSE,
which is obviously proportional to the magnitude
of the estimated measure.
47
Future research
•
•
•
•
•
•
Define a smaller disaggregation level
compared to Oblast level;
Estimate poverty and inequality (direct)
measures at that level;
Estimate standard errors with Jackknife
Repeated Replications (or BRR);
Identify variables to be used as
regressors in the EBLUP model available
for that disaggregation;
Perform EBLUP estimates;
Evaluate the gain in terms of variance
(greater compared to Oblast level).
48
Fly UP