Indice di Gini e scomposizione

by user

on 06-07-2016

Category: Documents

>> Downloads: 7

views

Report

Comments

Description

Download Indice di Gini e scomposizione

Transcript

Indice di Gini e scomposizione

Indice di concentrazione di Gini
Data una variabile y misurata su N individui
Si ordinano i dati in ordine crescente
Si considera la quota di Y detenuta dai primi i individui (i=1,2,…N)
E la quota di individui con y  yi
Definiamo le seguenti quantità:
N
Y   yi
j 1
1
pi 
Y
pi = frazione di A “fino” alla classe i
qi = frazione di unità “fino” alla classe i
Indice di concentrazione di Gini
 N 1

G  1    pi  pi 1 qi  qi 1 
 i 1

Compreso tra 0 e 1
i
 yi
j 1
qi 
i
N
Spiegazione grafica: Curva di Lorentz
Se rappresentiamo le coppie pi ; qi in un grafico cartesiano e le congiungiamo
otteniamo una spezzata che prende il nome di curva di concentrazione (o curva di
Lorenz-Gini).
Esempio:
I redditi di 7 individui sono: 80, 90, 21, 23, 16, 32, 62.
Dopo aver ordinato i redditi si ottengono le coppie di punti: pi ; qi In questo modo
E questo grafico:
1.2
1
0.8
qi
0.6
equidistribuzione
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
Curva di concentrazione
Osservazioni:
• (p0,q0)=(0,0) e (pN,qN)=(1,1)
• qi ≤ pi
Dimostrazione
 j 1 xi
i
i


da cui
N
x
j 1 i
essendo le x ordinate
N
å
å
i
x
j=1 i
N
j=1
xi
£
i
N
.
3
• Il generico punto (pi ,qi) della curva si può interpretare nel seguente
modo:
Il (pi ·100)% più povero possiede il (qi · 100)% del reddito totale.
• La curva parte sempre da (0,0) e termina sempre in (1,1). Inoltre,
essendo qi ≤ pi, la curva giace sempre al di sotto della retta passante per
questi due punti (bisettrice). La curva è sempre comprese tra le due
seguenti (potendo eventualmente coincidere):
1. La curva che giace sulla bisettrice. Essa è tale per cui pi=qi per ogni i da
cui segue che ogni unità possiede una quantità di carattere pari alla
media del carattere. Rappresenta quindi la situazione di equiripartizione.
2. La curva passante per i punti (Fi,0) i=1,…,N-1 ed (1,1). Essa corrisponde
alla situazione in cui tutto il carattere è concentrato in una sola unità
statistica (l’N-esima) e rappresenta quindi la situazione di massima
concentrazione.
Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione
tanto più aumenta la concentrazione del carattere.
E’ naturale quindi costruire indici di concentrazione basati sullo “scostamento” della
curva dalla bisettrice.
Ad esempio si potrebbero usare:
•Le distanze verticali tra la curva di concentrazione e la bisettrice;
•L’area compresa tra la curva di concentrazione e la bisettrice.
In ambedue i casi arriviamo all’indice di concentrazione di Gini.
Le distanze verticali tra la curva di concentrazione e la bisettrice sono date da pi – qi
Si noti come pi-qi ≥ 0 per ogni i
Sommando le differenze e dividendo per il valore Massimo che tali differenze possono
assumere ( tuuti i qi sono nulli tranne l’ultimo) otteniamo una formulazione
dell’indice di concentrazione di Gini
N 1
R
( p  q )
i
1
i
1.2
1
N 1
p
i 1
i
• R vale 0 nel caso di
equi-ripartizione (pi qi =0 per ogni i)
• R vale 1 nel caso di
massima
concentrazione
pi - qi = pi i 
(pi - qn )= (pi )
0.8
qi
0.6
equidistribuzione
0.4
P3-q3
P2-q2
0.2
0
0
0.2
0.4
0.6
0.8
1
In alternativa misuriamo l’area tra la curva di concentrazione e la retta
di equidistribuzione prende il nome di area di concentrazione.
Si noti come l’area di concentrazione sia sempre maggiore o uguale a
zero. In particolare:
•nel caso di equiripartizione è pari a zero;
•al crescere della concentrazione cresce senza mai superare il valore 1/2.
Una misura esatta dell’area A di concentrazione può essere ottenuta
sottraendo all’area del triangolo la somma delle aree degli n trapezi
delimitati dai punti (Fi,Qi) per i =0,1,…,n.
Area del trapezio:
½ x Somma delle basi x
altezza
1
0,9
qi
0,8
qi
0,7
qi 1
0,6
0,5
A
0,4
0,3
pi 1
0,2
pi
0,1
0
0
0,2
0,4
0,6
0,8
1
Ai 
pi
1
( pi  pi 1 )( qi  qi 1 )
2
altezza
Somma basi
Un indice di concentrazione si può ottenere dividendo l’area di concentrazione
per il valore assunto da tale area nel caso di concentrazione massima:
N 1
R
A

Amax
1 2  1 2  ( pi  pi 1 )( qi  qi 1 )
i 1
Amax
Dove AMax si ottiene considerando x1 =…= xN-1 =0 e xN=Nμ e risulta pari a (N-1)/2N.
N 1
R
A

Amax
1 2  1 2  ( pi  pi 1 )( qi  qi 1 )
i 1
N  1 2 N
N 1

1   ( pi  pi 1 )( qi  qi 1 )
i 1
N  1
N
Si può dimostrare che il rapporto così costruito è uguale all’indice definito in
precedenza ovvero l’indice di concentrazione di Gini si può ricavare anche dividendo
l’area di concentrazione per il suo valore massimo.
9
Il Fattore (N-1)/N Tende molto rapidamente ad 1 al crescere di N, quindi per N
“grande” l’area di concentrazione sarà data dalla differenza tra l’area del triangolo
sotteso alla bisettrice pari a 1/2 e la somma delle aree dei singoli “trapezi” senza
normalizzazione
otteniamo l’indice di concentrazione di Gini in altra formulazione:
 N 1

G  1    pi  pi 1 qi  qi 1 
 i 1

Per N=25 la differenza tra gli indici è del 4% e per N=50 è del 2%
Vedi esempio Excell
Vi sono molti modi per calcolare l’indice di Gini:
Ad esempio riprendiamo la definizione di una misura di variabilità (poco usata)
DIFFERENZA MEDIA ASSOLUTA (CON RIPETIZIONE):
N

N
 y  y
i 1 j 1
i
j
N2
Questa misura può essere interpretata come la differenza attesa tra i redditi di due
individui selezionati in modo casuale dalla popolazione.
E’ immediato dimostrare che in caso di equidistribuzione  = 0
E in casi di massima concentrazione
 = 2
Rapportando  al suo massimo ottengo un indice di concentrazione che è proprio
l’indice G di Gini
N
G




 max 2
N
 y  y
i 1 j 1
i
j
N 2 2
Questa formulazione calcolatoriamente più complicata, si presta però ad una
SCOMPOSIZIONE IMPORTANTE DELL’INDICE
Tra una componente “entro” e una “tra” in modo simile alla scomposizione della
Varianza.
Come vedremo
Prima (usuale) scomposizione
Sia data una popolazione di N unità distinte in K gruppi su cui è misurata una variabile “trasferibile” Y (es.
reddito) con media .
N N
L’indice G sarà:
G
 y  y
i 1 r 1
i
r
N 2 2
Definiamo due “nuovi indici”:
1. L’indice di Gini “ENTRO” il gruppo j-esimo di numerosità nj e media µj
nj
G jj 
nj
 y  y
i 1 r 1
2
i
r
N 2 j
Derivato dalle differenze tra gli appartenenti al gruppo j-esimo
2. L’indice di Gini “TRA” il gruppo j-esimo e h-esimo :
nj
G jh 
nh
 y
i 1 r 1
i j
 yrh
n j ni (  j   h )
Derivato dalle differenze di tutti gli appartenenti al gruppo J e tutti gli apparteneti al gruppo h
Scomposizione (proposta Dagum)
Ovviamente l’indice G (generale) sarà una media ponderata degli indici “IN” e “TRA”
Definiamo i seguenti pesi:
pj 
sj 
nj
N
pj yj
y
= quota della popolazione del gruppo j
= quota di reddito della popolazione del gruppo j
Allora l’indice G può essere scomposto in:
G  Gw  Gb
K
Gw   G jj p j s j
j 1
K
Gb 
K
 G
j 1 r 1
K
jr
p j sr
Questa scomposizione ha, tuttavia, un problema molto rilevante:
Normalmente i gruppi in cui viene suddivisa la popolazione, dal punto di vista dello
ammontare del reddito hanno aree di sovrapposizione:
Ad esempio vi saranno alcuni pensionati che percepiscono un reddito superiore a quello
di alcuni lavoratori dipendenti, PUR ESSENDO IL REDDITO MEDIO DEI LAVORATORI
DIPENDENTI SUPERIORE A QUELLO DEI PENSIONATI
Come è noto, questo fenomeno va sotto il nome di TRANSVARIAZIONE
Il problema nasce dl fatto che essendo la differenza media calcolata in base ai valori
assoluti, essa è “adirezionale” cioè da lo stesso peso alla differenza di reddito dipendente
maggiore di un reddito di pensione e viceversa.
Un pensionato che guadagna 2000 euro contro un dipendente che ne percepisce 1000
Contribuisce alla misura della differenza TRA come un dipendente che guadagna 2000 e
un pensionato che percepisce 1000
E’ evidente che il primo caso dovrebbe “abbassare” l’indice, mentre il secondo dovrebbe
incrementarlo
Dagum propone una una ulteriore e diversa scomposizione dell’indice per
tener conto della transvariazione.
Seguiamo la sua proposta riprendendo il problema dall’inizio:
Sia data una popolazione Q di n percettori con reddito yi con media 
partizionata in K gruppi essendo il gruppo j caratterizzato da numerosità nj
e media j (j=1…..K). Si supponga che i gruppi siano ordinati in ordine
crescente di valor medio
Siano
e s j  n j  j n
pj  nj n
K
con
K
K
K
 p   s  p s
j 1
j
j 1
j
j 1 h 1
j h
1
Le quote di popolazione e di reddito di ciascun gruppo
Definiamo:
nj
 jh 
nh
 y
G jh 
i 1 r 1
ji
 yhr
n j nh
 jh
 j  h
Naturalmente sarà:
Differenza media tra i gruppi j e h, generalizzazione
della differenza media di Gini
Indice di Gini della differenza TRA i gruppi j e k
G jh  Ghj
e  jh   hj
Definiamo la relazione “più ricca di” (more affluent than)
Un gruppo j sarà “più ricco di” un gruppo k se j > k
Definiamo una misura di “gross affluence” tra due gruppi j e k
  y
nj
d jh 
i 1 r: y ji  y hr
ji
 yhr 
num(r : y ji  yhr )
Media delle differenze tra i redditi dei soggetti  j
che hanno un reddito superiore ai soggetti  k
E una misura della “transvariazione” tra i gruppi j e k (attenzione agli indici!)
  y
nh
p jh 
r 1 r: yhr  y ji
hr
 y ji 
num(r : y ji  yhr )
Media delle differenze tra i redditi dei soggetti  k
che hanno un reddito superiore ai soggetti  j
Dato che le due misure “scompongono” le differenze in valore assoluto, è
agevole dimostrare che dato j > k sia ha:
d jh  p jh   jh
e
1
0  p jh   jh  d jh   jh
2
Inoltre
p jh  0
se non vi è sovrapposizione tra i redditi dei
e d jh   jh gruppi (transvariazione=0)
e
p jh  d jh 
1
 jh
2
se j = k
Possiamo adesso definire la “net affluence” cioè la misura della maggiore ricchezza del
gruppo j rispetto a lgruppo h
AL NETTO DELLA TRANSVARIAZIONE come differenza tra le due componenti:
d jh  p jh
E sarà:
0  (d jh  p jh )   jh
Infine, definiamo la “Relative Net Affluence (REA)” come il rapporto tra la “net affluence”
e il suo massimo:
REA  D jh 
(d jh  p jh )
 jh

(d jh  p jh )
(d jh  p jh )
Questa misura:
REA  D jh 
(d jh  p jh )
 jh

(d jh  p jh )
(d jh  p jh )
1. È adimensionale (sia i p che i i d sono differenze di reddito e quindi il loro rapporto è
un “puro numero”
2. Può essere definita come una misura di “distanza economica direzionale”
In sostanza REA misura la proporzione di Gjh (indice di Gini “tra” j e h) con cui le
sottopopolazioni j e h contribuiscono alla disuguaglianza tra i gruppi,
opportunamente ponderata per le numerosità e l’ammontare dei redditi
(1-REA) misura la proporzione di Gjh dovuta alla transvariazione tra i gruppi, che
ovviamente nella valutazione della “concentrazione TRA” i gruppi, costituisce un
“fattore di disturbo”, o meglio una componente da isolare.
Opportunamente ponderati, i prodotti (Gjh Djh) e [Gjh (1-Djh)] consentono di scomporre
l’indice generale di Gini in 3 componenti:
G  Gw  Gnb  Gt
Conc. TOT = Conc. IN + Conc. TRA (NETTA) + Conc. Da TRANSVARIAZIONE
Dove:
K
Gw   G jj p j s j
j 1
j 1
Gnb   G jh  p j sh  ph s j D jh
K
j  2 h 1
j 1
Gt   G jh  p j sh  ph s j 1  D jh 
K
j  2 h 1
La scomposizione chiarisce il meccanismo che determina la diseguaglianza:
Consideriamo come sempio i gruppi Lavoratori Dipendenti e Lavoratori
autonomi e supponiamo che il reddito medio dei dipendenti sia maggiore di
quello degli autonomi
Gw = Concentrazione ENTRO i gruppi, quota di concentrazione dovuta alla
disuguaglianza interna a ciascun gruppo, cioè la parte di diseguaglianza
legata DISTINTAMENTE alla differenza tra i redditi dei lavoratori dipendenti
e i redditi dei lavoratori autonomi.
Gnb = Concentrazione TRA NETTA (al netto della trans-variazione). E’ la
parte dovuta alla differenza tra i redditi dei dipendenti e i redditi degli
autonomi per i quali il redditi dei dipendenti è MAGGIORE.
Gt = TRANSVARIAZIONE E’ la parte dovuta alla differenza tra i redditi dei
dipendenti e i redditi degli autonomi per i quali il redditi dei dipendenti è
MINORE.
Semplificando (troppo) con uno slogan potremmo dire:
In generale i dipendenti sono più “ricchi” degli “autonomi”
Gw = Misura la differenza ricchi-poveri dentro ciascuna categoria,
indipendentemente dalla tendenza generale, cioè all’interno dei
dipendenti e all’interno degli autonomi
Gnb = misura la differenza ricchi-poveri tra coloro che rispettano la
tendenza generale (le medie) cioè tra i dipendenti “ricchi” e gli
autonomi “poveri”
Gt = misura la differenza ricchi-poveri tra coloro che “invertono” la
tendenza generale (quella delle medie) cioè tra autonomi “ricchi” e
dipendenti “poveri”
Nel caso di diversi gruppi il calcolo è complesso ma
Per calcolare le diverse componenti della scomposizione proposta da Dagum è
disponibile una “macro” di Excell messa a punto da
S. Mussard, F. Seyte e M. Terraza nel 2003.
Il programma può essere scaricato gratuitamente al seguente indirizzo:
http://www.lameta.univ-montp1.fr/online/gini.html.
C’è anche a disposizione un codice SAS e R.