...

Lezioni 15-16 aprile - Dipartimento di Scienze Sociali ed Economiche

by user

on
Category: Documents
33

views

Report

Comments

Transcript

Lezioni 15-16 aprile - Dipartimento di Scienze Sociali ed Economiche
statistica
misure di concentrazione
alessandro polli
facoltà di scienze politiche, sociologia, comunicazione
15-16-20 aprile 2015
Generalità
Obiettivo
L’obiettivo di questa sezione è analizzare una particolare proprietà che
può manifestarsi nel caso di caratteri trasferibili e che è indicata con il
termine di concentrazione
Un carattere trasferibile è un carattere che può essere ceduto in tutto
o in parte tra unità statistiche componenti un collettivo. Alcuni caratteri
quantitativi (quali la statura, il peso o l'età) non sono cedibili o
trasferibili. Altri invece (il reddito, la ricchezza patrimoniale, il numero
di dipendenti di un'azienda, l’audience televisiva) possono essere
oggetto di trasferimenti totali o parziali
La concentrazione è il modo in cui un carattere trasferibile si ripartisce
tra le unità statistiche componenti un collettivo ordinato
Generalità
Il principio di Pareto
Nel 1897 Pareto, studiando la distribuzione dei redditi, propose un
primo metodo per misurare la concentrazione dei redditi
La ricerca ispirò la cosiddetta «legge 80/20», una legge empirica nota
con il nome di principio di Pareto (o principio della scarsità dei fattori):
considerando grandi numeri, la maggior parte degli effetti è dovuta
ad un numero ristretto di cause
Naturalmente i valori 80% e 20% sono ottenuti mediante osservazioni
empiriche e sono indicativi, ma è interessante notare come numerosi
fenomeni abbiano una distribuzione statistica in linea con questi valori
Generalità
Il principio di Pareto
Ad esempio, nella tabella è riportata la distribuzione mondiale del
prodotto interno lordo per quintili, ricavata ordinando i 195 Paesi
censiti dal Fondo monetario internazionale in ordine ascendente
rispetto alla variabile Pil
Tabella 1. Distribuzione mondiale del prodotto
interno lordo (1989, 2013). Dati in percentuale
Quantile
1989
2013
Primo quintile
Secondo quintile
Terzo quintile
Quarto quintile
Quinto quintile
1,40
1,85
2,30
11,75
82,70
0,09
0,49
1,54
7,31
90,57
Dalla lettura della tabella si evince che nel 1989 il 20% delle
nazioni più ricche deteneva quasi l’83% del Pil mondiale ed oltre
il 90% 24 anni dopo
Le misure di concentrazione
Misurare la concentrazione
Supponiamo di rilevare il reddito delle famiglie italiane. Ci interessa
sapere se il reddito complessivo si distribuisce più o meno equamente
tra le famiglie o se viceversa una frazione rilevante dell’ammontare
complessivo del reddito è detenuta da un numero esiguo di famiglie
Se tutte le famiglie disponessero dello stesso ammontare di reddito, ci
troveremmo in una situazione ipotetica di equidistribuzione; nel caso
in cui tutto il reddito fosse detenuto da una sola famiglia e tutte le altre
avessero un reddito pari a zero, ci troveremmo in una situazione
altrettanto ipotetica di concentrazione massima
Nella realtà ci troviamo sempre in situazioni intermedie ed il nostro
obiettivo è misurare il grado di concentrazione del carattere nel
collettivo analizzato
Le misure di concentrazione
Analisi statistica della concentrazione
In generale un carattere è tanto più concentrato quanto maggiore è la
quota dell’ammontare complessivo del carattere detenuta dalle
ultime unità nel collettivo ordinato
Tale definizione è utile per determinare una metodologia per misurare
la concentrazione stessa.
Quali caratteristiche deve avere una buona misura di concentrazione?
Intuitivamente, una misura di concentrazione semplice da interpretare
dovrebbe assumere valore zero nel caso di equidistribuzione (in
quanto vi è assenza di concentrazione) e un qualche valore massimo
quando l’ammontare complessivo del carattere è detenuto da una sola
unità
Le misure di concentrazione
Analisi statistica della concentrazione
Ipotizziamo che un carattere trasferibile 𝑿 si ripartisca tra 𝑛 unità
statistiche e ipotizziamo di ordinare queste ultime sulla base
dell’ammontare di carattere detenuto. Ne deriverà un ordinamento
delle unità statistiche in ragione dell’ammontare di carattere detenuto
da ciascuna di esse. Con riferimento all’ammontare di carattere avremo
che:
𝑥1 ≤ … ≤ 𝑥𝑖 ≤ … ≤ 𝑥𝑛
Analizziamo separatamente i due casi limite dell’equidistribuzione e
della massima concentrazione e deriviamone una misura di
concentrazione con i requisiti individuati in precedenza
Le misure di concentrazione
Alcune convenzioni sulla notazione adottata
• Quanto all’ammontare complessivo 𝑆𝑛 del carattere che si ripartisce
all’interno del collettivo, sarà ovviamente:
𝑛
𝑆𝑛 = 𝑥1 + … + 𝑥𝑛 =
𝑥𝑖
𝑖=1
• Per ragioni che saranno evidenti tra poco, ci interessa anche la
successione delle somme parziali, il cui generico 𝑖-esimo termine
𝑆𝑖 è definito come
𝑖
𝑆𝑖 = 𝑥1 + … + 𝑥𝑖 =
𝑗=1
𝑥𝑗
1≤𝑖≤𝑛
Interpretiamo la somma parziale come l’ammontare del carattere
detenuto dalle prime 𝒊 unità statistiche nel collettivo ordinato
Le misure di concentrazione
Alcune convenzioni sulla notazione adottata
• Indichiamo con
𝑖
𝑝𝑖 =
𝑛
la frazione delle prime 𝒊 unità statistiche nel collettivo ordinato
sull’ampiezza del collettivo
• Indichiamo infine con
𝑞𝑖 =
𝑆𝑖
𝑆𝑛
la frazione dell’ammontare complessivo del carattere detenuto
dalle prime 𝒊 unità statistiche nel collettivo ordinato
Le misure di concentrazione
Primo caso limite: equidistribuzione
Se il carattere è equidistribuito, ovviamente avremo che:
𝑥1 = … = 𝑥𝑖 = … = 𝑥𝑛 ≡ 𝑥
e quindi per 1 ≤ 𝑖 ≤ 𝑛 si ha che
𝑖 𝑣𝑜𝑙𝑡𝑒
𝑆𝑖
𝑥1 + … + 𝑥𝑖 𝑥 + … + 𝑥 𝑖𝑥
𝑖
𝑞𝑖 =
=
=
=
= = 𝑝𝑖
𝑆𝑛 𝑥1 + … + 𝑥𝑛 𝑥 + … + 𝑥 𝑛𝑥 𝑛
𝑛 𝑣𝑜𝑙𝑡𝑒
In generale, nel caso di equidistribuzione, vale l’identità 𝑝𝑖 = 𝑞𝑖 ;
in corrispondenza dell’ultima unità statistica nel collettivo ordinato,
inoltre, si ha che 𝑝𝑛 = 𝑛 𝑛 = 1 e analogamente 𝑞𝑛 = 𝑆𝑛 𝑆𝑛 = 1
Le misure di concentrazione
Secondo caso limite: massima concentrazione
Si ha massima concentrazione nel caso in cui le prime 𝑛 − 1 unità
statistiche non si ripartiscono nulla e l’ultima unità nel collettivo
ordinato detiene l’intero ammontare del carattere. Risulterà quindi:
𝑥1 = … = 𝑥𝑖 = … = 𝑥𝑛−1 = 0; 𝑥𝑛 = 𝑆𝑛
e quindi
𝑞𝑖 =
𝑆𝑖
0 + …+ 0
=
=0
𝑆𝑛 𝑥1 + … + 𝑥𝑛
1≤𝑖<𝑛
Notare che in caso di massima concentrazione 𝑝𝑖 > 𝑞𝑖 per 1 ≤ 𝑖 < 𝑛 e
solo in corrispondenza dell’ultima unità statistica si realizza l’identità
𝑝𝑛 = 𝑞𝑛 , poiché 𝑝𝑛 = 𝑛 𝑛 = 1 e 𝑞𝑛 = 𝑆𝑛 𝑆𝑛 = 1
Le misure di concentrazione
Casi intermedi
In tutti i casi intermedi, cioè quelli in cui non sussiste equidistribuzione
né massima concentrazione, vale la seguente disuguaglianza:
𝑝𝑖 > 𝑞𝑖
1≤𝑖<𝑛
e solo in corrispondenza dell’ultima unità statistica vale l’uguaglianza
𝑝𝑛 = 𝑞𝑛 , in quanto è ovvio che il 100% del collettivo si ripartisce il
100% dell’ammontare complessivo del carattere
Una volta analizzata la situazione relativa alla ripartizione del carattere
nei casi limite e in quelli intermedi, concentriamoci sull’elaborazione
della misura della concentrazione
Le misure di concentrazione
Il rapporto di Gini
Poiché in generale risulta 𝑝𝑖 ≥ 𝑞𝑖 , con il segno di uguaglianza che vale
solo nel caso di equidistribuzione del carattere, possiamo costruire una
misura di concentrazione a partire dalle differenze:
𝑝𝑖 − 𝑞𝑖 ≥ 0
in cui, di nuovo, il segno di uguaglianza vale solo in caso di
equiripartizione
Tale quantità rappresenta una misura indiretta dei trasferimenti in
avanti, realizzati dalle prime 𝑖 unità statistiche a favore delle 𝑛 − 𝑖
unità che seguono nel collettivo ordinato
Possiamo sintetizzare le differenze osservate nel collettivo attraverso la
loro somma, limitata alle prime 𝑛 − 1 unità statistiche, in quanto
sull’ultima unità si realizza sempre l’identità 𝑝𝑖 = 𝑞𝑖 = 1
Le misure di concentrazione
Il rapporto di Gini
Indicando con 𝑇 la somma delle differenze citate, avremo
𝑛−1
𝑇=
𝑖=1
𝑝𝑖 − 𝑞𝑖 ≥ 0
Poiché la quantità 𝑇 è una misura assoluta di concentrazione,
possiamo normalizzarla, al fine di ottenere una misura relativa
compresa tra 0 (assenza di concentrazione) e 1 (massima
concentrazione)
A questo fine, rapportiamo 𝑇 al valore teorico che assumerebbe nel
caso di massima concentrazione
Infatti, nel caso di massima concentrazione, con riferimento alle prime
𝑛 − 1 unità statistiche nel collettivo ordinato, abbiamo già detto che
∀𝑖, 𝑞𝑖 = 0 e quindi 𝑇 risulta pari a
𝑛−1
𝑇=
𝑖=1
𝑛−1
𝑝𝑖 − 𝑞𝑖 =
𝑖=1
𝑝𝑖
Le misure di concentrazione
Il rapporto di Gini
Rapportando quindi 𝑇 al valore che assume nel caso di massima
concentrazione, otteniamo il rapporto di concentrazione di Gini:
𝑔=
𝑛−1
𝑖=1 𝑝𝑖 − 𝑞𝑖
𝑛−1
𝑖=1 𝑝𝑖
È immediato accertare che il rapporto 𝑔 è una misura normalizzata
definita nell’intervallo 0, 1 :
• in caso di equidistribuzione, come si è visto risulta sempre 𝑝𝑖 = 𝑞𝑖 e
quindi ∀𝑖, 𝑝𝑖 − 𝑞𝑖 = 0. In definitiva, essendo il numeratore del
rapporto 𝑛−1
𝑖=1 𝑝𝑖 − 𝑞𝑖 = 0, segue che 𝑔 = 0
• in caso di concentrazione massima, per le prime 𝑛 − 1 unità nel
𝑛−1
collettivo ordinato si ha che 𝑞𝑖 = 0, quindi 𝑛−1
𝑖=1 𝑝𝑖 − 𝑞𝑖 = 𝑖=1 𝑝𝑖
e quindi 𝑔 = 1
Le misure di concentrazione
Il rapporto di Gini
Esiste anche una formula rapida per il calcolo del rapporto (o indice, o
coefficiente) di concentrazione di Gini. Infatti, risulta che
𝑔=
𝑛−1
𝑖=1 𝑝𝑖 − 𝑞𝑖
𝑛−1
𝑖=1 𝑝𝑖
=
𝑛−1
𝑖=1 𝑝𝑖
𝑛−1
𝑖=1 𝑝𝑖
−
𝑛−1
𝑖=1 𝑞𝑖
𝑛−1
𝑖=1 𝑝𝑖
=1−
𝑛−1
𝑖=1 𝑞𝑖
𝑛−1
𝑖=1 𝑝𝑖
Ricordando che 𝑝𝑖 = 𝑖 𝑛, potremo pertanto scrivere che
𝑛−1
𝑖=1
Osservando che
dimostrarsi che
𝑛−1
𝑖=1 𝑖
𝑛−1
𝑝𝑖 =
𝑖=1
𝑖 1
=
𝑛 𝑛
𝑛−1
𝑖
𝑖=1
è una progressione aritmetica e che può
𝑛−1
𝑖=
𝑖=1
𝑛 𝑛−1
2
Le misure di concentrazione
Il rapporto di Gini
Sostituendo nella precedente relazione otteniamo
𝑛−1
1
𝑝𝑖 =
𝑛
𝑖=1
𝑛−1
𝑖=
𝑖=1
1𝑛 𝑛 −1
𝑛−1
=
𝑛
2
2
e quindi
𝑔 =1−
𝑛−1
𝑖=1 𝑞𝑖
𝑛−1
𝑖=1 𝑝𝑖
=1−2
𝑛−1
𝑖=1 𝑞𝑖
𝑛−1
Il vantaggio di tale formulazione è che richiede la conoscenza di meno
informazioni, in quanto per il calcolo è sufficiente disporre della
ripartizione del carattere e dell’ampiezza del collettivo
Le misure di concentrazione
Il rapporto di Gini
Esempio 1. Ipotizziamo che nel seguente prospetto siano riportati gli
ascolti registrati nella fascia oraria 20,30-22,30 dalle sei principali reti
televisive italiane. Il nostro obiettivo è scoprire quanto è concentrato il
carattere «numero di telespettatori»
Reti
Audience (mln di
telespettatori)
RAI 1
RAI 2
RAI 3
Rete 4
Canale 5
Italia 1
14
3
4
3
9
2
Totale
35
Le misure di concentrazione
Il rapporto di Gini
Costruiamo quindi il seguente prospetto di calcolo:
Unità ordinate
in senso
ascendente
Tabella 1. Prospetto di calcolo del rapporto di concentrazione di Gini.
Caso di distribuzione unitaria
Reti
𝑖
𝑥𝑖
𝑝𝑖
𝑆𝑖
𝑞𝑖
𝑝𝑖 − 𝑞𝑖
Italia 1
Rete 4
RAI 2
RAI 3
Canale 5
RAI 1
1
2
3
4
5
6
2
3
3
4
9
14
0,1667
0,3333
0,5000
0,6667
0,8333
1,0000
2
5
8
12
21
35
0,0571
0,1429
0,2286
0,3429
0,6000
1,0000
0,1095
0,1905
0,2714
0,3238
0,2333
-
Totale
35
Ammontare del carattere di
pertinenza dell’𝑖-esima unità
nel collettivo ordinato
𝑞𝑖 =
1,1286
𝑖
𝑝𝑖 =
𝑛
𝑖
𝑗=1
𝑥𝑗
𝑛−1
𝑖=1
𝑝𝑖 − 𝑞𝑖
𝑆𝑖
𝑆𝑛
Le misure di concentrazione
Il rapporto di Gini
Il prospetto di calcolo è costruito riordinando preliminarmente in senso
ascendente le unità statistiche sulla base dell’ammontare del carattere
detenuto da ciascuna di esse
Poiché l’ampiezza del collettivo è pari a 𝑛 = 6 unità statistiche, nella
colonna intestata alla variabile 𝑝𝑖 ciascun elemento è ottenuto come
rapporto tra numero delle prime 𝒊 unità nel collettivo ordinato, così
come riportata nella colonna 𝑖 , e ampiezza del collettivo. Ad esempio,
con riferimento al secondo elemento, si avrà che
𝑝2 =
𝑖 2
= ≅ 0,3333
𝑛 6
Le misure di concentrazione
Il rapporto di Gini
Quanto alla colonna relativa alle somme parziali 𝑆𝑖 , ciascun elemento è
ricavato applicando la relazione:
𝑖
𝑆𝑖 =
𝑗=1
𝑥𝑗
Ad esempio, il secondo elemento della colonna è ottenuto tramite il
seguente calcolo:
2
𝑆2 =
𝑗=1
𝑥𝑗 = 𝑥1 + 𝑥2 = 2 + 3 = 5
Gli elementi della colonna intestata a 𝑞𝑖 si ricavano rapportando l’𝑖esimo valore di somma parziale all’ammontare complessivo del
carattere ripartito all’interno del collettivo:
𝑆𝑖
𝑞𝑖 =
𝑆𝑛
Le misure di concentrazione
Il rapporto di Gini
Ad esempio, con riferimento al risultato precedente, il valore della
relativa frazione è dato da
𝑆2
5
𝑞2 =
=
≅ 0,1429
𝑆𝑛 35
Come devono essere lette le due frazioni calcolate nel modo appena
descritto? Poiché 𝑝2 = 0,3333 e 𝑞2 = 0,1429, questo significa che il
primo 33,3% del collettivo ordinato detiene il 14,3% dell’ammontare
complessivo del carattere. Tradotto nei termini del presente esempio,
significa che le due emittenti con gli ascolti più bassi hanno
complessivamente raggiunto il 14,3% di share
Le misure di concentrazione
Il rapporto di Gini
Nell’ultima colonna si riportano le differenze 𝑝𝑖 − 𝑞𝑖 . Di nuovo, con
riferimento alla seconda unità del collettivo, avremo che
𝑝2 − 𝑞2 = 0,3333 − 0,1429 = 0,1905
Tale differenza, come si è visto, rappresenta una misura indiretta del
trasferimento in avanti, ovvero della frazione dell’ammontare di
carattere che le due unità cedono a favore delle restanti quattro unità e
che misura la «distanza» rispetto ad un’ipotetica situazione di
equidistribuzione del carattere nel collettivo
Sommando le prime cinque differenze, ottenute con la procedura
descritta, e rapportandole alla somma dei primi cinque valori di 𝑝𝑖 ,
otteniamo il valore del rapporto di concentrazione di Gini
Le misure di concentrazione
Il rapporto di Gini
Avremo infatti che
𝑛−1
𝑖=1
𝑝𝑖 = 1,167 + 0,333 + 0,500 + 0,667 + 0,833 = 2,500
Tale quantità, come si è osservato in precedenza, rappresenta
l’ammontare di 𝑇 nel caso ipotetico di massima concentrazione, mentre
nel collettivo osservato è pari a:
𝑛−1
𝑖=1
𝑝𝑖 − 𝑞𝑖 = 1,1286
Otteniamo il rapporto di concentrazione di Gini rapportando la seconda
quantità alla prima:
1,1286
𝑔=
≅ 0,4514
2,5000
Le misure di concentrazione
Il rapporto di Gini
Applichiamo adesso la formula rapida per il calcolo del rapporto di Gini.
Ricordando che
𝑔 =1−2
poiché la quantità
𝑛−1
𝑖=1 𝑞𝑖
𝑛−1
𝑖=1 𝑞𝑖
𝑛−1
= 1,3714, si avrà che
𝑛−1
𝑖=1 𝑞𝑖
1,3714
𝑔 =1−2
=1−2∙
≅ 0,4514
𝑛−1
5
La formula può essere applicata quando siamo interessati solo al valore
del rapporto di concentrazione. Se invece il nostro obiettivo è indagare
la struttura dei trasferimenti in avanti, potrebbe essere preferibile
applicare la procedura standard
Le misure di concentrazione
Il rapporto di Gini
Come interpretare il valore del rapporto di concentrazione? Evitando
come al solito l’applicazione di «regole del pollice» (ad esempio quella
secondo cui un valore del rapporto 𝑔 ≤ 0,5 indicherebbe una
concentrazione «bassa», mentre un valore del rapporto 𝑔 > 0,5
indicherebbe un’elevata concentrazione del carattere), di solito è la
natura del problema studiato che ci fornisce indicazioni per la lettura e
l’interpretazione del risultato
Ad esempio, Cornia e Court (2001), a proposito di un livello di
disuguaglianza nella distribuzione del reddito che non rallenti la crescita
economica, stimavano che il rapporto ottimale di concentrazione di Gini
dovesse essere compreso tra 0,25 (valore riscontrabile nei paesi
scandinavi) e 0,40 (quello di paesi come la Cina e gli Stati Uniti)
G.A. Cornia, J. Court (2001), Inequality, Growth and
Poverty in the Era of Liberalization and Globalization,
UNU-WIDER, Policy Brief N. 4
Le misure di concentrazione
La curva di Lorenz
La concentrazione può essere analizzata
graficamente, utilizzando la curva di
Lorenz
Tale rappresentazione grafica è stata
proposta da Lorenz, un economista
americano, nella sua dissertazione di
dottorato discussa nel 1905 e
ampiamente utilizzata in seguito per
l’analisi della disuguaglianza nella
distribuzione dei redditi
O. M. Lorenz (1905), The Economic Theory of
Railroad Rates, Ph.D Dissertation
Le misure di concentrazione
La curva di Lorenz
Il diagramma in cui è tracciata la curva di Lorenz è un diagramma c.d. «a
scatola». Inizialmente concepito da Pareto, il suo utilizzo nelle scienze
sociali si è diffuso nell’ultimo ventennio del XIX secolo ad opera di
Edgeworth e Bowley, tanto che nella letteratura anglosassone è indicato
come Edgeworth box
In precedenza abbiamo associato a ciascuna unità statistica componente
il collettivo le due frazioni 𝑝𝑖 e 𝑞𝑖 . È quindi immediato rappresentare la
situazione caratterizzante ciascuna unità, all’interno di un sistema di assi
cartesiani, come un punto di coordinate 𝑝𝑖 , 𝑞𝑖
In maniera del tutto ovvia, se rappresentiamo le frazioni 𝑝𝑖 in ascissa e
le frazioni 𝑞𝑖 in ordinata, l’origine del sistema di assi cartesiani si
collocherà in corrispondenza del punto di coordinate 0, 0 , mentre il
punto corrispondente all’ultima unità statistica nel collettivo
ordinato (ricordando che 𝑝𝑛 = 𝑞𝑛 = 1) avrà coordinate 1, 1
Le misure di concentrazione
La curva di Lorenz
All’interno del diagramma figurano due elementi:
• la bisettrice del primo quadrante, cioè la retta uscente dall’origine e
inclinata a 45°, che rappresenta il luogo geometrico di tutti i punti in
cui si realizza l’identità 𝑝𝑖 = 𝑞𝑖 , cioè la condizione di equiripartizione
del carattere, indicata come retta di equidistribuzione
• la spezzata che congiunge i punti di coordinate 𝑝𝑖 , 𝑞𝑖 e che fornisce
la rappresentazione grafica della situazione osservata, indicata come
spezzata di concentrazione o curva di Lorenz
La spezzata di concentrazione gode di alcune proprietà:
1. È interamente contenuta nel triangolo di vertici 0, 0 , 1, 0 , 1, 1 .
Questo in diretta conseguenza del fatto che 𝑝𝑖 ≥ 𝑞𝑖
Le misure di concentrazione
La curva di Lorenz
2. È non decrescente, cioè tale che 𝑞𝑖 − 𝑞𝑖−1 ≥ 0
Dimostrazione. Poiché in generale
𝑆𝑖
𝑞𝑖 =
𝑆𝑛
si avrà che
𝑞𝑖 − 𝑞𝑖−1 =
𝑥1 + … + 𝑥𝑖 𝑥1 + … + 𝑥𝑖−1 𝑥𝑖
−
=
≥0
𝑆𝑛
𝑆𝑛
𝑆𝑛
in cui il segno di uguaglianza vale solo se 𝑥𝑖 = 0 e quindi sono nulle
tutte le prime 𝑖 osservazioni
Le misure di concentrazione
La curva di Lorenz
3. È convessa (presenta incrementi non decrescenti), quindi si avrà che
𝑞𝑖 − 𝑞𝑖−1 − 𝑞𝑖−1 − 𝑞𝑖−2 ≥ 0
Dimostrazione. Seguendo la procedura precedentemente adottata,
potremo scrivere che
𝑞𝑖 − 𝑞𝑖−1 − 𝑞𝑖−1 − 𝑞𝑖−2 =
𝑥𝑖 𝑥𝑖−1 𝑥𝑖 − 𝑥𝑖−1
−
=
≥0
𝑆𝑛
𝑆𝑛
𝑆𝑛
in quanto, come si ricorderà, le osservazioni sono state ordinate in
senso crescente e quindi in generale 𝑥𝑖 ≥ 𝑥𝑖−1 , con
Le misure di concentrazione
La curva di Lorenz
Nel caso di equidistribuzione, poiché
𝑝𝑖 ≡ 𝑞𝑖 , i punti sono dislocati sulla
bisettrice del primo quadrante
Nel caso di massima concentrazione,
poiché le prime 𝑛 − 1 unità statistiche
non si ripartiscono il carattere, che
risulta concentrato sull’ultima unità,
avremo che 𝑞𝑖 = 0 se 1 ≤ 𝑖 < 𝑛 e
𝑞𝑖 = 1 se 𝑖 = 𝑛. In questo caso la curva
di Lorenz unisce i punti di coordinate
0, 0 , 𝑝1 , 0 , … , 𝑝𝑛−1 , 0 al punto di
coordinate 1, 1
Le misure di concentrazione
La curva di Lorenz
Come leggere la curva di Lorenz? Da quanto detto in precedenza,
appare ovvio che quanto più la curva di Lorenz è vicina alla bisettrice del
primo quadrante, tanto minore è la concentrazione; viceversa, quanto
più la curva di Lorenz si allontana dalla bisettrice del primo quadrante,
tanto maggiore risulterà la concentrazione
Questa semplice considerazione è alla base di un approccio alternativo
alla misura della concentrazione, la cui logica risiede nel «modo» con cui
analizziamo la concentrazione da un punto di vista geometrico,
avvalendoci della curva di Lorenz
Le misure di concentrazione
L’indice di concentrazione R di Gini
Per esporre tale approccio alternativo,
torniamo ai dati dell’esempio 1
L’idea è rapportare la c.d. superficie di
concentrazione, cioè la porzione di
piano compresa tra la retta di
equidistribuzione e la spezzata di
concentrazione, all’area teorica
massima che caratterizzerebbe tale
superficie nel caso di massima
concentrazione
Le misure di concentrazione
L’indice di concentrazione R di Gini
In primo luogo, appare evidente che, essendo il diagramma a scatola
caratterizzato da lato unitario, l’area sottesa alla bisettrice del primo
quadrante sarà 𝐴 = 1 2
Possiamo quindi determinare la superficie di concentrazione sottraendo
ad 𝐴 l’area sottesa alla curva di Lorenz, che calcoleremo applicando un
metodo di integrazione numerica noto come «regola del trapezio» o
regola di Stevin
L’idea è quella di scomporre la superficie al di sotto della curva di Lorenz
in trapezi e di determinarne l’area sommando le aree dei trapezi stessi,
di cui sono noti tutti gli elementi utili al calcolo (base maggiore, base
minore e altezza)
Le misure di concentrazione
L’indice di concentrazione R di Gini
Procedendo da sinistra verso destra, l’area del triangolo di vertici 0, 0 ,
𝑝1 , 0 , 𝑝1 , 𝑞1 sarà pari a
𝐴1 =
1
𝑝 𝑞
2 1 1
L’area del primo trapezio da sinistra sarà data da
1
𝐴2 = 𝑝2 − 𝑝1
2
=𝑎𝑙𝑡𝑒𝑧𝑧𝑎
𝑞2 + 𝑞1
=𝑠𝑜𝑚𝑚𝑎
𝑑𝑒𝑙𝑙𝑒 𝑏𝑎𝑠𝑖
e per l’area del generico trapezio 𝑖-esimo, in generale scriveremo che
𝐴𝑖 =
1
𝑝 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
2 𝑖
Le misure di concentrazione
L’indice di concentrazione R di Gini
Effettuiamo qualche intervento «cosmetico» sul primo addendo (l’area
del triangolo) per tradurre la precedente successione di espressioni in
un algoritmo di calcolo
Osservando che 𝑝0 = 𝑞0 = 0, possiamo riformulare l’area del triangolo
nel modo seguente:
1
1
𝐴1 = 𝑝1 𝑞1 = 𝑝1 − 𝑝0 𝑞1 + 𝑞0
2
2
L’area sottesa alla curva di Lorenz sarà quindi data da
𝑛
𝐴𝐿 =
=
1
2
𝑛
𝐴𝑖 =
𝑛
𝑖=1
𝑖=1
1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
2
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
Le misure di concentrazione
L’indice di concentrazione R di Gini
La superficie di concentrazione può essere facilmente ricavata come
differenza tra l’area sottesa alla retta di equidistribuzione 𝐴 e quella
sottesa alla curva di Lorenz 𝐴𝐿 :
1 1
𝐴𝐶 = 𝐴 − 𝐴𝐿 = −
2 2
𝑛
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
e infine
1
𝐴𝑐 = 1 −
2
𝑛
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
Le misure di concentrazione
L’indice di concentrazione R di Gini
Concentriamoci adesso sui casi limite:
1. Caso di equidistribuzione. È ovvio e lo diamo senza dimostrazione:
in caso di equidistribuzione l’area di concentrazione si riduce fino a
coincidere con la bisettrice del primo quadrante; ovviamente è pari
a zero;
2. Caso di massima concentrazione.
Conviene procedere con la consueta
logica sottrattiva: la superficie di
massima concentrazione 𝐴𝐶 può essere
ottenuta dalla relazione 𝐴𝐶 = 𝐴 − 𝐴𝐿 ,
osservando che in questo caso l’area
sottesa alla curva di Lorenz è il triangolo
di vertici 𝑝𝑛−1 , 0 , 1, 0 , 1, 1
Le misure di concentrazione
L’indice di concentrazione R di Gini
In particolare, per quanto riguarda l’area sottesa alla curva di Lorenz,
osservando che
𝑝𝑛−1 =
𝑛−1
𝑛
l’altezza del triangolo a cui si riduce tale area in caso di massima
concentrazione sarà data da
ℎ =1−
𝑛−1
𝑛
La base del triangolo è pari all’unità, quindi l’area cercata sarà data dalla
relazione
1
𝑛−1
𝐴𝐿 =
1−
2
𝑛
Le misure di concentrazione
L’indice di concentrazione R di Gini
La superficie di massima concentrazione è quindi pari a
𝐴𝐶 = 𝐴 − 𝐴 𝐿 =
1 1
𝑛−1
1
1
−
1−
= 1−
2 2
𝑛
2
𝑛
=
1 𝑛−1
2
𝑛
Rapportando infine l’espressione della superficie di concentrazione
ricavata in precedenza alla superficie di massima concentrazione
otteniamo l‘indice 𝑅:
1
1−
2
𝑅=
𝑛
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
1 𝑛−1
2
𝑛
da cui è agevole dimostrare che
𝑛
𝑅=
1−
𝑛−1
𝑛
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
Le misure di concentrazione
L’indice di concentrazione R di Gini
Esempio 2. Sulla base dei dati dell’Esempio 1, calcoliamo l’indice di
concentrazione 𝑅. Gli elementi necessari per organizzare il prospetto di
calcolo sono riportati nella seguente tabella:
Reti
Italia 1
Rete 4
RAI 2
RAI 3
Canale 5
RAI 1
Totale
𝑝𝑖
𝑞𝑖
0,1667
0,3333
0,5000
0,6667
0,8333
1,0000
0,0571
0,1429
0,2286
0,3429
0,6000
1,0000
-
-
Le misure di concentrazione
L’indice di concentrazione R di Gini
Tabella 2. Prospetto di calcolo dell'indice di concentrazione R. Caso di distribuzione unitaria
Reti
Italia 1
Rete 4
RAI 2
RAI 3
Canale 5
RAI 1
Totale
𝑝𝑖
𝑞𝑖
𝑝𝑖 − 𝑝𝑖−1
𝑞𝑖 + 𝑞𝑖−1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
0,1667
0,3333
0,5000
0,6667
0,8333
1,0000
0,0571
0,1429
0,2286
0,3429
0,6000
1,0000
0,1667
0,1667
0,1667
0,1667
0,1667
0,1667
0,0571
0,2000
0,3714
0,5714
0,9429
1,6000
0,0095
0,0333
0,0619
0,0952
0,1571
0,2667
-
-
1,0000
-
0,6238
N.b. 𝑓𝑖 =
1
𝑛
𝑛
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
Le misure di concentrazione
L’indice di concentrazione R di Gini
Ricordando che
𝑛
𝑅=
1−
𝑛−1
𝑘
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
appare immediato scrivere che
𝑅=
6
1 − 0,6238 = 1,2 ∙ 0,3762 ≅ 0,4514
5
e quindi il valore del rapporto di concentrazione 𝑔 e quello dell’indice di
concentrazione 𝑅 coincidono nel caso di distribuzioni unitarie. Vedremo
che tale situazione non si realizza nel caso di caratteri continui ripartiti in
classi
Le misure di concentrazione
Caso di carattere continuo ripartito in classi
Nel caso di un carattere continuo ripartito in classi, le informazioni di
cui disponiamo potrebbero essere organizzate in prospetti di sintesi e
anche in questo caso potremmo avere necessità di calcolare una misura
di concentrazione
Esempio 3. Nel prospetto di destra
è riportata la spesa media mensile
familiare per consumi dei clienti
della catena di ipermercati DELIGHT,
che abbiamo già analizzato
trattando le medie di calcolo
Poiché la spesa è un carattere
trasferibile, calcoliamone la
concentrazione
Tabella 3. Spesa media mensile familiare per
consumi. Rilevazione tra i clienti della
DELIGHT. Valori in euro
Classi di spesa
[0, 500)
[500, 1000)
[1000, 1500)
[1500, 2000)
[2000, 2500]
Totale
𝑖
𝑓𝑖
68
164
426
251
91
0,068
0,164
0,426
0,251
0,091
1000
1,000
Le misure di concentrazione
Caso di carattere continuo ripartito in classi
Le informazioni contenute nel precedente prospetto ci obbligano ad
applicare alcuni accorgimenti, del resto abbastanza ovvi, per consentire
l’applicazione delle procedure di calcolo
Sappiamo già cosa fare nel caso di carattere ripartito in classi: poiché in
questo caso non disponiamo di valori puntuali, ma di intervalli di valori,
riconduciamo tali intervalli a valori puntuali individuando per ciascuno
di essi il valore centrale, definito come semisomma degli estremi
dell’intervallo
Naturalmente, procedendo nella maniera descritta stiamo
implicitamente ipotizzando che, all’interno di ogni classe, le unità
statistiche siano caratterizzate dallo stesso livello medio di spesa
Le misure di concentrazione
Caso di carattere continuo ripartito in classi
Ad esempio, con riferimento alla classe di spesa compresa tra 0 e 500
euro, stiamo ipotizzando che le 68 unità statistiche comprese in tale
classe siano tutte caratterizzate da un livello di spesa pari a 250 euro: si
tratta di un assunto che, come vedremo, ha conseguenze sul valore della
misura di concentrazione, che potrebbero inficiarne la validità
Inoltre, dovremo determinare l’ammontare complessivo del carattere
«spesa media mensile familiare» che si ripartisce all’interno del
collettivo: sarà sufficiente moltiplicare i valori centrali delle classi per le
relative frequenze assolute
Con tali accorgimenti, siamo pronti per applicare le procedure standard
descritte in precedenza. Vogliamo dimostrare che in caso di carattere
continuo, non è appropriato misurare la concentrazione con il rapporto
di concentrazione e dobbiamo necessariamente adottare l’indice di
concentrazione
Ammontare del carattere che si
ripartisce tra le 𝑖 unità
statistiche appartenenti alla
𝑖 - esima classe
Le misure di concentrazione
Caso di carattere continuo ripartito in classi
Tabella 4. Prospetto per il calcolo del rapporto di concentrazione di Gini. Caso di distribuzione in classi
Classi di spesa
[0, 500)
[500, 1000)
[1000, 1500)
[1500, 2000)
[2000, 2500]
Totale
𝑥𝑖
𝑖
250
750
1.250
1.750
2.250
68
164
426
251
91
0,068
0,164
0,426
0,251
0,091
17.000
123.000
532.500
439.250
204.750
1000
1,000
1.316.500
𝑓𝑖
𝑥𝑖
𝑖
Ammontare complessivo del
carattere che si ripartisce
all’interno del collettivo 𝑆𝑛
𝑆𝑖
𝑝𝑖
17.000
140.000
672.500
1.111.750
1.316.500
0,0680
0,2320
0,6580
0,9090
1,0000
-
-
𝑞𝑖
𝑝𝑖 − 𝑞𝑖
0,0129
0,1063
0,5108
0,8445
1,0000
-
0,0551
0,1257
0,1472
0,0645
0,3924
Successione delle somme
parziali 𝑆𝑖
Le misure di concentrazione
Caso di carattere continuo ripartito in classi
Per quanto riguarda il calcolo del rapporto di concentrazione,
applichiamo la procedura standard. Naturalmente la relazione
definitoria dovrà tenere conto del fatto che il carattere è ripartito in
𝑘 = 5 classi. In questo caso scriveremo che
𝑔=
𝑘−1
𝑖=1 𝑝𝑖 − 𝑞𝑖
𝑘−1
𝑖=1 𝑝𝑖
Poiché 𝑘−1
𝑖=1 𝑝𝑖 − 𝑞𝑖 = 0,3924 e
rapporto sarà pari a
𝑔=
𝑘−1
𝑖=1 𝑝𝑖
= 1,867, il valore del
0,3924
≅ 0,2102
1,867
Le misure di concentrazione
Caso di carattere continuo ripartito in classi
Applichiamo la formula rapida per il calcolo del rapporto di Gini. Nel
caso di un carattere ripartito in classi, avremo che
𝑔 = 1−2
Essendo la quantità
𝑘−1
𝑖=1 𝑞𝑖
𝑔 =1−2
𝑘−1
𝑖=1 𝑞𝑖
𝑘−1
= 1,4746, si avrà che
𝑘−1
𝑖=1 𝑞𝑖
𝑘−1
=1−2∙
1,4746
≅ 0,2627
4
A differenza del caso discreto, nel continuo i due valori non coincidono:
misurare la concentrazione con il rapporto 𝑔 non è appropriato e
fornisce risultati non univoci, quindi dovremo fare riferimento al
rapporto di concentrazione che, essendo basato su tecniche di
integrazione numerica, fornisce risultati affidabili
Le misure di concentrazione
Caso di carattere continuo ripartito in classi
Predisponiamo quindi il seguente prospetto di calcolo:
Tabella 5. Prospetto per il calcolo dell'indice di Gini. Caso di carattere continuo ripartito in classi
Classi di spesa
[0, 500)
[500, 1000)
[1000, 1500)
[1500, 2000)
[2000, 2500]
Totale
𝑝𝑖
0,0680
0,2320
0,6580
0,9090
1,0000
-
𝑞𝑖
0,0129
0,1063
0,5108
0,8445
1,0000
-
𝑝𝑖 − 𝑝𝑖−1
𝑞𝑖 + 𝑞𝑖−1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
0,068
0,164
0,426
0,251
0,091
0,0129
0,1193
0,6172
1,3553
1,8445
0,0009
0,0196
0,2629
0,3402
0,1678
1,000
-
0,7914
𝑛
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
Le misure di concentrazione
Caso di carattere continuo ripartito in classi
Poiché
𝑘
𝑛
𝑅=
1−
𝑛−1
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
con un numero elevato di osservazioni (nel nostro esempio 𝑛 = 1000)
avremo che
𝑛
lim
=1
𝑛→∞ 𝑛 − 1
quindi la relazione assume forma
𝑘
𝑅 =1−
𝑖=1
𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1
Applicandola alla distribuzione osservata otteniamo
𝑅 = 1 − 0,7914 = 0,2086
Fly UP