Lezioni 15-16 aprile - Dipartimento di Scienze Sociali ed Economiche
by user
Comments
Transcript
Lezioni 15-16 aprile - Dipartimento di Scienze Sociali ed Economiche
statistica misure di concentrazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione 15-16-20 aprile 2015 Generalità Obiettivo L’obiettivo di questa sezione è analizzare una particolare proprietà che può manifestarsi nel caso di caratteri trasferibili e che è indicata con il termine di concentrazione Un carattere trasferibile è un carattere che può essere ceduto in tutto o in parte tra unità statistiche componenti un collettivo. Alcuni caratteri quantitativi (quali la statura, il peso o l'età) non sono cedibili o trasferibili. Altri invece (il reddito, la ricchezza patrimoniale, il numero di dipendenti di un'azienda, l’audience televisiva) possono essere oggetto di trasferimenti totali o parziali La concentrazione è il modo in cui un carattere trasferibile si ripartisce tra le unità statistiche componenti un collettivo ordinato Generalità Il principio di Pareto Nel 1897 Pareto, studiando la distribuzione dei redditi, propose un primo metodo per misurare la concentrazione dei redditi La ricerca ispirò la cosiddetta «legge 80/20», una legge empirica nota con il nome di principio di Pareto (o principio della scarsità dei fattori): considerando grandi numeri, la maggior parte degli effetti è dovuta ad un numero ristretto di cause Naturalmente i valori 80% e 20% sono ottenuti mediante osservazioni empiriche e sono indicativi, ma è interessante notare come numerosi fenomeni abbiano una distribuzione statistica in linea con questi valori Generalità Il principio di Pareto Ad esempio, nella tabella è riportata la distribuzione mondiale del prodotto interno lordo per quintili, ricavata ordinando i 195 Paesi censiti dal Fondo monetario internazionale in ordine ascendente rispetto alla variabile Pil Tabella 1. Distribuzione mondiale del prodotto interno lordo (1989, 2013). Dati in percentuale Quantile 1989 2013 Primo quintile Secondo quintile Terzo quintile Quarto quintile Quinto quintile 1,40 1,85 2,30 11,75 82,70 0,09 0,49 1,54 7,31 90,57 Dalla lettura della tabella si evince che nel 1989 il 20% delle nazioni più ricche deteneva quasi l’83% del Pil mondiale ed oltre il 90% 24 anni dopo Le misure di concentrazione Misurare la concentrazione Supponiamo di rilevare il reddito delle famiglie italiane. Ci interessa sapere se il reddito complessivo si distribuisce più o meno equamente tra le famiglie o se viceversa una frazione rilevante dell’ammontare complessivo del reddito è detenuta da un numero esiguo di famiglie Se tutte le famiglie disponessero dello stesso ammontare di reddito, ci troveremmo in una situazione ipotetica di equidistribuzione; nel caso in cui tutto il reddito fosse detenuto da una sola famiglia e tutte le altre avessero un reddito pari a zero, ci troveremmo in una situazione altrettanto ipotetica di concentrazione massima Nella realtà ci troviamo sempre in situazioni intermedie ed il nostro obiettivo è misurare il grado di concentrazione del carattere nel collettivo analizzato Le misure di concentrazione Analisi statistica della concentrazione In generale un carattere è tanto più concentrato quanto maggiore è la quota dell’ammontare complessivo del carattere detenuta dalle ultime unità nel collettivo ordinato Tale definizione è utile per determinare una metodologia per misurare la concentrazione stessa. Quali caratteristiche deve avere una buona misura di concentrazione? Intuitivamente, una misura di concentrazione semplice da interpretare dovrebbe assumere valore zero nel caso di equidistribuzione (in quanto vi è assenza di concentrazione) e un qualche valore massimo quando l’ammontare complessivo del carattere è detenuto da una sola unità Le misure di concentrazione Analisi statistica della concentrazione Ipotizziamo che un carattere trasferibile 𝑿 si ripartisca tra 𝑛 unità statistiche e ipotizziamo di ordinare queste ultime sulla base dell’ammontare di carattere detenuto. Ne deriverà un ordinamento delle unità statistiche in ragione dell’ammontare di carattere detenuto da ciascuna di esse. Con riferimento all’ammontare di carattere avremo che: 𝑥1 ≤ … ≤ 𝑥𝑖 ≤ … ≤ 𝑥𝑛 Analizziamo separatamente i due casi limite dell’equidistribuzione e della massima concentrazione e deriviamone una misura di concentrazione con i requisiti individuati in precedenza Le misure di concentrazione Alcune convenzioni sulla notazione adottata • Quanto all’ammontare complessivo 𝑆𝑛 del carattere che si ripartisce all’interno del collettivo, sarà ovviamente: 𝑛 𝑆𝑛 = 𝑥1 + … + 𝑥𝑛 = 𝑥𝑖 𝑖=1 • Per ragioni che saranno evidenti tra poco, ci interessa anche la successione delle somme parziali, il cui generico 𝑖-esimo termine 𝑆𝑖 è definito come 𝑖 𝑆𝑖 = 𝑥1 + … + 𝑥𝑖 = 𝑗=1 𝑥𝑗 1≤𝑖≤𝑛 Interpretiamo la somma parziale come l’ammontare del carattere detenuto dalle prime 𝒊 unità statistiche nel collettivo ordinato Le misure di concentrazione Alcune convenzioni sulla notazione adottata • Indichiamo con 𝑖 𝑝𝑖 = 𝑛 la frazione delle prime 𝒊 unità statistiche nel collettivo ordinato sull’ampiezza del collettivo • Indichiamo infine con 𝑞𝑖 = 𝑆𝑖 𝑆𝑛 la frazione dell’ammontare complessivo del carattere detenuto dalle prime 𝒊 unità statistiche nel collettivo ordinato Le misure di concentrazione Primo caso limite: equidistribuzione Se il carattere è equidistribuito, ovviamente avremo che: 𝑥1 = … = 𝑥𝑖 = … = 𝑥𝑛 ≡ 𝑥 e quindi per 1 ≤ 𝑖 ≤ 𝑛 si ha che 𝑖 𝑣𝑜𝑙𝑡𝑒 𝑆𝑖 𝑥1 + … + 𝑥𝑖 𝑥 + … + 𝑥 𝑖𝑥 𝑖 𝑞𝑖 = = = = = = 𝑝𝑖 𝑆𝑛 𝑥1 + … + 𝑥𝑛 𝑥 + … + 𝑥 𝑛𝑥 𝑛 𝑛 𝑣𝑜𝑙𝑡𝑒 In generale, nel caso di equidistribuzione, vale l’identità 𝑝𝑖 = 𝑞𝑖 ; in corrispondenza dell’ultima unità statistica nel collettivo ordinato, inoltre, si ha che 𝑝𝑛 = 𝑛 𝑛 = 1 e analogamente 𝑞𝑛 = 𝑆𝑛 𝑆𝑛 = 1 Le misure di concentrazione Secondo caso limite: massima concentrazione Si ha massima concentrazione nel caso in cui le prime 𝑛 − 1 unità statistiche non si ripartiscono nulla e l’ultima unità nel collettivo ordinato detiene l’intero ammontare del carattere. Risulterà quindi: 𝑥1 = … = 𝑥𝑖 = … = 𝑥𝑛−1 = 0; 𝑥𝑛 = 𝑆𝑛 e quindi 𝑞𝑖 = 𝑆𝑖 0 + …+ 0 = =0 𝑆𝑛 𝑥1 + … + 𝑥𝑛 1≤𝑖<𝑛 Notare che in caso di massima concentrazione 𝑝𝑖 > 𝑞𝑖 per 1 ≤ 𝑖 < 𝑛 e solo in corrispondenza dell’ultima unità statistica si realizza l’identità 𝑝𝑛 = 𝑞𝑛 , poiché 𝑝𝑛 = 𝑛 𝑛 = 1 e 𝑞𝑛 = 𝑆𝑛 𝑆𝑛 = 1 Le misure di concentrazione Casi intermedi In tutti i casi intermedi, cioè quelli in cui non sussiste equidistribuzione né massima concentrazione, vale la seguente disuguaglianza: 𝑝𝑖 > 𝑞𝑖 1≤𝑖<𝑛 e solo in corrispondenza dell’ultima unità statistica vale l’uguaglianza 𝑝𝑛 = 𝑞𝑛 , in quanto è ovvio che il 100% del collettivo si ripartisce il 100% dell’ammontare complessivo del carattere Una volta analizzata la situazione relativa alla ripartizione del carattere nei casi limite e in quelli intermedi, concentriamoci sull’elaborazione della misura della concentrazione Le misure di concentrazione Il rapporto di Gini Poiché in generale risulta 𝑝𝑖 ≥ 𝑞𝑖 , con il segno di uguaglianza che vale solo nel caso di equidistribuzione del carattere, possiamo costruire una misura di concentrazione a partire dalle differenze: 𝑝𝑖 − 𝑞𝑖 ≥ 0 in cui, di nuovo, il segno di uguaglianza vale solo in caso di equiripartizione Tale quantità rappresenta una misura indiretta dei trasferimenti in avanti, realizzati dalle prime 𝑖 unità statistiche a favore delle 𝑛 − 𝑖 unità che seguono nel collettivo ordinato Possiamo sintetizzare le differenze osservate nel collettivo attraverso la loro somma, limitata alle prime 𝑛 − 1 unità statistiche, in quanto sull’ultima unità si realizza sempre l’identità 𝑝𝑖 = 𝑞𝑖 = 1 Le misure di concentrazione Il rapporto di Gini Indicando con 𝑇 la somma delle differenze citate, avremo 𝑛−1 𝑇= 𝑖=1 𝑝𝑖 − 𝑞𝑖 ≥ 0 Poiché la quantità 𝑇 è una misura assoluta di concentrazione, possiamo normalizzarla, al fine di ottenere una misura relativa compresa tra 0 (assenza di concentrazione) e 1 (massima concentrazione) A questo fine, rapportiamo 𝑇 al valore teorico che assumerebbe nel caso di massima concentrazione Infatti, nel caso di massima concentrazione, con riferimento alle prime 𝑛 − 1 unità statistiche nel collettivo ordinato, abbiamo già detto che ∀𝑖, 𝑞𝑖 = 0 e quindi 𝑇 risulta pari a 𝑛−1 𝑇= 𝑖=1 𝑛−1 𝑝𝑖 − 𝑞𝑖 = 𝑖=1 𝑝𝑖 Le misure di concentrazione Il rapporto di Gini Rapportando quindi 𝑇 al valore che assume nel caso di massima concentrazione, otteniamo il rapporto di concentrazione di Gini: 𝑔= 𝑛−1 𝑖=1 𝑝𝑖 − 𝑞𝑖 𝑛−1 𝑖=1 𝑝𝑖 È immediato accertare che il rapporto 𝑔 è una misura normalizzata definita nell’intervallo 0, 1 : • in caso di equidistribuzione, come si è visto risulta sempre 𝑝𝑖 = 𝑞𝑖 e quindi ∀𝑖, 𝑝𝑖 − 𝑞𝑖 = 0. In definitiva, essendo il numeratore del rapporto 𝑛−1 𝑖=1 𝑝𝑖 − 𝑞𝑖 = 0, segue che 𝑔 = 0 • in caso di concentrazione massima, per le prime 𝑛 − 1 unità nel 𝑛−1 collettivo ordinato si ha che 𝑞𝑖 = 0, quindi 𝑛−1 𝑖=1 𝑝𝑖 − 𝑞𝑖 = 𝑖=1 𝑝𝑖 e quindi 𝑔 = 1 Le misure di concentrazione Il rapporto di Gini Esiste anche una formula rapida per il calcolo del rapporto (o indice, o coefficiente) di concentrazione di Gini. Infatti, risulta che 𝑔= 𝑛−1 𝑖=1 𝑝𝑖 − 𝑞𝑖 𝑛−1 𝑖=1 𝑝𝑖 = 𝑛−1 𝑖=1 𝑝𝑖 𝑛−1 𝑖=1 𝑝𝑖 − 𝑛−1 𝑖=1 𝑞𝑖 𝑛−1 𝑖=1 𝑝𝑖 =1− 𝑛−1 𝑖=1 𝑞𝑖 𝑛−1 𝑖=1 𝑝𝑖 Ricordando che 𝑝𝑖 = 𝑖 𝑛, potremo pertanto scrivere che 𝑛−1 𝑖=1 Osservando che dimostrarsi che 𝑛−1 𝑖=1 𝑖 𝑛−1 𝑝𝑖 = 𝑖=1 𝑖 1 = 𝑛 𝑛 𝑛−1 𝑖 𝑖=1 è una progressione aritmetica e che può 𝑛−1 𝑖= 𝑖=1 𝑛 𝑛−1 2 Le misure di concentrazione Il rapporto di Gini Sostituendo nella precedente relazione otteniamo 𝑛−1 1 𝑝𝑖 = 𝑛 𝑖=1 𝑛−1 𝑖= 𝑖=1 1𝑛 𝑛 −1 𝑛−1 = 𝑛 2 2 e quindi 𝑔 =1− 𝑛−1 𝑖=1 𝑞𝑖 𝑛−1 𝑖=1 𝑝𝑖 =1−2 𝑛−1 𝑖=1 𝑞𝑖 𝑛−1 Il vantaggio di tale formulazione è che richiede la conoscenza di meno informazioni, in quanto per il calcolo è sufficiente disporre della ripartizione del carattere e dell’ampiezza del collettivo Le misure di concentrazione Il rapporto di Gini Esempio 1. Ipotizziamo che nel seguente prospetto siano riportati gli ascolti registrati nella fascia oraria 20,30-22,30 dalle sei principali reti televisive italiane. Il nostro obiettivo è scoprire quanto è concentrato il carattere «numero di telespettatori» Reti Audience (mln di telespettatori) RAI 1 RAI 2 RAI 3 Rete 4 Canale 5 Italia 1 14 3 4 3 9 2 Totale 35 Le misure di concentrazione Il rapporto di Gini Costruiamo quindi il seguente prospetto di calcolo: Unità ordinate in senso ascendente Tabella 1. Prospetto di calcolo del rapporto di concentrazione di Gini. Caso di distribuzione unitaria Reti 𝑖 𝑥𝑖 𝑝𝑖 𝑆𝑖 𝑞𝑖 𝑝𝑖 − 𝑞𝑖 Italia 1 Rete 4 RAI 2 RAI 3 Canale 5 RAI 1 1 2 3 4 5 6 2 3 3 4 9 14 0,1667 0,3333 0,5000 0,6667 0,8333 1,0000 2 5 8 12 21 35 0,0571 0,1429 0,2286 0,3429 0,6000 1,0000 0,1095 0,1905 0,2714 0,3238 0,2333 - Totale 35 Ammontare del carattere di pertinenza dell’𝑖-esima unità nel collettivo ordinato 𝑞𝑖 = 1,1286 𝑖 𝑝𝑖 = 𝑛 𝑖 𝑗=1 𝑥𝑗 𝑛−1 𝑖=1 𝑝𝑖 − 𝑞𝑖 𝑆𝑖 𝑆𝑛 Le misure di concentrazione Il rapporto di Gini Il prospetto di calcolo è costruito riordinando preliminarmente in senso ascendente le unità statistiche sulla base dell’ammontare del carattere detenuto da ciascuna di esse Poiché l’ampiezza del collettivo è pari a 𝑛 = 6 unità statistiche, nella colonna intestata alla variabile 𝑝𝑖 ciascun elemento è ottenuto come rapporto tra numero delle prime 𝒊 unità nel collettivo ordinato, così come riportata nella colonna 𝑖 , e ampiezza del collettivo. Ad esempio, con riferimento al secondo elemento, si avrà che 𝑝2 = 𝑖 2 = ≅ 0,3333 𝑛 6 Le misure di concentrazione Il rapporto di Gini Quanto alla colonna relativa alle somme parziali 𝑆𝑖 , ciascun elemento è ricavato applicando la relazione: 𝑖 𝑆𝑖 = 𝑗=1 𝑥𝑗 Ad esempio, il secondo elemento della colonna è ottenuto tramite il seguente calcolo: 2 𝑆2 = 𝑗=1 𝑥𝑗 = 𝑥1 + 𝑥2 = 2 + 3 = 5 Gli elementi della colonna intestata a 𝑞𝑖 si ricavano rapportando l’𝑖esimo valore di somma parziale all’ammontare complessivo del carattere ripartito all’interno del collettivo: 𝑆𝑖 𝑞𝑖 = 𝑆𝑛 Le misure di concentrazione Il rapporto di Gini Ad esempio, con riferimento al risultato precedente, il valore della relativa frazione è dato da 𝑆2 5 𝑞2 = = ≅ 0,1429 𝑆𝑛 35 Come devono essere lette le due frazioni calcolate nel modo appena descritto? Poiché 𝑝2 = 0,3333 e 𝑞2 = 0,1429, questo significa che il primo 33,3% del collettivo ordinato detiene il 14,3% dell’ammontare complessivo del carattere. Tradotto nei termini del presente esempio, significa che le due emittenti con gli ascolti più bassi hanno complessivamente raggiunto il 14,3% di share Le misure di concentrazione Il rapporto di Gini Nell’ultima colonna si riportano le differenze 𝑝𝑖 − 𝑞𝑖 . Di nuovo, con riferimento alla seconda unità del collettivo, avremo che 𝑝2 − 𝑞2 = 0,3333 − 0,1429 = 0,1905 Tale differenza, come si è visto, rappresenta una misura indiretta del trasferimento in avanti, ovvero della frazione dell’ammontare di carattere che le due unità cedono a favore delle restanti quattro unità e che misura la «distanza» rispetto ad un’ipotetica situazione di equidistribuzione del carattere nel collettivo Sommando le prime cinque differenze, ottenute con la procedura descritta, e rapportandole alla somma dei primi cinque valori di 𝑝𝑖 , otteniamo il valore del rapporto di concentrazione di Gini Le misure di concentrazione Il rapporto di Gini Avremo infatti che 𝑛−1 𝑖=1 𝑝𝑖 = 1,167 + 0,333 + 0,500 + 0,667 + 0,833 = 2,500 Tale quantità, come si è osservato in precedenza, rappresenta l’ammontare di 𝑇 nel caso ipotetico di massima concentrazione, mentre nel collettivo osservato è pari a: 𝑛−1 𝑖=1 𝑝𝑖 − 𝑞𝑖 = 1,1286 Otteniamo il rapporto di concentrazione di Gini rapportando la seconda quantità alla prima: 1,1286 𝑔= ≅ 0,4514 2,5000 Le misure di concentrazione Il rapporto di Gini Applichiamo adesso la formula rapida per il calcolo del rapporto di Gini. Ricordando che 𝑔 =1−2 poiché la quantità 𝑛−1 𝑖=1 𝑞𝑖 𝑛−1 𝑖=1 𝑞𝑖 𝑛−1 = 1,3714, si avrà che 𝑛−1 𝑖=1 𝑞𝑖 1,3714 𝑔 =1−2 =1−2∙ ≅ 0,4514 𝑛−1 5 La formula può essere applicata quando siamo interessati solo al valore del rapporto di concentrazione. Se invece il nostro obiettivo è indagare la struttura dei trasferimenti in avanti, potrebbe essere preferibile applicare la procedura standard Le misure di concentrazione Il rapporto di Gini Come interpretare il valore del rapporto di concentrazione? Evitando come al solito l’applicazione di «regole del pollice» (ad esempio quella secondo cui un valore del rapporto 𝑔 ≤ 0,5 indicherebbe una concentrazione «bassa», mentre un valore del rapporto 𝑔 > 0,5 indicherebbe un’elevata concentrazione del carattere), di solito è la natura del problema studiato che ci fornisce indicazioni per la lettura e l’interpretazione del risultato Ad esempio, Cornia e Court (2001), a proposito di un livello di disuguaglianza nella distribuzione del reddito che non rallenti la crescita economica, stimavano che il rapporto ottimale di concentrazione di Gini dovesse essere compreso tra 0,25 (valore riscontrabile nei paesi scandinavi) e 0,40 (quello di paesi come la Cina e gli Stati Uniti) G.A. Cornia, J. Court (2001), Inequality, Growth and Poverty in the Era of Liberalization and Globalization, UNU-WIDER, Policy Brief N. 4 Le misure di concentrazione La curva di Lorenz La concentrazione può essere analizzata graficamente, utilizzando la curva di Lorenz Tale rappresentazione grafica è stata proposta da Lorenz, un economista americano, nella sua dissertazione di dottorato discussa nel 1905 e ampiamente utilizzata in seguito per l’analisi della disuguaglianza nella distribuzione dei redditi O. M. Lorenz (1905), The Economic Theory of Railroad Rates, Ph.D Dissertation Le misure di concentrazione La curva di Lorenz Il diagramma in cui è tracciata la curva di Lorenz è un diagramma c.d. «a scatola». Inizialmente concepito da Pareto, il suo utilizzo nelle scienze sociali si è diffuso nell’ultimo ventennio del XIX secolo ad opera di Edgeworth e Bowley, tanto che nella letteratura anglosassone è indicato come Edgeworth box In precedenza abbiamo associato a ciascuna unità statistica componente il collettivo le due frazioni 𝑝𝑖 e 𝑞𝑖 . È quindi immediato rappresentare la situazione caratterizzante ciascuna unità, all’interno di un sistema di assi cartesiani, come un punto di coordinate 𝑝𝑖 , 𝑞𝑖 In maniera del tutto ovvia, se rappresentiamo le frazioni 𝑝𝑖 in ascissa e le frazioni 𝑞𝑖 in ordinata, l’origine del sistema di assi cartesiani si collocherà in corrispondenza del punto di coordinate 0, 0 , mentre il punto corrispondente all’ultima unità statistica nel collettivo ordinato (ricordando che 𝑝𝑛 = 𝑞𝑛 = 1) avrà coordinate 1, 1 Le misure di concentrazione La curva di Lorenz All’interno del diagramma figurano due elementi: • la bisettrice del primo quadrante, cioè la retta uscente dall’origine e inclinata a 45°, che rappresenta il luogo geometrico di tutti i punti in cui si realizza l’identità 𝑝𝑖 = 𝑞𝑖 , cioè la condizione di equiripartizione del carattere, indicata come retta di equidistribuzione • la spezzata che congiunge i punti di coordinate 𝑝𝑖 , 𝑞𝑖 e che fornisce la rappresentazione grafica della situazione osservata, indicata come spezzata di concentrazione o curva di Lorenz La spezzata di concentrazione gode di alcune proprietà: 1. È interamente contenuta nel triangolo di vertici 0, 0 , 1, 0 , 1, 1 . Questo in diretta conseguenza del fatto che 𝑝𝑖 ≥ 𝑞𝑖 Le misure di concentrazione La curva di Lorenz 2. È non decrescente, cioè tale che 𝑞𝑖 − 𝑞𝑖−1 ≥ 0 Dimostrazione. Poiché in generale 𝑆𝑖 𝑞𝑖 = 𝑆𝑛 si avrà che 𝑞𝑖 − 𝑞𝑖−1 = 𝑥1 + … + 𝑥𝑖 𝑥1 + … + 𝑥𝑖−1 𝑥𝑖 − = ≥0 𝑆𝑛 𝑆𝑛 𝑆𝑛 in cui il segno di uguaglianza vale solo se 𝑥𝑖 = 0 e quindi sono nulle tutte le prime 𝑖 osservazioni Le misure di concentrazione La curva di Lorenz 3. È convessa (presenta incrementi non decrescenti), quindi si avrà che 𝑞𝑖 − 𝑞𝑖−1 − 𝑞𝑖−1 − 𝑞𝑖−2 ≥ 0 Dimostrazione. Seguendo la procedura precedentemente adottata, potremo scrivere che 𝑞𝑖 − 𝑞𝑖−1 − 𝑞𝑖−1 − 𝑞𝑖−2 = 𝑥𝑖 𝑥𝑖−1 𝑥𝑖 − 𝑥𝑖−1 − = ≥0 𝑆𝑛 𝑆𝑛 𝑆𝑛 in quanto, come si ricorderà, le osservazioni sono state ordinate in senso crescente e quindi in generale 𝑥𝑖 ≥ 𝑥𝑖−1 , con Le misure di concentrazione La curva di Lorenz Nel caso di equidistribuzione, poiché 𝑝𝑖 ≡ 𝑞𝑖 , i punti sono dislocati sulla bisettrice del primo quadrante Nel caso di massima concentrazione, poiché le prime 𝑛 − 1 unità statistiche non si ripartiscono il carattere, che risulta concentrato sull’ultima unità, avremo che 𝑞𝑖 = 0 se 1 ≤ 𝑖 < 𝑛 e 𝑞𝑖 = 1 se 𝑖 = 𝑛. In questo caso la curva di Lorenz unisce i punti di coordinate 0, 0 , 𝑝1 , 0 , … , 𝑝𝑛−1 , 0 al punto di coordinate 1, 1 Le misure di concentrazione La curva di Lorenz Come leggere la curva di Lorenz? Da quanto detto in precedenza, appare ovvio che quanto più la curva di Lorenz è vicina alla bisettrice del primo quadrante, tanto minore è la concentrazione; viceversa, quanto più la curva di Lorenz si allontana dalla bisettrice del primo quadrante, tanto maggiore risulterà la concentrazione Questa semplice considerazione è alla base di un approccio alternativo alla misura della concentrazione, la cui logica risiede nel «modo» con cui analizziamo la concentrazione da un punto di vista geometrico, avvalendoci della curva di Lorenz Le misure di concentrazione L’indice di concentrazione R di Gini Per esporre tale approccio alternativo, torniamo ai dati dell’esempio 1 L’idea è rapportare la c.d. superficie di concentrazione, cioè la porzione di piano compresa tra la retta di equidistribuzione e la spezzata di concentrazione, all’area teorica massima che caratterizzerebbe tale superficie nel caso di massima concentrazione Le misure di concentrazione L’indice di concentrazione R di Gini In primo luogo, appare evidente che, essendo il diagramma a scatola caratterizzato da lato unitario, l’area sottesa alla bisettrice del primo quadrante sarà 𝐴 = 1 2 Possiamo quindi determinare la superficie di concentrazione sottraendo ad 𝐴 l’area sottesa alla curva di Lorenz, che calcoleremo applicando un metodo di integrazione numerica noto come «regola del trapezio» o regola di Stevin L’idea è quella di scomporre la superficie al di sotto della curva di Lorenz in trapezi e di determinarne l’area sommando le aree dei trapezi stessi, di cui sono noti tutti gli elementi utili al calcolo (base maggiore, base minore e altezza) Le misure di concentrazione L’indice di concentrazione R di Gini Procedendo da sinistra verso destra, l’area del triangolo di vertici 0, 0 , 𝑝1 , 0 , 𝑝1 , 𝑞1 sarà pari a 𝐴1 = 1 𝑝 𝑞 2 1 1 L’area del primo trapezio da sinistra sarà data da 1 𝐴2 = 𝑝2 − 𝑝1 2 =𝑎𝑙𝑡𝑒𝑧𝑧𝑎 𝑞2 + 𝑞1 =𝑠𝑜𝑚𝑚𝑎 𝑑𝑒𝑙𝑙𝑒 𝑏𝑎𝑠𝑖 e per l’area del generico trapezio 𝑖-esimo, in generale scriveremo che 𝐴𝑖 = 1 𝑝 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 2 𝑖 Le misure di concentrazione L’indice di concentrazione R di Gini Effettuiamo qualche intervento «cosmetico» sul primo addendo (l’area del triangolo) per tradurre la precedente successione di espressioni in un algoritmo di calcolo Osservando che 𝑝0 = 𝑞0 = 0, possiamo riformulare l’area del triangolo nel modo seguente: 1 1 𝐴1 = 𝑝1 𝑞1 = 𝑝1 − 𝑝0 𝑞1 + 𝑞0 2 2 L’area sottesa alla curva di Lorenz sarà quindi data da 𝑛 𝐴𝐿 = = 1 2 𝑛 𝐴𝑖 = 𝑛 𝑖=1 𝑖=1 1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 2 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 Le misure di concentrazione L’indice di concentrazione R di Gini La superficie di concentrazione può essere facilmente ricavata come differenza tra l’area sottesa alla retta di equidistribuzione 𝐴 e quella sottesa alla curva di Lorenz 𝐴𝐿 : 1 1 𝐴𝐶 = 𝐴 − 𝐴𝐿 = − 2 2 𝑛 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 e infine 1 𝐴𝑐 = 1 − 2 𝑛 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 Le misure di concentrazione L’indice di concentrazione R di Gini Concentriamoci adesso sui casi limite: 1. Caso di equidistribuzione. È ovvio e lo diamo senza dimostrazione: in caso di equidistribuzione l’area di concentrazione si riduce fino a coincidere con la bisettrice del primo quadrante; ovviamente è pari a zero; 2. Caso di massima concentrazione. Conviene procedere con la consueta logica sottrattiva: la superficie di massima concentrazione 𝐴𝐶 può essere ottenuta dalla relazione 𝐴𝐶 = 𝐴 − 𝐴𝐿 , osservando che in questo caso l’area sottesa alla curva di Lorenz è il triangolo di vertici 𝑝𝑛−1 , 0 , 1, 0 , 1, 1 Le misure di concentrazione L’indice di concentrazione R di Gini In particolare, per quanto riguarda l’area sottesa alla curva di Lorenz, osservando che 𝑝𝑛−1 = 𝑛−1 𝑛 l’altezza del triangolo a cui si riduce tale area in caso di massima concentrazione sarà data da ℎ =1− 𝑛−1 𝑛 La base del triangolo è pari all’unità, quindi l’area cercata sarà data dalla relazione 1 𝑛−1 𝐴𝐿 = 1− 2 𝑛 Le misure di concentrazione L’indice di concentrazione R di Gini La superficie di massima concentrazione è quindi pari a 𝐴𝐶 = 𝐴 − 𝐴 𝐿 = 1 1 𝑛−1 1 1 − 1− = 1− 2 2 𝑛 2 𝑛 = 1 𝑛−1 2 𝑛 Rapportando infine l’espressione della superficie di concentrazione ricavata in precedenza alla superficie di massima concentrazione otteniamo l‘indice 𝑅: 1 1− 2 𝑅= 𝑛 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 1 𝑛−1 2 𝑛 da cui è agevole dimostrare che 𝑛 𝑅= 1− 𝑛−1 𝑛 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 Le misure di concentrazione L’indice di concentrazione R di Gini Esempio 2. Sulla base dei dati dell’Esempio 1, calcoliamo l’indice di concentrazione 𝑅. Gli elementi necessari per organizzare il prospetto di calcolo sono riportati nella seguente tabella: Reti Italia 1 Rete 4 RAI 2 RAI 3 Canale 5 RAI 1 Totale 𝑝𝑖 𝑞𝑖 0,1667 0,3333 0,5000 0,6667 0,8333 1,0000 0,0571 0,1429 0,2286 0,3429 0,6000 1,0000 - - Le misure di concentrazione L’indice di concentrazione R di Gini Tabella 2. Prospetto di calcolo dell'indice di concentrazione R. Caso di distribuzione unitaria Reti Italia 1 Rete 4 RAI 2 RAI 3 Canale 5 RAI 1 Totale 𝑝𝑖 𝑞𝑖 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 0,1667 0,3333 0,5000 0,6667 0,8333 1,0000 0,0571 0,1429 0,2286 0,3429 0,6000 1,0000 0,1667 0,1667 0,1667 0,1667 0,1667 0,1667 0,0571 0,2000 0,3714 0,5714 0,9429 1,6000 0,0095 0,0333 0,0619 0,0952 0,1571 0,2667 - - 1,0000 - 0,6238 N.b. 𝑓𝑖 = 1 𝑛 𝑛 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 Le misure di concentrazione L’indice di concentrazione R di Gini Ricordando che 𝑛 𝑅= 1− 𝑛−1 𝑘 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 appare immediato scrivere che 𝑅= 6 1 − 0,6238 = 1,2 ∙ 0,3762 ≅ 0,4514 5 e quindi il valore del rapporto di concentrazione 𝑔 e quello dell’indice di concentrazione 𝑅 coincidono nel caso di distribuzioni unitarie. Vedremo che tale situazione non si realizza nel caso di caratteri continui ripartiti in classi Le misure di concentrazione Caso di carattere continuo ripartito in classi Nel caso di un carattere continuo ripartito in classi, le informazioni di cui disponiamo potrebbero essere organizzate in prospetti di sintesi e anche in questo caso potremmo avere necessità di calcolare una misura di concentrazione Esempio 3. Nel prospetto di destra è riportata la spesa media mensile familiare per consumi dei clienti della catena di ipermercati DELIGHT, che abbiamo già analizzato trattando le medie di calcolo Poiché la spesa è un carattere trasferibile, calcoliamone la concentrazione Tabella 3. Spesa media mensile familiare per consumi. Rilevazione tra i clienti della DELIGHT. Valori in euro Classi di spesa [0, 500) [500, 1000) [1000, 1500) [1500, 2000) [2000, 2500] Totale 𝑖 𝑓𝑖 68 164 426 251 91 0,068 0,164 0,426 0,251 0,091 1000 1,000 Le misure di concentrazione Caso di carattere continuo ripartito in classi Le informazioni contenute nel precedente prospetto ci obbligano ad applicare alcuni accorgimenti, del resto abbastanza ovvi, per consentire l’applicazione delle procedure di calcolo Sappiamo già cosa fare nel caso di carattere ripartito in classi: poiché in questo caso non disponiamo di valori puntuali, ma di intervalli di valori, riconduciamo tali intervalli a valori puntuali individuando per ciascuno di essi il valore centrale, definito come semisomma degli estremi dell’intervallo Naturalmente, procedendo nella maniera descritta stiamo implicitamente ipotizzando che, all’interno di ogni classe, le unità statistiche siano caratterizzate dallo stesso livello medio di spesa Le misure di concentrazione Caso di carattere continuo ripartito in classi Ad esempio, con riferimento alla classe di spesa compresa tra 0 e 500 euro, stiamo ipotizzando che le 68 unità statistiche comprese in tale classe siano tutte caratterizzate da un livello di spesa pari a 250 euro: si tratta di un assunto che, come vedremo, ha conseguenze sul valore della misura di concentrazione, che potrebbero inficiarne la validità Inoltre, dovremo determinare l’ammontare complessivo del carattere «spesa media mensile familiare» che si ripartisce all’interno del collettivo: sarà sufficiente moltiplicare i valori centrali delle classi per le relative frequenze assolute Con tali accorgimenti, siamo pronti per applicare le procedure standard descritte in precedenza. Vogliamo dimostrare che in caso di carattere continuo, non è appropriato misurare la concentrazione con il rapporto di concentrazione e dobbiamo necessariamente adottare l’indice di concentrazione Ammontare del carattere che si ripartisce tra le 𝑖 unità statistiche appartenenti alla 𝑖 - esima classe Le misure di concentrazione Caso di carattere continuo ripartito in classi Tabella 4. Prospetto per il calcolo del rapporto di concentrazione di Gini. Caso di distribuzione in classi Classi di spesa [0, 500) [500, 1000) [1000, 1500) [1500, 2000) [2000, 2500] Totale 𝑥𝑖 𝑖 250 750 1.250 1.750 2.250 68 164 426 251 91 0,068 0,164 0,426 0,251 0,091 17.000 123.000 532.500 439.250 204.750 1000 1,000 1.316.500 𝑓𝑖 𝑥𝑖 𝑖 Ammontare complessivo del carattere che si ripartisce all’interno del collettivo 𝑆𝑛 𝑆𝑖 𝑝𝑖 17.000 140.000 672.500 1.111.750 1.316.500 0,0680 0,2320 0,6580 0,9090 1,0000 - - 𝑞𝑖 𝑝𝑖 − 𝑞𝑖 0,0129 0,1063 0,5108 0,8445 1,0000 - 0,0551 0,1257 0,1472 0,0645 0,3924 Successione delle somme parziali 𝑆𝑖 Le misure di concentrazione Caso di carattere continuo ripartito in classi Per quanto riguarda il calcolo del rapporto di concentrazione, applichiamo la procedura standard. Naturalmente la relazione definitoria dovrà tenere conto del fatto che il carattere è ripartito in 𝑘 = 5 classi. In questo caso scriveremo che 𝑔= 𝑘−1 𝑖=1 𝑝𝑖 − 𝑞𝑖 𝑘−1 𝑖=1 𝑝𝑖 Poiché 𝑘−1 𝑖=1 𝑝𝑖 − 𝑞𝑖 = 0,3924 e rapporto sarà pari a 𝑔= 𝑘−1 𝑖=1 𝑝𝑖 = 1,867, il valore del 0,3924 ≅ 0,2102 1,867 Le misure di concentrazione Caso di carattere continuo ripartito in classi Applichiamo la formula rapida per il calcolo del rapporto di Gini. Nel caso di un carattere ripartito in classi, avremo che 𝑔 = 1−2 Essendo la quantità 𝑘−1 𝑖=1 𝑞𝑖 𝑔 =1−2 𝑘−1 𝑖=1 𝑞𝑖 𝑘−1 = 1,4746, si avrà che 𝑘−1 𝑖=1 𝑞𝑖 𝑘−1 =1−2∙ 1,4746 ≅ 0,2627 4 A differenza del caso discreto, nel continuo i due valori non coincidono: misurare la concentrazione con il rapporto 𝑔 non è appropriato e fornisce risultati non univoci, quindi dovremo fare riferimento al rapporto di concentrazione che, essendo basato su tecniche di integrazione numerica, fornisce risultati affidabili Le misure di concentrazione Caso di carattere continuo ripartito in classi Predisponiamo quindi il seguente prospetto di calcolo: Tabella 5. Prospetto per il calcolo dell'indice di Gini. Caso di carattere continuo ripartito in classi Classi di spesa [0, 500) [500, 1000) [1000, 1500) [1500, 2000) [2000, 2500] Totale 𝑝𝑖 0,0680 0,2320 0,6580 0,9090 1,0000 - 𝑞𝑖 0,0129 0,1063 0,5108 0,8445 1,0000 - 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 0,068 0,164 0,426 0,251 0,091 0,0129 0,1193 0,6172 1,3553 1,8445 0,0009 0,0196 0,2629 0,3402 0,1678 1,000 - 0,7914 𝑛 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 Le misure di concentrazione Caso di carattere continuo ripartito in classi Poiché 𝑘 𝑛 𝑅= 1− 𝑛−1 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 con un numero elevato di osservazioni (nel nostro esempio 𝑛 = 1000) avremo che 𝑛 lim =1 𝑛→∞ 𝑛 − 1 quindi la relazione assume forma 𝑘 𝑅 =1− 𝑖=1 𝑝𝑖 − 𝑝𝑖−1 𝑞𝑖 + 𝑞𝑖−1 Applicandola alla distribuzione osservata otteniamo 𝑅 = 1 − 0,7914 = 0,2086