Comments
Description
Transcript
Lezioni 12-16
statistica le medie di calcolo alessandro polli facoltà di scienze politiche, sociologia, comunicazione 12-16-18 marzo 2015 Generalità Obiettivo Come ripetiamo spesso, uno degli principali obiettivi dei metodi statistici è la sintesi, intesa come rappresentazione semplificata di un fenomeno rilevato in un collettivo. La sintesi facilita la descrizione del fenomeno da parte dell’osservatore, in quanto consente di coglierne una qualche proprietà essenziale L’operazione di sintesi può essere svolta tramite opportune rappresentazioni grafiche o attraverso il calcolo di parametri distributivi: parametri di posizione, di variabilità, di forma Una prima famiglia di parametri di posizione, trattati nelle passate lezioni, è quella delle medie di posizione. L’altra importante famiglia è quella delle medie di calcolo, definite anche medie ferme o analitiche Generalità Una prima intuizione sulle medie di calcolo Se il fenomeno analizzato è definito su scala quantitativa (cioè su uno spazio numerico), l’operazione di sintesi può quindi essere effettuata sia tramite il calcolo di medie di posizione, sia trattando algebricamente le misure del fenomeno rilevate sulle 𝑁 unità statistiche componenti il collettivo Parliamo di medie di calcolo o analitiche nei termini seguenti: nel caso di fenomeni definiti su ℝ, la media di calcolo è una qualche misura sintetica della «tendenza centrale», cioè dell’ordine di grandezza del fenomeno analizzato Il criterio adottato per esplicitare il concetto di «centralità» individua in maniera univoca una specifica formula di calcolo della media analitica. L’insieme delle medie così definite costituisce la famiglia delle medie di calcolo Generalità Una prima intuizione sulle medie di calcolo Esempio 1. La catena di supermercati DELIGHT incarica una società di ricerche di mercato di intervistare un campione di 1000 clienti allo scopo di raccogliere informazioni sulla loro spesa media mensile per consumi. Il risultato dell’indagine è riassunto nel seguente prospetto di sintesi: Tabella 1. Spesa media mensile familiare per consumi. Rilevazione tra i clienti della DELIGHT. Valori in euro Classi di spesa 𝑁 [0, 500) [500, 1000) [1000, 1500) [1500, 2000) [2000, 2500] 68 164 426 251 91 0,0680 0,1640 0,4260 0,2510 0,0910 0,0680 0,2320 0,6580 0,9090 1,0000 500 500 500 500 500 0,14 0,33 0,85 0,50 0,18 1000 1,0000 - - - Totale Generalità Una prima intuizione sulle medie di calcolo Con riferimento alla tabella precedente, potremmo essere interessati a calcolare una qualche misura sintetica che ci fornisca un’idea sull’ordine di grandezza del fenomeno analizzato (la spesa media mensile) Esaminando i risultati precedenti, è immediato affermare che la spesa media mensile per consumi rilevata dall’istituto di ricerche di mercato varia da 0 a 2500 euro, ma tale informazione è alquanto generica Sarebbe maggiormente utile, a ben riflettere, disporre di un qualche valore numerico puntuale, compreso tra 0 e 2500 euro, che consenta di fare affermazioni sul fenomeno indagato (la spesa media mensile familiare per consumi dei clienti della catena di supermercati) senza fornire una rappresentazione «alterata» della realtà Generalità Una prima intuizione sulle medie di calcolo Ma cosa significa fornire una rappresentazione «alterata» della realtà? È opportuno chiarire tale affermazione: nel momento in cui facciamo affermazioni su un fenomeno avvalendoci di una qualche misura di sintesi, paghiamo un «costo», rappresentato dalla perdita del patrimonio informativo che abbiamo costituito osservando il fenomeno su ciascuna unità statistica componente il collettivo Assodato che la sintesi è uno degli strumenti che ci consente di facilitare il processo di conoscenza della realtà, è quindi necessario individuare criteri che consentano di minimizzare i costi associati all’utilizzo di affermazioni di sintesi, costi che, come si è detto, sono costituiti da perdite informative Generalità Una prima intuizione sulle medie di calcolo Ad esempio, se l’altezza media in un collettivo osservato è di 178 cm e io utilizzo tale informazione per fare un’affermazione di sintesi sul fenomeno «altezza», con riferimento ad una specifica unità statistica compresa nel collettivo e alta 147 cm incorrerò in una perdita informativa (il «costo» di cui parlavamo prima) pari allo scarto 147 − 178 = −31 cm Analogamente, con riferimento ad una seconda unità statistica compresa nel collettivo e alta 189 cm, se utilizzo l’altezza media per connotare il fenomeno ho una perdita informativa pari allo scarto 189 − 178 = +21 cm Naturalmente tali perdite informative possono essere calcolate con riferimento a tutte le unità statistiche componenti il collettivo Generalità Una prima intuizione sulle medie di calcolo Da un punto di vista logico, dunque, sotto quali condizioni posso avvalermi di una misura di sintesi per fare affermazioni su un fenomeno analizzato? Una risposta «sensata» potrebbe essere la seguente: sono logicamente legittimato a fare affermazioni su un fenomeno attraverso una misura di sintesi quando sommando le perdite informative (gli scarti positivi e negativi) queste si compensano e la perdita informativa risulta nel complesso pari a zero Generalità Una prima intuizione sulle medie di calcolo Affinché la perdita informativa sia nel complesso nulla, devono essere soddisfatte alcune condizioni In primo luogo, è necessario che la misura di sintesi sia compresa tra il valore minimo e il valore massimo che il fenomeno indagato può assumere nel collettivo considerato. Infatti soltanto se è soddisfatta questa condizione di «internalità» gli scarti assumono segni sia positivi, sia negativi Ovviamente, la condizione di internalità è una condizione necessaria, ma non sufficiente. Infatti, non soltanto dovremo scegliere un valore di sintesi compreso tra il valore minimo e il valore massimo, ma tra gli infiniti valori compresi nell’intervallo dovremo scegliere quello che rende nulla la perdita informativa globale Generalità Una prima intuizione sulle medie di calcolo Esiste un modo semplice per individuare tale valore? Un po’ di algebra ci consente di risolvere il problema con relativa facilità Ipotizziamo di rilevare un fenomeno 𝑿 definito su ℝ in un collettivo composto da 𝑛 unità statistiche e ipotizziamo che 𝐱 = 𝑥1 , 𝑥2 , … , 𝑥𝑛 sia il risultato delle nostre rilevazioni (nel senso che se 𝑿 è il fenomeno «altezza», 𝐱 sarà l’insieme delle 𝑛 altezze rilevate nel collettivo) Indichiamo con 𝑀 la misura di sintesi delle 𝑛 osservazioni. Fare un’affermazione sul fenomeno 𝑿 utilizzando la misura di sintesi 𝑀 determina, come abbiamo visto, una perdita informativa. Indicando la perdita informativa con il simbolo 𝑒, con riferimento alla generica iesima osservazione, la perdita informativa sarà pari a 𝑒 = 𝑥 −𝑀 𝑖 = 1,2, … , 𝑛 Generalità Una prima intuizione sulle medie di calcolo Abbiamo affermato in precedenza che siamo logicamente legittimati a fare affermazioni su un fenomeno attraverso una misura di sintesi quando sommando le perdite informative (gli scarti positivi e negativi) queste si compensano e la perdita informativa risulta nel complesso minima e al limite pari a zero L’idea semplice è quella di imporre tale condizione al problema, nel senso che sceglieremo quel valore di 𝑀 che rende la somma delle perdite informative pari a zero. In formule: 𝑛 =1 𝑒 ≡ 𝑛 =1 𝑥 −𝑀 =0 Generalità Una prima intuizione sulle medie di calcolo Concentrandoci sulla seconda espressione, potremo scrivere 𝑛 =1 𝑥 −𝑀 =0 Scegliamo 𝑀 in modo da soddisfare tale relazione (il che equivale a risolvere per 𝑀 la precedente equazione di primo grado). Possiamo sfruttare la proprietà associativa/dissociativa della sommatoria e scrivere: 𝑛 =1 𝑥 − 𝑛 =1 𝑀 𝑛 =1 𝑥 = 𝑛 =1 𝑀 =0 cioè A sinistra figura la somma di tutte le misure rilevate sul collettivo, a destra la somma di 𝑛 addendi, tutti pari ad 𝑀 Generalità Una prima intuizione sulle medie di calcolo Osservando che 𝑛 =1 𝑀 𝑛 =1 𝑥 = 𝑛𝑀 = 𝑛𝑀, possiamo quindi scrivere che che risolta per 𝑀 ci consente di pervenire alla relazione 1 𝑀=𝑛 𝑛 =1 𝑥 Cosa ci dice tale relazione? Ci dice che il valore di sintesi che rende la perdita informativa nel complesso pari a 0 è quel valore che sostituito alle 𝑛 osservazioni non ne altera il valore della somma Tale proprietà, opportunamente generalizzata, è una delle caratteristiche fondamentali della famiglia delle medie di calcolo Generalità Una prima generalizzazione Come si diceva, tale proprietà può essere generalizzata Partiamo da una premessa: dato un insieme di osservazioni definite su ℝ del tipo 𝒙 = 𝑥1 , 𝑥2 , … 𝑥𝑛 , da un punto di vista formale sommare tali osservazioni equivale a calcolarne la funzione «somma» Analogamente, potremo considerare la funzione «prodotto», il che equivale a moltiplicare tra loro gli 𝑛 valori appartenenti all’insieme numerico 𝒙 Potrei considerare altri tipi di funzione delle osservazioni − e a ben riflettere di tali funzioni ne esistono infinite. Fatto sta che la misura di sintesi 𝑀 deve essere scelta in modo tale che, considerata una qualsiasi funzione delle osservazioni, la sostituzione di 𝑀 alle 𝑛 osservazioni non deve alterare il valore della funzione considerata Generalità Definizione di media di Chisini Nel 1929 Oscar Chisini ha proposto la seguente definizione di media: Dato un insieme numerico 𝒙 = 𝑥1 , 𝑥2 , … , 𝑥𝑛 composto da 𝑛 elementi e una funzione degli 𝑛 elementi di 𝒙, definiamo media degli 𝑛 elementi di 𝒙 quell’unico numero 𝑀, se esiste, tale che 𝑥1 , 𝑥2 , … , 𝑥𝑛 = 𝑀, 𝑀, … , 𝑀 Tale definizione, a bene riflettere, non è altro che una generalizzazione dei concetti che abbiamo esposto in precedenza Oscar Chisini (1929), «Sul concetto di media», Periodico di Matematiche, Vol. 4, pp. 106-116 Generalità Definizione di media di Chisini Rendiamo maggiormente operativa tale definizione con riferimento alla funzione somma. Poiché nel caso di funzione somma si ha che 𝑥1 , 𝑥2 , … , 𝑥𝑛 = 𝑥1 + 𝑥2 + … + 𝑥𝑛 e analogamente 𝑀, 𝑀, … , 𝑀 = 𝑀 + 𝑀 + … + 𝑀 = 𝑛𝑀 potremo scrivere che 𝑥1 + 𝑥2 + … + 𝑥𝑛 = 𝑛𝑀 Osservando che 𝑥1 + 𝑥2 + … + 𝑥𝑛 = 𝑛=1 𝑥 , la precedente 1 relazione è verificata se e solo se 𝑀 = 𝑛 𝑛=1 𝑥 , il che giustifica su un piano formale le nostre prime intuizioni Generalità Definizione di media di Chisini Ipotizziamo che l’insieme di osservazioni 𝒙 sia composto da 𝑛 = 3 elementi: 𝒙 = 5, 10, 15 Vogliamo individuare una misura di sintesi, rappresentativa degli elementi appartenenti a 𝒙 e a tale scopo calcoliamo il seguente indicatore di sintesi: 1 𝑀= 𝑛 𝑛 𝑥 = =1 1 5 + 10 + 15 = 10 3 Generalità Definizione di media di Chisini Calcoliamo la perdita informativa che si determina quando utilizziamo l’indicatore di sintesi 𝑀 al posto dei 3 elementi di 𝒙 per fare affermazioni sul fenomeno 𝑿: 𝑒1 = 5 − 10 = −5 𝑒2 = 10 − 10 = 0 𝑒3 = 15 − 10 = +5 Globalmente si avrà quindi che 3 𝑒 = −5 + 0 + 5 = 0 =1 La conclusione è che la misura di sintesi 𝑀 fornisce una visione «non alterata» della realtà, in quanto la perdita informativa che si determina utilizzando 𝑀 per sintetizzare il fenomeno 𝑿 è nel complesso nulla Generalità La media aritmetica Nel caso della funzione somma applicata ad un insieme 𝒙, abbiamo appena dimostrato che il valore di sintesi 𝑀 che non ne altera il valore se sostituito agli 𝑛 elementi appartenenti a 𝒙 è definito dalla relazione 1 𝑀= 𝑛 𝑛 𝑥 =1 Definiamo tale quantità media aritmetica, indicata spesso, in ambito descrittivo, con la lettera greca 𝜇, convenzione che adotteremo da questo momento in poi Generalità Media aritmetica semplice Esempio 2. Ipotizziamo di aver rilevato la piovosità a Roma negli ultimi 5 giorni, espressa in termini di millimetri nelle 24 ore, e di raccogliere le 5 misure di piovosità nel seguente vettore di osservazioni: 𝒙 = 10,4 26,8 9,2 0,0 16,4 Calcoliamo la piovosità media degli ultimi 5 giorni: 1 𝜇= 𝑛 𝑛 1 62,8 𝑥 = 10,4 + 26,8 + 9,2 + 0,0 + 16,4 = 5 5 =1 Calcolato il rapporto quindi, possiamo affermare che la piovosità media negli ultimi 5 giorni a Roma è stata pari a 12,56 mm nelle 24 ore Generalità Media aritmetica semplice Commentiamo brevemente l’ultimo risultato. Abbiamo calcolato la media aritmetica di 5 misure di piovosità, ciascuna caratterizzata da frequenza assoluta unitaria (nel senso che a ciascun valore di piovosità corrisponde una sola osservazione) Se volessimo rappresentare i dati dell’esempio 2 in forma tabellare, ne risulterebbe il prospetto di destra, in cui per facilità di lettura le misure di piovosità sono riordinate in senso ascendente: la nozione di frequenza assoluta unitaria risulta immediatamente evidente Piovosità (mm/24h) 𝑁 0,0 9,2 10,4 16,4 26,8 1 1 1 1 1 0,2 0,2 0,2 0,2 0,2 Totale 5 1,0 Generalità Media aritmetica semplice Nel caso di distribuzioni di frequenze assolute unitarie, tutti gli elementi dell’insieme 𝒙 forniscono lo stesso contributo al calcolo dell’indicatore di sintesi Quando a ciascuna modalità del carattere è associata una frequenza assoluta unitaria, la media che calcoliamo è una media aritmetica semplice: 1 𝜇= 𝑛 𝑛 𝑥 =1 Notare che la quantità 1 𝑛, essendo il rapporto tra una frequenza assoluta (unitaria, nel nostro caso) e la numerosità 𝑛 delle osservazioni, non è altro che la frequenza relativa associata a ciascuna osservazione Generalità Media aritmetica ponderata Ma la situazione che si presenta abitualmente è quella in cui ciascuna modalità del carattere è osservata in più unità statistiche e quindi generalmente 𝑁 > 1 In questo caso, l’indicatore di sintesi dovrà riflettere la circostanza che alcune modalità del carattere si presentano più frequentemente di altre e quindi dovranno contribuire maggiormente al calcolo dell’indicatore di sintesi Indicando con 𝑁 la numerosità delle osservazioni e con 𝑘 il numero di modalità del carattere 𝑿, con 𝑘 < 𝑁, la media aritmetica ponderata avrà forma: 𝜇= 𝑘 =1 𝑥 𝑁 𝑁 Generalità Media aritmetica ponderata L’espressione della media aritmetica ponderata può essere riformulata anche in termini di frequenze relative. Infatti, applicando la proprietà associativa dell’operatore sommatoria, possiamo scrivere 𝜇= e quindi, poiché 𝑁𝑖 𝑁 𝑘 =1 𝑥 𝑁 𝑁 𝑘 = 𝑥 =1 𝑁 𝑁 = , si avrà che 𝑘 𝜇= 𝑥 =1 La due formule, sul piano applicativo, sono completamente equivalenti e la scelta dipende dagli strumenti con cui si svolgono i calcoli (abaco, calcolatrice, foglio elettronico … ) Generalità Media aritmetica ponderata Esempio 3. L’istituto di ricerche demoscopiche TRUELIE chiede ad un campione di 𝑛 = 1000 intervistati di esprimere con un voto da 0 a 4 il grado di accordo (0 = totalmente in disaccordo, 4 = completamente d’accordo) con l’affermazione: «oggi in Italia le tasse sono troppo alte». I risultati dell’indagine sono sintetizzati nel seguente prospetto: Tabella 2. Prospetto di sintesi dell'indagine TRUELIE su «Gli italiani e le tasse». 1000 interviste telefoniche Livello di accordo 𝑥 𝑁 0 1 2 3 4 5 87 138 554 216 0,005 0,087 0,138 0,554 0,216 Totale 1000 1,000 Generalità Media aritmetica ponderata Sulla base dei dati riportati nel prospetto, calcoliamo la media della distribuzione. Poiché non siamo in presenza di una distribuzione di frequenze unitarie, adottiamo la formula della media aritmetica ponderata. Come organizzare la tabella di calcolo? Analizziamo la formula della media aritmetica ponderata: 𝜇= 𝑘 =1 𝑥 𝑁 𝑁 Prodotto modalità×frequenza L’algoritmo di calcolo descritto dalla formula è il seguente: • calcola i 𝑘 addendi 𝑥 𝑁 , ciascuno ottenuto come prodotto tra una modalità della 𝑥 e la corrispondente frequenza assoluta • somma i 𝑘 addendi • dividi per la numerosità 𝑁 delle osservazioni Generalità Media aritmetica ponderata Organizziamo i calcoli nella seguente tabella: Tabella 3. Prospetto di calcolo della media aritmetica ponderata. Metodo delle frequenze assolute 𝑖-esima modalità Livello di accordo Sommando i prodotti dell’ultima colonna e dividendo per il numero di osservazioni otteniamo: 𝑥𝑁 𝑥 𝑁 0 1 2 3 4 5 87 138 554 216 0,005 0,087 0,138 0,554 0,216 0 87 276 1662 864 Totale 1000 1,000 2889 𝜇= 𝑖-esima frequenza assoluta 2889 = 2,889 1000 Prodotto modalità×frequenza Generalità Media aritmetica ponderata In alternativa, possiamo fare riferimento alle frequenze relative: Tabella 4. Prospetto di calcolo della media aritmetica ponderata. Metodo delle frequenze relative 𝑖-esima modalità Livello di accordo 𝑖-esima frequenza relativa 𝑥 𝑥 𝑁 0 1 2 3 4 5 87 138 554 216 0,005 0,087 0,138 0,554 0,216 0,000 0,087 0,276 1,662 0,864 Totale 1000 1,000 2,889 Il vantaggio di tale procedura è che la media può essere letta direttamente come totale dell’ultima colonna Prodotto modalità×frequenza Generalità Media aritmetica ponderata L’ultimo caso che può presentarsi è quello di un carattere definito su scala continua e ripartito in classi. In questo caso non abbiamo modalità, ma classi di modalità, cioè intervalli di valori definiti tra un estremo inferiore e un estremo superiore, ciascuno dei quali potrebbe essere arbitrariamente scelto come rappresentativo dell’intervallo Tuttavia, nell’ipotesi che le osservazioni si ripartiscano uniformemente all’interno dell’intervallo 𝑖-esimo, come valore rappresentativo scegliamo quello centrale, cioè la semisomma dell’estremo inferiore e di quello superiore: 𝑥 = 𝑖𝑛 + 𝑠𝑢𝑝 2 E ora abbiamo tutti gli elementi per tornare all’Esempio 1 Generalità Media aritmetica ponderata Esempio 1. La catena di supermercati DELIGHT incarica una società di ricerche di mercato di intervistare un campione di 1000 clienti allo scopo di raccogliere informazioni sulla spesa media mensile per consumi del loro nucleo familiare. Il risultato dell’indagine è riassunto nel seguente prospetto di sintesi: Tabella 1. Spesa media mensile familiare per consumi. Rilevazione tra i clienti della DELIGHT. Valori in euro Classi di spesa 𝑁 [0, 500) [500, 1000) [1000, 1500) [1500, 2000) [2000, 2500] 68 164 426 251 91 0,0680 0,1640 0,4260 0,2510 0,0910 0,0680 0,2320 0,6580 0,9090 1,0000 500 500 500 500 500 0,14 0,33 0,85 0,50 0,18 1000 1,0000 - - - Totale Generalità Media aritmetica ponderata Organizziamo i calcoli nella seguente tabella: Valore centrale dell’𝑖-esimo intervallo Tabella 5. Prospetto di calcolo della media aritmetica ponderata. Metodo delle frequenze assolute Classi di spesa [0, 500) [500, 1000) [1000, 1500) [1500, 2000) [2000, 2500] Totale 𝜇= 𝑥 𝑁 250 750 1250 1750 2250 68 164 426 251 91 0,0680 0,1640 0,4260 0,2510 0,0910 17000 123000 532500 439250 204750 1000 1,0000 1316500 𝑥𝑁 1316500 = 1316,5 1000 Generalità Media aritmetica ponderata In alternativa, possiamo applicare il metodo delle frequenze relative: Valore centrale dell’𝑖-esimo intervallo Tabella 6. Prospetto di calcolo della media aritmetica ponderata. Metodo delle frequenze relative Classi di spesa [0, 500) [500, 1000) [1000, 1500) [1500, 2000) [2000, 2500] Totale 𝑥 𝑁 250 750 1250 1750 2250 68 164 426 251 91 0,0680 0,1640 0,4260 0,2510 0,0910 17,00 123,00 532,50 439,25 204,75 1000 1,0000 1316,50 𝑥 Generalità Proprietà della media aritmetica 1. Internalità di Cauchy. La media aritmetica è compresa tra il valore minimo e il valore massimo della distribuzione: 𝑥1 ≤ 𝜇 ≤ 𝑥𝑛 La dimostrazione di tale proprietà è banale, infatti basta notare che 𝑥1 + 𝑥1 + … + 𝑥1 ≤ 𝑥1 + 𝑥2 + … + 𝑥𝑛 ≤ 𝑥𝑛 + 𝑥𝑛 + … + 𝑥𝑛 da cui 𝑛𝑥1 ≤ 𝑛𝜇 ≤ 𝑛𝑥𝑛 Dividendo per 𝑛 i tre termini della disuguaglianza si dimostra l’assunto Generalità Proprietà della media aritmetica 2. Scarti. La somma degli scarti dalla media aritmetica è pari a zero: 𝑛 𝑥 −𝜇 =0 =1 Infatti, come notato in precedenza, si ha che 𝑛 𝑛 𝑥 −𝜇 = =1 𝑛 𝑥 − =1 𝜇 = 𝑛𝜇 − 𝑛𝜇 = 0 =1 Tale proprietà può essere facilmente dimostrata anche nel caso di media aritmetica ponderata Generalità Media geometrica: generalità Abbiamo visto in precedenza che la definizione di media di Chisini considera una qualsiasi funzione applicata ad un insieme numerico 𝒙 = 𝑥 ; 𝑖 = 1,2, … , 𝑛 Vediamo cosa succede nel caso della funzione «prodotto»: 𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 = 𝑀 ∙ 𝑀 ∙ … ∙ 𝑀 In termini compatti scriveremo 𝑛 𝑥 = 𝑀𝑛 =1 e infine 𝑀= 𝑛 𝑛 𝑥 =1 Generalità Media geometrica: generalità Quindi, considerata la funzione prodotto applicata ad un insieme 𝒙, il valore di sintesi 𝑀 che non ne altera il valore se sostituito agli 𝑛 elementi appartenenti a 𝒙 è definito dalle relazione 𝑀= 𝑛 𝑛 𝑥 =1 Definiamo tale quantità media geometrica, che indicheremo con la lettera greca 𝛾 da questo momento in poi Generalità La media geometrica: generalità La media geometrica può essere calcolata solo se gli elementi appartenenti all’insieme 𝒙 sono definiti su ℝ+ , in altri termini può essere calcolata solo se tutti i valori dell’insieme sono positivi Una sua caratteristica molto importante è che, rispetto alla media aritmetica, è estremamente sensibile alla presenza di valori prossimi a zero. In particolare, è sufficiente la presenza di un unico valore nullo per annullare la media La media geometrica è impiegata in tutti quegli ambiti applicativi in cui i valori non sono sommati tra loro, ma moltiplicati. Esempi tipici sono i tassi di crescita, i tassi d'interesse o i tassi d'inflazione Generalità La media geometrica: generalità Esempio 4. Ipotizziamo di aver investito 𝑘 = 500 euro a tasso variabile per 3 anni e che i tassi annui di rendimento dell’investimento siano i seguenti: 𝒙 = 0,03 0,045 0,027 Come di consueto, il nostro obiettivo è individuare una misura di sintesi, rappresentativa degli elementi appartenenti a 𝒙, in questo caso un tasso medio di rendimento dell’investimento In primo luogo, osserviamo che un capitale di 500 euro investito per un anno al 3% a fine periodo ammonterà a: 𝑘1 = 500 + 0,03 ∙ 500 = 𝑘 + 0,03𝑘 = 𝑘 1 + 0,03 = 1,03𝑘 Analogamente, se nel secondo anno il montante 𝑘1 è reinvestito al 4,5%, alla fine del secondo anno il capitale reinvestito ammonterà a 𝑘2 = 𝑘1 + 0,045𝑘1 = 1,045𝑘1 = 1,03 ∙ 1,045𝑘 Generalità La media geometrica: generalità Se nel terzo anno reinvestiamo 𝑘2 al 2,7%, a fine periodo otterremo 𝑘3 = 𝑘2 + 0,027𝑘2 = 1,027𝑘2 = 1,03 ∙ 1,045 ∙ 1,027𝑘 L’ultima relazione esprime il capitale alla fine del terzo anno in funzione del capitale iniziale e di una produttoria di coefficienti di rendimento Se il nostro obiettivo è calcolare un tasso medio annuo di rendimento, è inappropriato utilizzare una media aritmetica, in quanto non siamo in presenza di una funzione «somma», ma di una funzione «prodotto», per cui adottiamo la media geometrica semplice Avremo che 𝛾= 𝑛 𝑛 𝑥 = 3 1,03 ∙ 1,045 ∙ 1,027 = 3 1,10541145 ≅ 1,03397 =1 Il tasso medio di rendimento sarà pari a 𝑟 = 1,03397 − 1 = 0,03397 Generalità Come calcolare un tasso medio di incremento percentuale con la media geometrica Esempio 5. Nella tabella seguente è riportata la tabella sulla popolazione media di Pescara, desumibile dai bilanci anagrafici, tra il 2002 e il 2009: Tabella 7. Popolazione media comune di Pescara. Anni 20022009 Anno Popolazione media 2002 2003 2004 2005 2006 2007 2008 2009 116.226 121.728 122.083 122.587 122.457 122.402 122.790 123.022 Generalità Come calcolare un tasso medio di variazione percentuale con la media geometrica Il nostro obiettivo è calcolare i 7 tassi annui di incremento demografico della popolazione del comune di Pescara e, in seguito, il tasso medio di variazione percentuale della popolazione del comune di Pescara per l’intero intervallo temporale considerato È necessario fare una breve premessa. Per effettuare confronti spaziali o temporali tra grandezze, uno degli strumenti che possiamo utilizzare è il numero indice. Se una grandezza è suscettibile di variare nel tempo o nello spazio, definiamo numero indice il rapporto tra due sue intensità: 𝑥𝑏 𝑎𝑏𝑖𝑥 = 𝑥𝑎 Generalità Come calcolare un tasso medio di variazione percentuale con la media geometrica Convenzioni. Nel rappresentare il numero indice, abbiamo rispettato alcune convenzioni: • un numero indice semplice (in quanto riferito a fenomeni semplici, come un livello di popolazione) è rappresentato con la lettera 𝑖 minuscola; • sulla sinistra si specificano i descrittori e 𝑏 delle intensità che stiamo mettendo a rapporto (nel nostro caso la quantità 𝑥𝑏 e la quantità 𝑥𝑎 , base del confronto), cioè le «posizioni» spaziali o temporali delle intensità confrontate. Nel caso di confronti temporali, e 𝑏 saranno due tempi (giorni, mesi, anni); • sulla destra specifichiamo la grandezza per la quale stiamo calcolando l’indice (genericamente 𝑥, ma se fossero prezzi potrei scrivere 𝑝, se fossero quantità scambiate potrei scrivere 𝑞, se fosse un prodotto o un reddito potrei scegliere 𝑦, e così via) Generalità Come calcolare un tasso medio di variazione percentuale con la media geometrica Come si legge un numero indice? Facciamo un esempio: ipotizziamo di voler confrontare la popolazione del comune di Pescara nel 2003 con quella del 2002, utilizzando un numero indice: 12𝑖𝑝 = 𝑝2 121.728 = = 1,0473 𝑝1 116.226 L’indice si legge come segue: fatta pari all’unità la popolazione di Pescara nel 2002, quella del 2003 sarebbe uguale a 1,0473. In generale, quando rapportiamo due grandezze, ne eliminiamo l’unità di misura e l’indice che otteniamo è un numero puro Naturalmente, possiamo rendere l’indice in termini statisticamente più significativi, moltiplicandolo per 100: 12𝑖𝑝 × 100 = 104,73 Generalità Come calcolare un tasso medio di variazione percentuale con la media geometrica L’aspetto interessante dei numeri indici è che consentono di valutare con immediatezza il tasso di variazione percentuale. Con riferimento all’espressione del numero indice in termini percentuali, infatti, detraendo al valore dell’indice la quantità 100, otteniamo il tasso di variazione percentuale: 12𝑖𝑝 × 100 − 100 = 104,73 − 100 = 4,73 Quindi, rispetto al 2002 la popolazione del comune di Pescara è aumentata l’anno successivo del 4,73% Adesso dovremo calcolare gli indici a base mobile (cioè gli indici di ciascun anno sul precedente) della popolazione e la loro media. Scegliamo la media geometrica perché gli indici sono dei rapporti, quindi scegliere una media aritmetica sarebbe inappropriato Generalità Come calcolare un tasso medio di variazione percentuale con la media geometrica Allestiamo quindi la seguente tabella di calcolo: Tabella 8. Numeri indici a base mobile della popolazione del comune di Pescara. Anni 2002-2009 Anno Popolazione media 2002 2003 2004 2005 2006 2007 2008 2009 116.226 121.728 122.083 122.587 122.457 122.402 122.790 123.022 1, 𝑝 1,0473 1,0029 1,0041 0,9989 0,9996 1,0032 1,0019 Generalità Come calcolare un tasso medio di variazione percentuale con la media geometrica Il tasso medio di variazione percentuale (o tasso medio di crescita) della popolazione del comune di Pescara tra il 2002 e il 2009 può quindi essere determinato calcolando la media geometrica degli indici a base mobile, moltiplicando tale quantità per 100 e sottraendo 100. In simboli: 𝛾= 7 8 =2 1, 𝑖𝑝 = 𝑖𝑝 Poiché 8 =2 1, 𝑖𝑝 = 1,0473 ∙ 1,0029 ∙ 1,0041 ∙ 0,9989 ∙ 0,9996 ∙ 1,0032 ∙ 1,0019 = 1,0584 risulterà 𝑖𝑝 = 7 1,0584 = 1,0081 Generalità Come calcolare un tasso medio di variazione percentuale con la media geometrica Come si è chiarito in precedenza, dobbiamo passare dall’indice medio, calcolato con la media geometrica, al tasso medio di variazione percentuale. L’indice percentuale è dato da: 𝑖𝑝 × 100 = 1,0081 × 100 = 100,81 Infine, otteniamo il tasso medio di variazione percentuale sottraendo al precedente risultato il valore 100: 𝑖𝑝 × 100 − 100 = 100,81 − 100 = 0,81 Quindi, la popolazione di Pescara, tra il 2002 e il 2009, è aumentata mediamente dello 0,81% l’anno Generalità La media geometrica ponderata Nei due esempi precedenti, ciascun rendimento/tasso di crescita caratterizzava un’unica osservazione, quindi eravamo in presenza di una distribuzione di frequenze assolute unitarie Cosa cambia nella formulazione della media geometrica se alcune modalità (rendimenti, tassi di crescita, ecc.) si ripetono in più osservazioni? Affrontiamo il problema con il semplice esempio seguente: Generalità La media geometrica ponderata Esempio 6. Ipotizziamo di aver investito 𝑤 = 500 euro a tasso variabile per 5 anni e che i tassi annui di rendimento dell’investimento siano i seguenti: 𝒓 = 0,03 0,045 0,045 0,027 0,027 Nel calcolo del montante alla fine del quinto anno, cambia qualcosa rispetto all’Esempio 4? Evidentemente no. Infatti, alla fine del quinto anno, il capitale reinvestito ammonterà a 𝑘5 = 1,03 ∙ 1,045 ∙ 1,045 ∙ 1,027 ∙ 1,027𝑤 che possiamo scrivere come 𝑘5 = 1,03 ∙ 1,0452 ∙ 1,0272 𝑤 Generalità La media geometrica ponderata Calcoliamo la media geometrica dei coefficienti di rendimento: 𝛾= 5 5 1,03 ∙ 1,0452 ∙ 1,0272 = 1,186344 = 1,034766 e il rendimento medio annuo sarà pari a 𝑟 = 1,034766 − 1 = 0,034766 In generale, con 𝑁 osservazioni e 𝑘 modalità distinte del carattere 𝑿, indicando come di consueto le frequenze assolute come 𝑁 , scriveremo che 𝛾= 𝑁 𝑘 𝑥 𝑁𝑖 =1 Tale relazione definisce la media geometrica ponderata Generalità La media geometrica ponderata Possiamo fare qualche intervento «cosmetico» sulla formula, osservando che in virtù di una nota proprietà dei radicali (e delle 𝑛 𝑚 = 𝑚 𝑛 funzioni esponenziali … ) Se applichiamo tale proprietà alla nostra formula, ricordando che 𝑁𝑖 è la generica 𝑖-esima frequenza relativa, possiamo scrivere che 𝑁 𝛾= 𝑁 𝑘 𝑥 =1 𝑁𝑖 𝑘 = 𝑥 =1 𝑁𝑖 𝑁 𝑘 = 𝑥 = 𝑓𝑖 =1 Nella precedente relazione, la media geometrica ponderata è espressa in termini delle frequenze relative associate alle 𝑘 modalità del carattere 𝑿 Tale espressione sarà utile a breve, quando presenteremo la nozione generalizzata di medie di potenze Generalità La media geometrica ponderata Esempio 7. Nella seguente tabella è riportata la distribuzione dei rendimenti annuali garantiti ai sottoscrittori dell’hedge fund FLEXIA nel periodo compreso tra il 2000 e il 2014: Tabella 9. Tassi medi di rendimento garantiti ai sottoscrittori del fondo FLEXIA. 2000-2014 𝑥 𝑁 0,03 0,04 0,07 0,09 3 3 3 6 Totale 15 Generalità La media geometrica ponderata Per calcolare il rendimento medio, allestiamo il seguente prospetto di calcolo: Tabella 10. Prospetto di calcolo del tasso medio annuo di rendimento 2000-2014 𝑥 𝑓𝑖 𝑟 𝑥 =1+𝑟 𝑁 0,03 0,04 0,07 0,09 1,03 1,04 1,07 1,09 3 3 3 6 0,2 0,2 0,2 0,4 1,005929 1,007875 1,013624 1,035072 15 1,0 1,063706 Totale Modalità^freq. rel. Il rendimento medio ammonterà a 𝑟 = 1,063706 − 1 ≅ 0,064 4 𝑥 =1 𝑓𝑖 Generalità Proprietà della media geometrica 1. Internalità di Cauchy. La media geometrica è compresa tra il valore minimo e il valore massimo della distribuzione: 𝑥1 ≤ 𝜇 ≤ 𝑥𝑛 La dimostrazione di tale proprietà è banale, infatti basta notare che 𝑥1 × 𝑥1 × … × 𝑥1 ≤ 𝑥1 × 𝑥2 × … × 𝑥𝑛 ≤ 𝑥𝑛 × 𝑥𝑛 × … × 𝑥𝑛 da cui 𝑥1 𝑛 ≤ 𝛾 𝑛 ≤ 𝑥𝑛 𝑛 Calcolando la radice 𝑛-esima dei tre termini della disuguaglianza si dimostra l’assunto Generalità Media armonica: generalità Torniamo alla definizione di Chisini per presentare un’altra misura di sintesi di utilizzo frequente, che definiamo media armonica Con riferimento ad un insieme numerico 𝒙 = 𝑥 ; 𝑖 = 1,2, … , 𝑛 , ipotizziamo che sia la funzione «somma dei reciproci» delle osservazioni e verifichiamo qual è la misura di sintesi 𝑀 che in questo caso non altera il valore delle funzione: 1 1 1 1 1 1 + + …+ = + + …+ 𝑥1 𝑥2 𝑥𝑛 𝑀 𝑀 𝑀 In termini compatti avremo che 𝑛 𝑛 1 = 𝑥 =1 1 =1 𝑀 e quindi 𝑀= 𝑁 𝑛 1 =1 𝑥 𝑛 1 𝑁 = 𝑀 =1 𝑀 Generalità Media armonica: generalità Quindi, considerata la funzione somma applicata ai reciproci degli elementi appartenenti ad un insieme 𝒙, il valore di sintesi 𝑀 che non ne altera il valore se sostituito agli 𝑛 elementi di 𝒙 è definito dalla relazione 𝑀= 𝑁 𝑛 1 =1 𝑥 Come abbiamo anticipato, definiamo tale quantità media armonica, che indicheremo con la lettera greca 𝛼 da questo momento in poi Generalità Media armonica: generalità Quando è appropriato utilizzare una media armonica come indicatore di sintesi? Un semplice esempio consentirà di cogliere in maniera intuitiva gli ambiti di applicazione di questo particolare tipo di media Ipotizziamo di disporre di una somma di denaro pari a 𝑆 euro. Dato un insieme di 𝑛 prodotti, possiamo utilizzare la somma 𝑆 per acquistare la quantità 𝑞1 del prodotto 1, la quantità 𝑞2 del prodotto 2, e così via fino al prodotto 𝑛-esimo In maniera del tutto ovvia, il prezzo dell’𝑖-esimo prodotto può essere ricavato dividendo 𝑆 per la quantità di prodotto che posso acquistare spendendo 𝑆: 𝑆 𝑆 𝑆 𝑝1 = , 𝑝2 = , … , 𝑝𝑛 = 𝑞1 𝑞2 𝑞𝑛 Generalità Media armonica: generalità Il prezzo medio degli 𝑛 beni può essere determinato tramite un rapporto, in cui al numeratore figura l’ammontare complessivo delle transazioni 𝑛𝑆 e al denominatore la somma delle quantità acquistabili 𝑛 =1 𝑞 : 𝑛𝑆 𝑝= Osservando che 𝑛 =1 𝑞 = 𝑝= 𝑛 𝑆 =1 𝑝 𝑖 𝑛 =1 𝑞 , sostituendo otteniamo 𝑛𝑆 𝑛 𝑆 =1 𝑝 = 𝑛 𝑛 1 =1 𝑝 Quindi il prezzo medio può essere ottenuto come media armonica dei prezzi degli 𝑛 prodotti Generalità La media armonica: generalità Esempio 8. Ipotizziamo di aver rilevato il prezzo in euro di tre prodotti presso un punto vendita: 𝒑 = 4,20 4,50 5,10 Il nostro obiettivo è individuare una misura di sintesi, rappresentativa degli elementi appartenenti a 𝒑, in questo caso con l’ausilio di una media armonica Poiché nell’esempio 𝑛 = 3, scriveremo 𝑝= 𝑛 𝑛 1 =1 𝑝 = 3 3 = ≅ 4,573 1 1 1 0,238 + 0,222 + 0,196 4,20 + 4,50 + 5,10 Generalità La media armonica ponderata Naturalmente, anche nel caso della media armonica dovremo distinguere la misura di sintesi calcolata nel caso di distribuzioni di frequenze unitarie (la media armonica semplice adottata finora) dalla misura di sintesi che calcoliamo nel caso più generale in cui una generica modalità del carattere è rilevata su più unità statistiche componenti il collettivo e quindi 𝑁 > 1 Nel caso di un carattere che assume 𝑘 modalità o classi di modalità distinte, facciamo riferimento alla media armonica ponderata, definita dalla seguente relazione: 𝛼= 𝑁 𝑘 𝑁 =1 𝑥 Generalità La media armonica ponderata Come in precedenza, possiamo effettuare un intervento «cosmetico» sulla formula per semplificarne la lettura Dividendo numeratore e denominatore del rapporto per 𝑁 e 𝑁 ricordando che 𝑁𝑖 = , possiamo scrivere 𝑁 𝑁 𝑁 𝛼= = 𝑘 𝑁 𝐾 𝑁 𝑁 =1 𝑥 =1 𝑥 e quindi 𝛼= 1 𝑘 =1 𝑥 𝑁 =1 𝑁 𝑁 = 𝑁 Generalità La media armonica ponderata Esempio 9. Ipotizziamo che una società di ricerche di mercato sia interessata ad analizzare le politiche di prezzo della catena di supermercati MONOPRICE e a questo scopo abbia rilevato il prezzo di 𝑁 = 100 prodotti presenti nei punti vendita della catena. I risultati delle rilevazioni sono riassunti nel seguente prospetto di sintesi: Tabella 10. Prezzi dei prodotti distribuiti nei punti vendita MONOPRICE. Valori in euro Prezzo 𝑁 0,99 1,49 1,99 2,49 2,99 24 45 14 10 7 0,24 0,45 0,14 0,10 0,07 100 1,00 Generalità La media armonica ponderata Come organizzare la tabella di calcolo? Esaminiamo la formula della media armonica ponderata: 𝛼= 𝑁 𝑘 𝑁 =1 𝑥 L’algoritmo di calcolo descritto dalla formula è il seguente: • calcola i 𝑘 rapporti 𝑁𝑖 , 𝑥𝑖 ottenuti dividendo la generica 𝑖-esima frequenza assoluta per la corrispondente modalità del carattere • somma i 𝑘 rapporti • dividi la numerosità 𝑁 delle osservazioni per il risultato della precedente operazione di somma Generalità La media armonica ponderata Impostiamo la tabella di calcolo: Ricordando che 𝛼= 𝑁 𝑘 𝑁 =1 𝑥 otteniamo 100 𝛼= ≅ 1,474 67,8361 Tabella 11. Prospetto di calcolo della media armonica ponderata. Metodo delle frequenze assolute 𝑁 𝑥 Prezzo 𝑁 0,99 1,49 1,99 2,49 2,99 24 45 14 10 7 0,24 0,45 0,14 0,10 0,07 24,2424 30,2013 7,0352 4,0161 2,3411 100 1,00 67,8361 𝑘 𝑁 =1 𝑥 Generalità La media armonica ponderata Se invece scegliamo di adottare il metodo delle frequenze relative, la tabella sarà organizzata nel modo seguente: Tabella 12. Prospetto di calcolo della media armonica ponderata. Metodo delle frequenze relative Poiché risulta 𝛼= 1 𝑘 =1 𝑥 otteniamo 1 𝛼= ≅ 1,474 0,6784 Prezzo 𝑁 0,99 1,49 1,99 2,49 2,99 24 45 14 10 7 0,24 0,45 0,14 0,10 0,07 0,2424 0,3020 0,0704 0,0402 0,0234 100 1,00 0,6784 𝑥 𝑘 =1 𝑥 Generalità Generalizzazione: le medie di potenze È possibile generalizzare, da un punto di vista formale, il concetto di misura di sintesi. Lo strumento che ci consente di generalizzare è la classe delle medie di potenze o medie potenziate Da questo momento in poi, senza perdita di generalità, faremo riferimento per agilità di notazione esclusivamente a frequenze relative Dato un fenomeno 𝑿 definito su ℝ che assuma 𝑘 modalità o classi di modalità distinte, sia 𝐱 = 𝑥1 , 𝑥2 , … , 𝑥𝑛 l’insieme delle misure di 𝑿 rilevate in un collettivo composto da 𝑛 unità statistiche. Definiamo media di potenza di ordine 𝒔 la quantità 𝑘 𝑀𝑠 = 𝑥𝑠 1 𝑠 =1 Al variare di 𝑠 quindi 𝑀𝑠 descrive un’intera classe di misure di sintesi, di cui esamineremo alcune proprietà Generalità Generalizzazione: le medie di potenze Perché la classe delle medie di potenze è interessante? Ipotizziamo di considerare il valore 𝑠 = 1; avremo che 𝑘 𝑠=1 → 𝑀1 = 𝑥 1 1 1 𝑘 = 𝑥 =1 =1 Quindi per 𝑠 = 1 la misura di sintesi che otteniamo è la media aritmetica ponderata Consideriamo adesso il valore 𝑠 = −1; avremo che 𝑘 𝑠 = −1 → 𝑀 1 = 𝑥 =1 1 1 1 1 = 𝑘 =1 𝑥 e quindi otteniamo la media armonica ponderata Generalità Generalizzazione: le medie di potenze Si può dimostrare inoltre che 𝑘 𝑠→0 → 𝑀0 = 𝑥 𝑓𝑖 =1 Quindi per 𝑠 → 0 la misura di sintesi che otteniamo è la media geometrica ponderata In generale, considerati due numeri 𝑟 e 𝑠, tali che 𝑟 < 𝑠, si avrà che 𝑀𝑟 < 𝑀𝑠 Con riferimento alle tre medie pitagoriche (armonica, geometrica e aritmetica), tale proprietà implica che 𝑀 1 < 𝑀0 < 𝑀1 Generalità Generalizzazione: le medie di potenze Inoltre, dato un insieme 𝒙 = 𝑥1 , 𝑥2 , … , 𝑥𝑛 ordinato, cioè tale che 𝑥1 ≤ 𝑥2 ≤ … ≤ 𝑥𝑛 , si può dimostrare che 𝑠→∞ → 𝑠 → ∞+ → 𝑀∞− → 𝑥1 𝑀∞+ → 𝑥𝑛 Perché è interessante tale proprietà delle medie di potenze? Perché, se applicata alle tre medie pitagoriche (armonica, geometrica e aritmetica), caratterizzate rispettivamente da ordine 𝑠 = −1; 0; +1 , ci consente di mostrare che, con riferimento ad un qualche insieme di osservazioni 𝒙 = 𝑥1 , 𝑥2 , … 𝑥𝑛 definite su ℝ+ , le tre medie assumeranno valori tali che 𝑀 1 ≤ 𝑀0 ≤ 𝑀1 Generalità Generalizzazione: le medie di potenze Esempio 10. Con riferimento ai dati dell’Esempio 1, verificare che 𝛼≤𝛾≤𝜇 Tabella 6. Prospetto di calcolo della media aritmetica, geometrica e armonica. Metodo delle frequenze relative Classi di spesa [0, 500) [500, 1000) [1000, 1500) [1500, 2000) [2000, 2500] Totale 𝑥 𝑁 250 750 1250 1750 2250 68 164 426 251 91 0,0680 0,1640 0,4260 0,2510 0,0910 1000 1,0000 𝑥 17,00 123,00 532,50 439,25 204,75 𝑥 𝑓𝑖 𝑥 1,456 2,961 20,859 6,516 2,019 0,00027 0,00022 0,00034 0,00014 0,00004 1316,50 1182,782 0,00102 Poichè 𝛼 = 1 0,00102 ≅ 984,89, 𝛾 = 1182,78 e 𝜇 = 1316,5 risulta verificato che 𝛼 ≤ 𝛾 ≤ 𝜇