...

Lezioni 12-16

by user

on
Category: Documents
23

views

Report

Comments

Transcript

Lezioni 12-16
statistica
le medie di calcolo
alessandro polli
facoltà di scienze politiche, sociologia, comunicazione
12-16-18 marzo 2015
Generalità
Obiettivo
Come ripetiamo spesso, uno degli principali obiettivi dei metodi
statistici è la sintesi, intesa come rappresentazione semplificata di un
fenomeno rilevato in un collettivo. La sintesi facilita la descrizione del
fenomeno da parte dell’osservatore, in quanto consente di coglierne
una qualche proprietà essenziale
L’operazione di sintesi può essere svolta tramite opportune
rappresentazioni grafiche o attraverso il calcolo di parametri
distributivi: parametri di posizione, di variabilità, di forma
Una prima famiglia di parametri di posizione, trattati nelle passate
lezioni, è quella delle medie di posizione. L’altra importante famiglia è
quella delle medie di calcolo, definite anche medie ferme o analitiche
Generalità
Una prima intuizione sulle medie di calcolo
Se il fenomeno analizzato è definito su scala quantitativa (cioè su uno
spazio numerico), l’operazione di sintesi può quindi essere effettuata
sia tramite il calcolo di medie di posizione, sia trattando
algebricamente le misure del fenomeno rilevate sulle 𝑁 unità
statistiche componenti il collettivo
Parliamo di medie di calcolo o analitiche nei termini seguenti: nel caso
di fenomeni definiti su ℝ, la media di calcolo è una qualche misura
sintetica della «tendenza centrale», cioè dell’ordine di grandezza del
fenomeno analizzato
Il criterio adottato per esplicitare il concetto di
«centralità» individua in maniera univoca una
specifica formula di calcolo della media analitica.
L’insieme delle medie così definite costituisce la
famiglia delle medie di calcolo
Generalità
Una prima intuizione sulle medie di calcolo
Esempio 1. La catena di supermercati DELIGHT incarica una società di ricerche di
mercato di intervistare un campione di 1000 clienti allo scopo di raccogliere
informazioni sulla loro spesa media mensile per consumi. Il risultato
dell’indagine è riassunto nel seguente prospetto di sintesi:
Tabella 1. Spesa media mensile familiare per consumi. Rilevazione tra i clienti
della DELIGHT. Valori in euro
Classi di spesa
𝑁
[0, 500)
[500, 1000)
[1000, 1500)
[1500, 2000)
[2000, 2500]
68
164
426
251
91
0,0680
0,1640
0,4260
0,2510
0,0910
0,0680
0,2320
0,6580
0,9090
1,0000
500
500
500
500
500
0,14
0,33
0,85
0,50
0,18
1000
1,0000
-
-
-
Totale
Generalità
Una prima intuizione sulle medie di calcolo
Con riferimento alla tabella precedente, potremmo essere interessati a
calcolare una qualche misura sintetica che ci fornisca un’idea
sull’ordine di grandezza del fenomeno analizzato (la spesa media
mensile)
Esaminando i risultati precedenti, è immediato affermare che la spesa
media mensile per consumi rilevata dall’istituto di ricerche di mercato
varia da 0 a 2500 euro, ma tale informazione è alquanto generica
Sarebbe maggiormente utile, a ben riflettere, disporre
di un qualche valore numerico puntuale, compreso tra
0 e 2500 euro, che consenta di fare affermazioni sul
fenomeno indagato (la spesa media mensile familiare
per consumi dei clienti della catena di supermercati)
senza fornire una rappresentazione «alterata» della
realtà
Generalità
Una prima intuizione sulle medie di calcolo
Ma cosa significa fornire una rappresentazione «alterata» della realtà?
È opportuno chiarire tale affermazione: nel momento in cui facciamo
affermazioni su un fenomeno avvalendoci di una qualche misura di
sintesi, paghiamo un «costo», rappresentato dalla perdita del
patrimonio informativo che abbiamo costituito osservando il
fenomeno su ciascuna unità statistica componente il collettivo
Assodato che la sintesi è uno degli strumenti che ci consente di
facilitare il processo di conoscenza della realtà, è quindi necessario
individuare criteri che consentano di minimizzare i costi associati
all’utilizzo di affermazioni di sintesi, costi che, come si è detto, sono
costituiti da perdite informative
Generalità
Una prima intuizione sulle medie di calcolo
Ad esempio, se l’altezza media in un collettivo osservato è di 178 cm e
io utilizzo tale informazione per fare un’affermazione di sintesi sul
fenomeno «altezza», con riferimento ad una specifica unità statistica
compresa nel collettivo e alta 147 cm incorrerò in una perdita
informativa (il «costo» di cui parlavamo prima) pari allo scarto
147 − 178 = −31 cm
Analogamente, con riferimento ad una seconda unità statistica
compresa nel collettivo e alta 189 cm, se utilizzo l’altezza media per
connotare il fenomeno ho una perdita informativa pari allo scarto
189 − 178 = +21 cm
Naturalmente tali perdite informative possono essere calcolate con
riferimento a tutte le unità statistiche componenti il collettivo
Generalità
Una prima intuizione sulle medie di calcolo
Da un punto di vista logico, dunque, sotto quali condizioni posso
avvalermi di una misura di sintesi per fare affermazioni su un
fenomeno analizzato?
Una risposta «sensata» potrebbe essere la seguente: sono logicamente
legittimato a fare affermazioni su un fenomeno attraverso una misura
di sintesi quando sommando le perdite informative (gli scarti positivi e
negativi) queste si compensano e la perdita informativa risulta nel
complesso pari a zero
Generalità
Una prima intuizione sulle medie di calcolo
Affinché la perdita informativa sia nel complesso nulla, devono essere
soddisfatte alcune condizioni
In primo luogo, è necessario che la misura di sintesi sia compresa tra il
valore minimo e il valore massimo che il fenomeno indagato può
assumere nel collettivo considerato. Infatti soltanto se è soddisfatta
questa condizione di «internalità» gli scarti assumono segni sia positivi,
sia negativi
Ovviamente, la condizione di internalità è una condizione necessaria,
ma non sufficiente. Infatti, non soltanto dovremo scegliere un valore di
sintesi compreso tra il valore minimo e il valore massimo, ma tra gli
infiniti valori compresi nell’intervallo dovremo scegliere quello che
rende nulla la perdita informativa globale
Generalità
Una prima intuizione sulle medie di calcolo
Esiste un modo semplice per individuare tale valore? Un po’ di algebra
ci consente di risolvere il problema con relativa facilità
Ipotizziamo di rilevare un fenomeno 𝑿 definito su ℝ in un collettivo
composto da 𝑛 unità statistiche e ipotizziamo che 𝐱 = 𝑥1 , 𝑥2 , … , 𝑥𝑛
sia il risultato delle nostre rilevazioni (nel senso che se 𝑿 è il fenomeno
«altezza», 𝐱 sarà l’insieme delle 𝑛 altezze rilevate nel collettivo)
Indichiamo con 𝑀 la misura di sintesi delle 𝑛 osservazioni. Fare
un’affermazione sul fenomeno 𝑿 utilizzando la misura di sintesi 𝑀
determina, come abbiamo visto, una perdita informativa. Indicando la
perdita informativa con il simbolo 𝑒, con riferimento alla generica iesima osservazione, la perdita informativa sarà pari a
𝑒 = 𝑥 −𝑀
𝑖 = 1,2, … , 𝑛
Generalità
Una prima intuizione sulle medie di calcolo
Abbiamo affermato in precedenza che siamo logicamente legittimati a
fare affermazioni su un fenomeno attraverso una misura di sintesi
quando sommando le perdite informative (gli scarti positivi e negativi)
queste si compensano e la perdita informativa risulta nel complesso
minima e al limite pari a zero
L’idea semplice è quella di imporre tale condizione al problema, nel
senso che sceglieremo quel valore di 𝑀 che rende la somma delle
perdite informative pari a zero. In formule:
𝑛
=1 𝑒
≡
𝑛
=1
𝑥 −𝑀 =0
Generalità
Una prima intuizione sulle medie di calcolo
Concentrandoci sulla seconda espressione, potremo scrivere
𝑛
=1
𝑥 −𝑀 =0
Scegliamo 𝑀 in modo da soddisfare tale relazione (il che equivale a
risolvere per 𝑀 la precedente equazione di primo grado). Possiamo
sfruttare la proprietà associativa/dissociativa della sommatoria e
scrivere:
𝑛
=1 𝑥
−
𝑛
=1 𝑀
𝑛
=1 𝑥
=
𝑛
=1 𝑀
=0
cioè
A sinistra figura la somma di tutte le misure rilevate sul collettivo, a
destra la somma di 𝑛 addendi, tutti pari ad 𝑀
Generalità
Una prima intuizione sulle medie di calcolo
Osservando che
𝑛
=1 𝑀
𝑛
=1 𝑥
= 𝑛𝑀
= 𝑛𝑀, possiamo quindi scrivere che
che risolta per 𝑀 ci consente di pervenire alla relazione
1
𝑀=𝑛
𝑛
=1 𝑥
Cosa ci dice tale relazione? Ci dice che il valore di sintesi che rende la
perdita informativa nel complesso pari a 0 è quel valore che sostituito
alle 𝑛 osservazioni non ne altera il valore della somma
Tale proprietà, opportunamente generalizzata, è una delle
caratteristiche fondamentali della famiglia delle medie di calcolo
Generalità
Una prima generalizzazione
Come si diceva, tale proprietà può essere generalizzata
Partiamo da una premessa: dato un insieme di osservazioni definite su
ℝ del tipo 𝒙 = 𝑥1 , 𝑥2 , … 𝑥𝑛 , da un punto di vista formale sommare
tali osservazioni equivale a calcolarne la funzione «somma»
Analogamente, potremo considerare la funzione «prodotto», il che
equivale a moltiplicare tra loro gli 𝑛 valori appartenenti all’insieme
numerico 𝒙
Potrei considerare altri tipi di funzione delle osservazioni − e a
ben riflettere di tali funzioni ne esistono infinite. Fatto sta che
la misura di sintesi 𝑀 deve essere scelta in modo tale che,
considerata una qualsiasi funzione delle osservazioni, la
sostituzione di 𝑀 alle 𝑛 osservazioni non deve alterare il valore
della funzione considerata
Generalità
Definizione di media di Chisini
Nel 1929 Oscar Chisini ha proposto la seguente definizione di media:
Dato un insieme numerico 𝒙 = 𝑥1 , 𝑥2 , … , 𝑥𝑛 composto da 𝑛 elementi
e una funzione degli 𝑛 elementi di 𝒙, definiamo media degli 𝑛
elementi di 𝒙 quell’unico numero 𝑀, se esiste, tale che
𝑥1 , 𝑥2 , … , 𝑥𝑛 =
𝑀, 𝑀, … , 𝑀
Tale definizione, a bene riflettere, non è altro che una generalizzazione
dei concetti che abbiamo esposto in precedenza
Oscar Chisini (1929), «Sul concetto di media»,
Periodico di Matematiche, Vol. 4, pp. 106-116
Generalità
Definizione di media di Chisini
Rendiamo maggiormente operativa tale definizione con riferimento
alla funzione somma. Poiché nel caso di funzione somma si ha che
𝑥1 , 𝑥2 , … , 𝑥𝑛 = 𝑥1 + 𝑥2 + … + 𝑥𝑛
e analogamente
𝑀, 𝑀, … , 𝑀 = 𝑀 + 𝑀 + … + 𝑀 = 𝑛𝑀
potremo scrivere che
𝑥1 + 𝑥2 + … + 𝑥𝑛 = 𝑛𝑀
Osservando che 𝑥1 + 𝑥2 + … + 𝑥𝑛 = 𝑛=1 𝑥 , la precedente
1
relazione è verificata se e solo se 𝑀 = 𝑛 𝑛=1 𝑥 , il che
giustifica su un piano formale le nostre prime intuizioni
Generalità
Definizione di media di Chisini
Ipotizziamo che l’insieme di osservazioni 𝒙 sia composto da 𝑛 = 3
elementi:
𝒙 = 5, 10, 15
Vogliamo individuare una misura di sintesi, rappresentativa degli
elementi appartenenti a 𝒙 e a tale scopo calcoliamo il seguente
indicatore di sintesi:
1
𝑀=
𝑛
𝑛
𝑥 =
=1
1
5 + 10 + 15 = 10
3
Generalità
Definizione di media di Chisini
Calcoliamo la perdita informativa che si determina quando utilizziamo
l’indicatore di sintesi 𝑀 al posto dei 3 elementi di 𝒙 per fare
affermazioni sul fenomeno 𝑿:
𝑒1 = 5 − 10 = −5
𝑒2 = 10 − 10 = 0
𝑒3 = 15 − 10 = +5
Globalmente si avrà quindi che
3
𝑒 = −5 + 0 + 5 = 0
=1
La conclusione è che la misura di sintesi 𝑀 fornisce una
visione «non alterata» della realtà, in quanto la perdita
informativa che si determina utilizzando 𝑀 per sintetizzare il
fenomeno 𝑿 è nel complesso nulla
Generalità
La media aritmetica
Nel caso della funzione somma applicata ad un insieme 𝒙, abbiamo
appena dimostrato che il valore di sintesi 𝑀 che non ne altera il valore
se sostituito agli 𝑛 elementi appartenenti a 𝒙 è definito dalla relazione
1
𝑀=
𝑛
𝑛
𝑥
=1
Definiamo tale quantità media aritmetica, indicata spesso, in ambito
descrittivo, con la lettera greca 𝜇, convenzione che adotteremo da
questo momento in poi
Generalità
Media aritmetica semplice
Esempio 2. Ipotizziamo di aver rilevato la piovosità a Roma negli ultimi
5 giorni, espressa in termini di millimetri nelle 24 ore, e di raccogliere le
5 misure di piovosità nel seguente vettore di osservazioni:
𝒙 = 10,4 26,8 9,2 0,0 16,4
Calcoliamo la piovosità media degli ultimi 5 giorni:
1
𝜇=
𝑛
𝑛
1
62,8
𝑥 = 10,4 + 26,8 + 9,2 + 0,0 + 16,4 =
5
5
=1
Calcolato il rapporto quindi, possiamo affermare che la piovosità media
negli ultimi 5 giorni a Roma è stata pari a 12,56 mm nelle 24 ore
Generalità
Media aritmetica semplice
Commentiamo brevemente l’ultimo risultato. Abbiamo calcolato la
media aritmetica di 5 misure di piovosità, ciascuna caratterizzata da
frequenza assoluta unitaria (nel senso che a ciascun valore di piovosità
corrisponde una sola osservazione)
Se volessimo rappresentare i dati
dell’esempio 2 in forma tabellare, ne
risulterebbe il prospetto di destra, in cui
per facilità di lettura le misure di
piovosità sono riordinate in senso
ascendente: la nozione di frequenza
assoluta unitaria risulta
immediatamente evidente
Piovosità
(mm/24h)
𝑁
0,0
9,2
10,4
16,4
26,8
1
1
1
1
1
0,2
0,2
0,2
0,2
0,2
Totale
5
1,0
Generalità
Media aritmetica semplice
Nel caso di distribuzioni di frequenze assolute unitarie, tutti gli
elementi dell’insieme 𝒙 forniscono lo stesso contributo al calcolo
dell’indicatore di sintesi
Quando a ciascuna modalità del carattere è associata una frequenza
assoluta unitaria, la media che calcoliamo è una media aritmetica
semplice:
1
𝜇=
𝑛
𝑛
𝑥
=1
Notare che la quantità 1 𝑛, essendo il rapporto tra una frequenza
assoluta (unitaria, nel nostro caso) e la numerosità 𝑛 delle osservazioni,
non è altro che la frequenza relativa associata a ciascuna osservazione
Generalità
Media aritmetica ponderata
Ma la situazione che si presenta abitualmente è quella in cui ciascuna
modalità del carattere è osservata in più unità statistiche e quindi
generalmente 𝑁 > 1
In questo caso, l’indicatore di sintesi dovrà riflettere la circostanza che
alcune modalità del carattere si presentano più frequentemente di
altre e quindi dovranno contribuire maggiormente al calcolo
dell’indicatore di sintesi
Indicando con 𝑁 la numerosità delle osservazioni e con 𝑘 il numero di
modalità del carattere 𝑿, con 𝑘 < 𝑁, la media aritmetica ponderata
avrà forma:
𝜇=
𝑘
=1 𝑥
𝑁
𝑁
Generalità
Media aritmetica ponderata
L’espressione della media aritmetica ponderata può essere riformulata
anche in termini di frequenze relative. Infatti, applicando la proprietà
associativa dell’operatore sommatoria, possiamo scrivere
𝜇=
e quindi, poiché
𝑁𝑖
𝑁
𝑘
=1 𝑥
𝑁
𝑁
𝑘
=
𝑥
=1
𝑁
𝑁
= , si avrà che
𝑘
𝜇=
𝑥
=1
La due formule, sul piano applicativo, sono completamente equivalenti
e la scelta dipende dagli strumenti con cui si svolgono i calcoli
(abaco, calcolatrice, foglio elettronico … )
Generalità
Media aritmetica ponderata
Esempio 3. L’istituto di ricerche demoscopiche TRUELIE chiede ad un campione
di 𝑛 = 1000 intervistati di esprimere con un voto da 0 a 4 il grado di accordo
(0 = totalmente in disaccordo, 4 = completamente d’accordo) con l’affermazione:
«oggi in Italia le tasse sono troppo alte». I risultati dell’indagine sono sintetizzati
nel seguente prospetto:
Tabella 2. Prospetto di sintesi dell'indagine
TRUELIE su «Gli italiani e le tasse». 1000
interviste telefoniche
Livello di accordo
𝑥
𝑁
0
1
2
3
4
5
87
138
554
216
0,005
0,087
0,138
0,554
0,216
Totale
1000
1,000
Generalità
Media aritmetica ponderata
Sulla base dei dati riportati nel prospetto, calcoliamo la media della
distribuzione. Poiché non siamo in presenza di una distribuzione di
frequenze unitarie, adottiamo la formula della media aritmetica
ponderata. Come organizzare la tabella di calcolo? Analizziamo la
formula della media aritmetica ponderata:
𝜇=
𝑘
=1 𝑥
𝑁
𝑁
Prodotto
modalità×frequenza
L’algoritmo di calcolo descritto dalla formula è il seguente:
• calcola i 𝑘 addendi 𝑥 𝑁 , ciascuno ottenuto come
prodotto tra una modalità della 𝑥 e la corrispondente
frequenza assoluta
• somma i 𝑘 addendi
• dividi per la numerosità 𝑁 delle osservazioni
Generalità
Media aritmetica ponderata
Organizziamo i calcoli nella seguente tabella:
Tabella 3. Prospetto di calcolo della media aritmetica
ponderata. Metodo delle frequenze assolute
𝑖-esima
modalità
Livello di accordo
Sommando i prodotti
dell’ultima colonna e
dividendo per il numero
di osservazioni otteniamo:
𝑥𝑁
𝑥
𝑁
0
1
2
3
4
5
87
138
554
216
0,005
0,087
0,138
0,554
0,216
0
87
276
1662
864
Totale
1000
1,000
2889
𝜇=
𝑖-esima
frequenza
assoluta
2889
= 2,889
1000
Prodotto
modalità×frequenza
Generalità
Media aritmetica ponderata
In alternativa, possiamo fare riferimento alle frequenze relative:
Tabella 4. Prospetto di calcolo della media aritmetica
ponderata. Metodo delle frequenze relative
𝑖-esima
modalità
Livello di accordo
𝑖-esima
frequenza
relativa
𝑥
𝑥
𝑁
0
1
2
3
4
5
87
138
554
216
0,005
0,087
0,138
0,554
0,216
0,000
0,087
0,276
1,662
0,864
Totale
1000
1,000
2,889
Il vantaggio di tale procedura è che la media può
essere letta direttamente come totale dell’ultima
colonna
Prodotto
modalità×frequenza
Generalità
Media aritmetica ponderata
L’ultimo caso che può presentarsi è quello di un carattere definito su
scala continua e ripartito in classi. In questo caso non abbiamo
modalità, ma classi di modalità, cioè intervalli di valori definiti tra un
estremo inferiore e un estremo superiore, ciascuno dei quali potrebbe
essere arbitrariamente scelto come rappresentativo dell’intervallo
Tuttavia, nell’ipotesi che le osservazioni si ripartiscano uniformemente
all’interno dell’intervallo 𝑖-esimo, come valore rappresentativo
scegliamo quello centrale, cioè la semisomma dell’estremo inferiore e
di quello superiore:
𝑥 =
𝑖𝑛 + 𝑠𝑢𝑝
2
E ora abbiamo tutti gli elementi per tornare all’Esempio 1
Generalità
Media aritmetica ponderata
Esempio 1. La catena di supermercati DELIGHT incarica una società di ricerche di
mercato di intervistare un campione di 1000 clienti allo scopo di raccogliere
informazioni sulla spesa media mensile per consumi del loro nucleo familiare. Il
risultato dell’indagine è riassunto nel seguente prospetto di sintesi:
Tabella 1. Spesa media mensile familiare per consumi. Rilevazione tra i clienti
della DELIGHT. Valori in euro
Classi di spesa
𝑁
[0, 500)
[500, 1000)
[1000, 1500)
[1500, 2000)
[2000, 2500]
68
164
426
251
91
0,0680
0,1640
0,4260
0,2510
0,0910
0,0680
0,2320
0,6580
0,9090
1,0000
500
500
500
500
500
0,14
0,33
0,85
0,50
0,18
1000
1,0000
-
-
-
Totale
Generalità
Media aritmetica ponderata
Organizziamo i calcoli nella seguente tabella:
Valore centrale
dell’𝑖-esimo
intervallo
Tabella 5. Prospetto di calcolo della media aritmetica ponderata.
Metodo delle frequenze assolute
Classi di spesa
[0, 500)
[500, 1000)
[1000, 1500)
[1500, 2000)
[2000, 2500]
Totale
𝜇=
𝑥
𝑁
250
750
1250
1750
2250
68
164
426
251
91
0,0680
0,1640
0,4260
0,2510
0,0910
17000
123000
532500
439250
204750
1000
1,0000
1316500
𝑥𝑁
1316500
= 1316,5
1000
Generalità
Media aritmetica ponderata
In alternativa, possiamo applicare il metodo delle frequenze relative:
Valore centrale
dell’𝑖-esimo
intervallo
Tabella 6. Prospetto di calcolo della media aritmetica ponderata.
Metodo delle frequenze relative
Classi di spesa
[0, 500)
[500, 1000)
[1000, 1500)
[1500, 2000)
[2000, 2500]
Totale
𝑥
𝑁
250
750
1250
1750
2250
68
164
426
251
91
0,0680
0,1640
0,4260
0,2510
0,0910
17,00
123,00
532,50
439,25
204,75
1000
1,0000
1316,50
𝑥
Generalità
Proprietà della media aritmetica
1. Internalità di Cauchy. La media aritmetica è compresa tra il valore
minimo e il valore massimo della distribuzione:
𝑥1 ≤ 𝜇 ≤ 𝑥𝑛
La dimostrazione di tale proprietà è banale, infatti basta notare che
𝑥1 + 𝑥1 + … + 𝑥1 ≤ 𝑥1 + 𝑥2 + … + 𝑥𝑛 ≤ 𝑥𝑛 + 𝑥𝑛 + … + 𝑥𝑛
da cui
𝑛𝑥1 ≤ 𝑛𝜇 ≤ 𝑛𝑥𝑛
Dividendo per 𝑛 i tre termini della disuguaglianza si dimostra l’assunto
Generalità
Proprietà della media aritmetica
2. Scarti. La somma degli scarti dalla media aritmetica è pari a zero:
𝑛
𝑥 −𝜇 =0
=1
Infatti, come notato in precedenza, si ha che
𝑛
𝑛
𝑥 −𝜇 =
=1
𝑛
𝑥 −
=1
𝜇 = 𝑛𝜇 − 𝑛𝜇 = 0
=1
Tale proprietà può essere facilmente dimostrata anche nel caso di
media aritmetica ponderata
Generalità
Media geometrica: generalità
Abbiamo visto in precedenza che la definizione di media di Chisini
considera una qualsiasi funzione applicata ad un insieme numerico
𝒙 = 𝑥 ; 𝑖 = 1,2, … , 𝑛
Vediamo cosa succede nel caso della funzione «prodotto»:
𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 = 𝑀 ∙ 𝑀 ∙ … ∙ 𝑀
In termini compatti scriveremo
𝑛
𝑥 = 𝑀𝑛
=1
e infine
𝑀=
𝑛
𝑛
𝑥
=1
Generalità
Media geometrica: generalità
Quindi, considerata la funzione prodotto applicata ad un insieme 𝒙, il
valore di sintesi 𝑀 che non ne altera il valore se sostituito agli 𝑛
elementi appartenenti a 𝒙 è definito dalle relazione
𝑀=
𝑛
𝑛
𝑥
=1
Definiamo tale quantità media geometrica, che indicheremo con la
lettera greca 𝛾 da questo momento in poi
Generalità
La media geometrica: generalità
La media geometrica può essere calcolata solo se gli elementi
appartenenti all’insieme 𝒙 sono definiti su ℝ+ , in altri termini può
essere calcolata solo se tutti i valori dell’insieme sono positivi
Una sua caratteristica molto importante è che, rispetto alla media
aritmetica, è estremamente sensibile alla presenza di valori prossimi a
zero. In particolare, è sufficiente la presenza di un unico valore nullo
per annullare la media
La media geometrica è impiegata in tutti quegli ambiti applicativi in cui
i valori non sono sommati tra loro, ma moltiplicati. Esempi tipici sono i
tassi di crescita, i tassi d'interesse o i tassi d'inflazione
Generalità
La media geometrica: generalità
Esempio 4. Ipotizziamo di aver investito 𝑘 = 500 euro a tasso variabile
per 3 anni e che i tassi annui di rendimento dell’investimento siano i
seguenti:
𝒙 = 0,03 0,045 0,027
Come di consueto, il nostro obiettivo è individuare una misura di
sintesi, rappresentativa degli elementi appartenenti a 𝒙, in questo caso
un tasso medio di rendimento dell’investimento
In primo luogo, osserviamo che un capitale di 500 euro investito per un
anno al 3% a fine periodo ammonterà a:
𝑘1 = 500 + 0,03 ∙ 500 = 𝑘 + 0,03𝑘 = 𝑘 1 + 0,03 = 1,03𝑘
Analogamente, se nel secondo anno il montante 𝑘1 è reinvestito al
4,5%, alla fine del secondo anno il capitale reinvestito ammonterà a
𝑘2 = 𝑘1 + 0,045𝑘1 = 1,045𝑘1 = 1,03 ∙ 1,045𝑘
Generalità
La media geometrica: generalità
Se nel terzo anno reinvestiamo 𝑘2 al 2,7%, a fine periodo otterremo
𝑘3 = 𝑘2 + 0,027𝑘2 = 1,027𝑘2 = 1,03 ∙ 1,045 ∙ 1,027𝑘
L’ultima relazione esprime il capitale alla fine del terzo anno in
funzione del capitale iniziale e di una produttoria di coefficienti di
rendimento
Se il nostro obiettivo è calcolare un tasso medio annuo di rendimento,
è inappropriato utilizzare una media aritmetica, in quanto non siamo
in presenza di una funzione «somma», ma di una funzione «prodotto»,
per cui adottiamo la media geometrica semplice
Avremo che
𝛾=
𝑛
𝑛
𝑥 =
3
1,03 ∙ 1,045 ∙ 1,027 =
3
1,10541145 ≅ 1,03397
=1
Il tasso medio di rendimento sarà pari a 𝑟 = 1,03397 − 1 = 0,03397
Generalità
Come calcolare un tasso medio di incremento
percentuale con la media geometrica
Esempio 5. Nella tabella seguente è riportata la tabella sulla
popolazione media di Pescara, desumibile dai bilanci anagrafici, tra il
2002 e il 2009:
Tabella 7. Popolazione media
comune di Pescara. Anni 20022009
Anno
Popolazione media
2002
2003
2004
2005
2006
2007
2008
2009
116.226
121.728
122.083
122.587
122.457
122.402
122.790
123.022
Generalità
Come calcolare un tasso medio di variazione
percentuale con la media geometrica
Il nostro obiettivo è calcolare i 7 tassi annui di incremento demografico
della popolazione del comune di Pescara e, in seguito, il tasso medio di
variazione percentuale della popolazione del comune di Pescara per
l’intero intervallo temporale considerato
È necessario fare una breve premessa. Per effettuare confronti spaziali
o temporali tra grandezze, uno degli strumenti che possiamo utilizzare
è il numero indice. Se una grandezza è suscettibile di variare nel
tempo o nello spazio, definiamo numero indice il rapporto tra due sue
intensità:
𝑥𝑏
𝑎𝑏𝑖𝑥 =
𝑥𝑎
Generalità
Come calcolare un tasso medio di variazione
percentuale con la media geometrica
Convenzioni. Nel rappresentare il numero indice, abbiamo rispettato
alcune convenzioni:
• un numero indice semplice (in quanto riferito a fenomeni semplici,
come un livello di popolazione) è rappresentato con la lettera 𝑖
minuscola;
• sulla sinistra si specificano i descrittori e 𝑏 delle intensità che
stiamo mettendo a rapporto (nel nostro caso la quantità 𝑥𝑏 e la
quantità 𝑥𝑎 , base del confronto), cioè le «posizioni» spaziali o
temporali delle intensità confrontate. Nel caso di confronti
temporali, e 𝑏 saranno due tempi (giorni, mesi, anni);
• sulla destra specifichiamo la grandezza per la quale stiamo
calcolando l’indice (genericamente 𝑥, ma se fossero prezzi potrei
scrivere 𝑝, se fossero quantità scambiate potrei scrivere 𝑞, se fosse
un prodotto o un reddito potrei scegliere 𝑦, e così via)
Generalità
Come calcolare un tasso medio di variazione
percentuale con la media geometrica
Come si legge un numero indice? Facciamo un esempio: ipotizziamo di
voler confrontare la popolazione del comune di Pescara nel 2003 con
quella del 2002, utilizzando un numero indice:
12𝑖𝑝 =
𝑝2 121.728
=
= 1,0473
𝑝1 116.226
L’indice si legge come segue: fatta pari all’unità la popolazione di
Pescara nel 2002, quella del 2003 sarebbe uguale a 1,0473. In generale,
quando rapportiamo due grandezze, ne eliminiamo l’unità di misura e
l’indice che otteniamo è un numero puro
Naturalmente, possiamo rendere l’indice in termini statisticamente più
significativi, moltiplicandolo per 100:
12𝑖𝑝
× 100 = 104,73
Generalità
Come calcolare un tasso medio di variazione
percentuale con la media geometrica
L’aspetto interessante dei numeri indici è che consentono di valutare
con immediatezza il tasso di variazione percentuale. Con riferimento
all’espressione del numero indice in termini percentuali, infatti,
detraendo al valore dell’indice la quantità 100, otteniamo il tasso di
variazione percentuale:
12𝑖𝑝
× 100 − 100 = 104,73 − 100 = 4,73
Quindi, rispetto al 2002 la popolazione del comune di Pescara è
aumentata l’anno successivo del 4,73%
Adesso dovremo calcolare gli indici a base mobile (cioè gli indici di
ciascun anno sul precedente) della popolazione e la loro media.
Scegliamo la media geometrica perché gli indici sono dei rapporti,
quindi scegliere una media aritmetica sarebbe inappropriato
Generalità
Come calcolare un tasso medio di variazione
percentuale con la media geometrica
Allestiamo quindi la seguente tabella di calcolo:
Tabella 8. Numeri indici a base mobile della
popolazione del comune di Pescara.
Anni 2002-2009
Anno
Popolazione media
2002
2003
2004
2005
2006
2007
2008
2009
116.226
121.728
122.083
122.587
122.457
122.402
122.790
123.022
1, 𝑝
1,0473
1,0029
1,0041
0,9989
0,9996
1,0032
1,0019
Generalità
Come calcolare un tasso medio di variazione
percentuale con la media geometrica
Il tasso medio di variazione percentuale (o tasso medio di crescita)
della popolazione del comune di Pescara tra il 2002 e il 2009 può
quindi essere determinato calcolando la media geometrica degli indici
a base mobile, moltiplicando tale quantità per 100 e sottraendo 100. In
simboli:
𝛾=
7
8
=2
1, 𝑖𝑝
= 𝑖𝑝
Poiché
8
=2
1, 𝑖𝑝
= 1,0473 ∙ 1,0029 ∙ 1,0041 ∙ 0,9989 ∙ 0,9996 ∙ 1,0032 ∙ 1,0019 = 1,0584
risulterà 𝑖𝑝 =
7
1,0584 = 1,0081
Generalità
Come calcolare un tasso medio di variazione
percentuale con la media geometrica
Come si è chiarito in precedenza, dobbiamo passare dall’indice medio,
calcolato con la media geometrica, al tasso medio di variazione
percentuale. L’indice percentuale è dato da:
𝑖𝑝 × 100 = 1,0081 × 100 = 100,81
Infine, otteniamo il tasso medio di variazione percentuale sottraendo al
precedente risultato il valore 100:
𝑖𝑝 × 100 − 100 = 100,81 − 100 = 0,81
Quindi, la popolazione di Pescara, tra il 2002 e il 2009,
è aumentata mediamente dello 0,81% l’anno
Generalità
La media geometrica ponderata
Nei due esempi precedenti, ciascun rendimento/tasso di crescita
caratterizzava un’unica osservazione, quindi eravamo in presenza di
una distribuzione di frequenze assolute unitarie
Cosa cambia nella formulazione della media geometrica se alcune
modalità (rendimenti, tassi di crescita, ecc.) si ripetono in più
osservazioni?
Affrontiamo il problema con il semplice esempio seguente:
Generalità
La media geometrica ponderata
Esempio 6. Ipotizziamo di aver investito 𝑤 = 500 euro a tasso variabile
per 5 anni e che i tassi annui di rendimento dell’investimento siano i
seguenti:
𝒓 = 0,03 0,045 0,045 0,027 0,027
Nel calcolo del montante alla fine del quinto anno, cambia qualcosa
rispetto all’Esempio 4? Evidentemente no. Infatti, alla fine del quinto
anno, il capitale reinvestito ammonterà a
𝑘5 = 1,03 ∙ 1,045 ∙ 1,045 ∙ 1,027 ∙ 1,027𝑤
che possiamo scrivere come
𝑘5 = 1,03 ∙ 1,0452 ∙ 1,0272 𝑤
Generalità
La media geometrica ponderata
Calcoliamo la media geometrica dei coefficienti di rendimento:
𝛾=
5
5
1,03 ∙ 1,0452 ∙ 1,0272 =
1,186344 = 1,034766
e il rendimento medio annuo sarà pari a
𝑟 = 1,034766 − 1 = 0,034766
In generale, con 𝑁 osservazioni e 𝑘 modalità distinte del carattere 𝑿,
indicando come di consueto le frequenze assolute come 𝑁 , scriveremo
che
𝛾=
𝑁
𝑘
𝑥
𝑁𝑖
=1
Tale relazione definisce la media geometrica ponderata
Generalità
La media geometrica ponderata
Possiamo fare qualche intervento «cosmetico» sulla formula,
osservando che in virtù di una nota proprietà dei radicali (e delle
𝑛
𝑚 = 𝑚 𝑛
funzioni esponenziali … )
Se applichiamo tale proprietà alla nostra formula, ricordando che
𝑁𝑖
è la generica 𝑖-esima frequenza relativa, possiamo scrivere che
𝑁
𝛾=
𝑁
𝑘
𝑥
=1
𝑁𝑖
𝑘
=
𝑥
=1
𝑁𝑖
𝑁
𝑘
=
𝑥
=
𝑓𝑖
=1
Nella precedente relazione, la media geometrica ponderata è espressa
in termini delle frequenze relative associate alle 𝑘 modalità del
carattere 𝑿
Tale espressione sarà utile a breve, quando presenteremo
la nozione generalizzata di medie di potenze
Generalità
La media geometrica ponderata
Esempio 7. Nella seguente tabella è riportata la distribuzione dei
rendimenti annuali garantiti ai sottoscrittori dell’hedge fund FLEXIA nel
periodo compreso tra il 2000 e il 2014:
Tabella 9. Tassi medi di rendimento
garantiti ai sottoscrittori del fondo
FLEXIA. 2000-2014
𝑥
𝑁
0,03
0,04
0,07
0,09
3
3
3
6
Totale
15
Generalità
La media geometrica ponderata
Per calcolare il rendimento medio, allestiamo il seguente prospetto di
calcolo:
Tabella 10. Prospetto di calcolo del tasso medio annuo di
rendimento 2000-2014
𝑥
𝑓𝑖
𝑟
𝑥 =1+𝑟
𝑁
0,03
0,04
0,07
0,09
1,03
1,04
1,07
1,09
3
3
3
6
0,2
0,2
0,2
0,4
1,005929
1,007875
1,013624
1,035072
15
1,0
1,063706
Totale
Modalità^freq. rel.
Il rendimento medio ammonterà a 𝑟 = 1,063706 − 1 ≅ 0,064
4
𝑥
=1
𝑓𝑖
Generalità
Proprietà della media geometrica
1. Internalità di Cauchy. La media geometrica è compresa tra il valore
minimo e il valore massimo della distribuzione:
𝑥1 ≤ 𝜇 ≤ 𝑥𝑛
La dimostrazione di tale proprietà è banale, infatti basta notare che
𝑥1 × 𝑥1 × … × 𝑥1 ≤ 𝑥1 × 𝑥2 × … × 𝑥𝑛 ≤ 𝑥𝑛 × 𝑥𝑛 × … × 𝑥𝑛
da cui
𝑥1 𝑛 ≤ 𝛾 𝑛 ≤ 𝑥𝑛 𝑛
Calcolando la radice 𝑛-esima dei tre termini della disuguaglianza si
dimostra l’assunto
Generalità
Media armonica: generalità
Torniamo alla definizione di Chisini per presentare un’altra misura di
sintesi di utilizzo frequente, che definiamo media armonica
Con riferimento ad un insieme numerico 𝒙 = 𝑥 ; 𝑖 = 1,2, … , 𝑛 ,
ipotizziamo che sia la funzione «somma dei reciproci» delle
osservazioni e verifichiamo qual è la misura di sintesi 𝑀 che in questo
caso non altera il valore delle funzione:
1
1
1
1
1
1
+ + …+
= + + …+
𝑥1 𝑥2
𝑥𝑛 𝑀 𝑀
𝑀
In termini compatti avremo che
𝑛
𝑛
1
=
𝑥
=1
1
=1 𝑀
e quindi
𝑀=
𝑁
𝑛 1
=1 𝑥
𝑛
1
𝑁
=
𝑀
=1 𝑀
Generalità
Media armonica: generalità
Quindi, considerata la funzione somma applicata ai reciproci degli
elementi appartenenti ad un insieme 𝒙, il valore di sintesi 𝑀 che non
ne altera il valore se sostituito agli 𝑛 elementi di 𝒙 è definito dalla
relazione
𝑀=
𝑁
𝑛 1
=1 𝑥
Come abbiamo anticipato, definiamo tale quantità media armonica,
che indicheremo con la lettera greca 𝛼 da questo momento in poi
Generalità
Media armonica: generalità
Quando è appropriato utilizzare una media armonica come indicatore
di sintesi? Un semplice esempio consentirà di cogliere in maniera
intuitiva gli ambiti di applicazione di questo particolare tipo di media
Ipotizziamo di disporre di una somma di denaro pari a 𝑆 euro. Dato un
insieme di 𝑛 prodotti, possiamo utilizzare la somma 𝑆 per acquistare la
quantità 𝑞1 del prodotto 1, la quantità 𝑞2 del prodotto 2, e così via fino
al prodotto 𝑛-esimo
In maniera del tutto ovvia, il prezzo dell’𝑖-esimo prodotto può essere
ricavato dividendo 𝑆 per la quantità di prodotto che posso acquistare
spendendo 𝑆:
𝑆
𝑆
𝑆
𝑝1 = , 𝑝2 = , … , 𝑝𝑛 =
𝑞1
𝑞2
𝑞𝑛
Generalità
Media armonica: generalità
Il prezzo medio degli 𝑛 beni può essere determinato tramite un
rapporto, in cui al numeratore figura l’ammontare complessivo delle
transazioni 𝑛𝑆 e al denominatore la somma delle quantità acquistabili
𝑛
=1 𝑞 :
𝑛𝑆
𝑝=
Osservando che
𝑛
=1 𝑞
=
𝑝=
𝑛 𝑆
=1 𝑝
𝑖
𝑛
=1 𝑞
, sostituendo otteniamo
𝑛𝑆
𝑛 𝑆
=1 𝑝
=
𝑛
𝑛 1
=1 𝑝
Quindi il prezzo medio può essere ottenuto come media
armonica dei prezzi degli 𝑛 prodotti
Generalità
La media armonica: generalità
Esempio 8. Ipotizziamo di aver rilevato il prezzo in euro di tre prodotti
presso un punto vendita:
𝒑 = 4,20 4,50 5,10
Il nostro obiettivo è individuare una misura di sintesi, rappresentativa
degli elementi appartenenti a 𝒑, in questo caso con l’ausilio di una
media armonica
Poiché nell’esempio 𝑛 = 3, scriveremo
𝑝=
𝑛
𝑛 1
=1 𝑝
=
3
3
=
≅ 4,573
1
1
1
0,238
+
0,222
+
0,196
4,20 + 4,50 + 5,10
Generalità
La media armonica ponderata
Naturalmente, anche nel caso della media armonica dovremo
distinguere la misura di sintesi calcolata nel caso di distribuzioni di
frequenze unitarie (la media armonica semplice adottata finora) dalla
misura di sintesi che calcoliamo nel caso più generale in cui una
generica modalità del carattere è rilevata su più unità statistiche
componenti il collettivo e quindi 𝑁 > 1
Nel caso di un carattere che assume 𝑘 modalità o classi di modalità
distinte, facciamo riferimento alla media armonica ponderata, definita
dalla seguente relazione:
𝛼=
𝑁
𝑘 𝑁
=1 𝑥
Generalità
La media armonica ponderata
Come in precedenza, possiamo effettuare un intervento «cosmetico»
sulla formula per semplificarne la lettura
Dividendo numeratore e denominatore del rapporto per 𝑁 e
𝑁
ricordando che 𝑁𝑖 = , possiamo scrivere
𝑁
𝑁 𝑁
𝛼=
=
𝑘 𝑁
𝐾 𝑁 𝑁
=1 𝑥
=1 𝑥
e quindi
𝛼=
1
𝑘
=1 𝑥
𝑁
=1
𝑁
𝑁
=
𝑁
Generalità
La media armonica ponderata
Esempio 9. Ipotizziamo che una società di ricerche di mercato sia interessata ad
analizzare le politiche di prezzo della catena di supermercati MONOPRICE e a
questo scopo abbia rilevato il prezzo di 𝑁 = 100 prodotti presenti nei punti
vendita della catena. I risultati delle rilevazioni sono riassunti nel seguente
prospetto di sintesi:
Tabella 10. Prezzi dei prodotti
distribuiti nei punti vendita
MONOPRICE. Valori in euro
Prezzo
𝑁
0,99
1,49
1,99
2,49
2,99
24
45
14
10
7
0,24
0,45
0,14
0,10
0,07
100
1,00
Generalità
La media armonica ponderata
Come organizzare la tabella di calcolo? Esaminiamo la formula della
media armonica ponderata:
𝛼=
𝑁
𝑘 𝑁
=1 𝑥
L’algoritmo di calcolo descritto dalla formula è il seguente:
• calcola i 𝑘 rapporti
𝑁𝑖
,
𝑥𝑖
ottenuti dividendo la generica
𝑖-esima frequenza assoluta per la corrispondente
modalità del carattere
• somma i 𝑘 rapporti
• dividi la numerosità 𝑁 delle osservazioni per il risultato
della precedente operazione di somma
Generalità
La media armonica ponderata
Impostiamo la tabella di calcolo:
Ricordando che
𝛼=
𝑁
𝑘 𝑁
=1 𝑥
otteniamo
100
𝛼=
≅ 1,474
67,8361
Tabella 11. Prospetto di calcolo della media
armonica ponderata. Metodo delle frequenze
assolute
𝑁
𝑥
Prezzo
𝑁
0,99
1,49
1,99
2,49
2,99
24
45
14
10
7
0,24
0,45
0,14
0,10
0,07
24,2424
30,2013
7,0352
4,0161
2,3411
100
1,00
67,8361
𝑘
𝑁
=1 𝑥
Generalità
La media armonica ponderata
Se invece scegliamo di adottare il metodo delle frequenze relative, la
tabella sarà organizzata nel modo seguente:
Tabella 12. Prospetto di calcolo della media
armonica ponderata. Metodo delle frequenze
relative
Poiché risulta
𝛼=
1
𝑘
=1 𝑥
otteniamo
1
𝛼=
≅ 1,474
0,6784
Prezzo
𝑁
0,99
1,49
1,99
2,49
2,99
24
45
14
10
7
0,24
0,45
0,14
0,10
0,07
0,2424
0,3020
0,0704
0,0402
0,0234
100
1,00
0,6784
𝑥
𝑘
=1 𝑥
Generalità
Generalizzazione: le medie di potenze
È possibile generalizzare, da un punto di vista formale, il concetto di
misura di sintesi. Lo strumento che ci consente di generalizzare è la
classe delle medie di potenze o medie potenziate
Da questo momento in poi, senza perdita di generalità, faremo
riferimento per agilità di notazione esclusivamente a frequenze relative
Dato un fenomeno 𝑿 definito su ℝ che assuma 𝑘 modalità o classi di
modalità distinte, sia 𝐱 = 𝑥1 , 𝑥2 , … , 𝑥𝑛 l’insieme delle misure di 𝑿
rilevate in un collettivo composto da 𝑛 unità statistiche. Definiamo
media di potenza di ordine 𝒔 la quantità
𝑘
𝑀𝑠 =
𝑥𝑠
1
𝑠
=1
Al variare di 𝑠 quindi 𝑀𝑠 descrive un’intera classe di misure
di sintesi, di cui esamineremo alcune proprietà
Generalità
Generalizzazione: le medie di potenze
Perché la classe delle medie di potenze è interessante? Ipotizziamo di
considerare il valore 𝑠 = 1; avremo che
𝑘
𝑠=1 →
𝑀1 =
𝑥
1
1
1
𝑘
=
𝑥
=1
=1
Quindi per 𝑠 = 1 la misura di sintesi che otteniamo è la media
aritmetica ponderata
Consideriamo adesso il valore 𝑠 = −1; avremo che
𝑘
𝑠 = −1 →
𝑀
1
=
𝑥
=1
1
1
1
1
=
𝑘
=1 𝑥
e quindi otteniamo la media armonica ponderata
Generalità
Generalizzazione: le medie di potenze
Si può dimostrare inoltre che
𝑘
𝑠→0 →
𝑀0 =
𝑥
𝑓𝑖
=1
Quindi per 𝑠 → 0 la misura di sintesi che otteniamo è la media
geometrica ponderata
In generale, considerati due numeri 𝑟 e 𝑠, tali che 𝑟 < 𝑠, si avrà che
𝑀𝑟 < 𝑀𝑠
Con riferimento alle tre medie pitagoriche (armonica, geometrica e
aritmetica), tale proprietà implica che
𝑀
1
< 𝑀0 < 𝑀1
Generalità
Generalizzazione: le medie di potenze
Inoltre, dato un insieme 𝒙 = 𝑥1 , 𝑥2 , … , 𝑥𝑛 ordinato, cioè tale che
𝑥1 ≤ 𝑥2 ≤ … ≤ 𝑥𝑛 , si può dimostrare che
𝑠→∞
→
𝑠 → ∞+ →
𝑀∞− → 𝑥1
𝑀∞+ → 𝑥𝑛
Perché è interessante tale proprietà delle medie di potenze?
Perché, se applicata alle tre medie pitagoriche (armonica, geometrica e
aritmetica), caratterizzate rispettivamente da ordine 𝑠 = −1; 0; +1 ,
ci consente di mostrare che, con riferimento ad un qualche insieme di
osservazioni 𝒙 = 𝑥1 , 𝑥2 , … 𝑥𝑛 definite su ℝ+ , le tre medie
assumeranno valori tali che
𝑀
1
≤ 𝑀0 ≤ 𝑀1
Generalità
Generalizzazione: le medie di potenze
Esempio 10. Con riferimento ai dati dell’Esempio 1, verificare che
𝛼≤𝛾≤𝜇
Tabella 6. Prospetto di calcolo della media aritmetica, geometrica e armonica.
Metodo delle frequenze relative
Classi di spesa
[0, 500)
[500, 1000)
[1000, 1500)
[1500, 2000)
[2000, 2500]
Totale
𝑥
𝑁
250
750
1250
1750
2250
68
164
426
251
91
0,0680
0,1640
0,4260
0,2510
0,0910
1000
1,0000
𝑥
17,00
123,00
532,50
439,25
204,75
𝑥
𝑓𝑖
𝑥
1,456
2,961
20,859
6,516
2,019
0,00027
0,00022
0,00034
0,00014
0,00004
1316,50 1182,782
0,00102
Poichè 𝛼 = 1 0,00102 ≅ 984,89, 𝛾 = 1182,78 e 𝜇 = 1316,5 risulta
verificato che 𝛼 ≤ 𝛾 ≤ 𝜇
Fly UP